OpenAI的研究人員開發了一套基于能量的神經網絡模型,可以快速學會識別并生成關于概念的實例,比如附近、上方、之間、最近、最遠等,并將這些概念用2D點集來表示。模型可以僅在5次演示之后就學會這類概念,并實現了跨領域的概念遷移。
衡量是否達到人類智能,涉及由有限的經驗,通過抽象推理和規劃、類比推理、創造性問題解決和語言能力的概括,從而將經驗整合到概念中,將概念作為理解和推理的基本架構。
這款基于能量的新模型,讓智能體能夠從任務中學習和提取概念,并使用這些概念來解決多個領域中的其他任務。比如可以在2D粒子環境中應用的學習概念,然后在基于3D的機器人環境中執行相同的任務,無需在新環境中重新訓練。
通過基于能量的模型訓練的模擬機器人,利用不同2D域中學習到的概念,將手臂導航至兩點之間
本研究利用能量函數,讓智能體學習分類和生成簡單的概念,來解決在不同環境中的兩點之間導航等任務。這些概念包括視覺概念(“紅色”、“正方形”)、空間概念(“內部”、“在...之上”)、時間概念(“慢”、“之后”),社會概念(“積極”、“有用”)等等。
一旦智能體學會了這些概念,就會成為其理解和推理的基本模塊,最近DeepMind和 Vicarious的一些其他研究也表明了這一點。
能量函數讓系統可以生成(左)并識別(右)基本概念,比如“正方形”的概念。
構建能量函數:基于關系網絡體系結構的神經網絡
為了創建能量函數,需要在數學上將概念表示為能量模型。
我們根據以下要素來定義每個概念的能量函數 E(x,a,w):
模型觀察到的世界狀態(x)
該狀態下該實體的注意力掩膜(a)。
作為條件的連續值向量(w),用于指定計算能量的概念
世界上的眾多狀態由多組實體及其屬性和位置組成(比如下面的點,就具有位置和顏色屬性)。用于“識別”的注意力掩膜表示模型對某些實體集的關注。
能量模型輸出單個正數,表示滿足相應概念(零能量)或不滿足概念(高能量)。當注意力掩模集中在表示概念的一組實體上時,該概念即被滿足,這需要實體處于正確的位置(修改x、生成概念),而且注意力掩膜關注的是正確的實體(修改a、識別概念)。
我們將能量函數構建為基于關系網絡體系結構的神經網絡,允許其將任意數量的實體作為輸入。這個能量函數的參數是由我們的訓練程序進行優化的,其他函數是從能量函數中隱式導出的。
這樣,我們能夠使用能量函數來學習可以執行生成和識別的單個網絡,并可以交叉使用從生成到識別的學習概念,反之亦然。(目前已經通過鏡像神經元在動物身上觀察到了這種效應。)
單一網絡的訓練
訓練數據由(注意掩膜、狀態)的軌跡組成,提前生成的軌跡用于確認我們希望模型學習的特定概念。我們為給定概念集提供一組演示(通常為5次)來訓練模型,然后將模型置于一個新的環境(X0),并要求其預測下一個狀態(X1)和下一個注意力掩膜(a)。
優化能量函數,向訓練數據中找到的下一個狀態和下一個注意力掩模分配低能量值。與變分自動編碼器等生成模型類似,激勵模型去學習那些對于壓縮任務方面的有用值。我們使用各種概念來訓練模型,包括視覺,空間,遠近和時間關系,以及二維粒子環境中的量化。
空間區域概念:給出2D示例點(左),推斷該點上的能量函數(中間),然后使用能量上的隨機梯度下降來生成新的點(右)
模型在概念生成和識別訓練中分享經驗,實現遷移學習
我們在一系列任務中對模型進行了評估,旨在測試單一系統識別和生成相同概念下的目標的能力,我們的系統可以學習分類,可以生成特定的空間關系集,還可以以特定方式通過場景對實體進行導航,或者可以對數量(比如一個、兩個、三個或三個以上)或接近度等概念進行比較準確的判斷。
數量概念:示例注意力掩膜在一個、兩個、三個或三個以上的目標上的表現,可推斷用于生成類似數量概念的注意力掩模
模型在學習概念的生成(通過在狀態向量x中移動目標實現)和識別(通過在固定狀態向量上更改注意力掩膜實現)之間分享經驗時的表現更好:在我們對共同執行這兩類任務的模型進行評估時發現,它們的表現都比僅在各自執行單一任務訓練的模型更好。
此外,我們還發現了遷移學習的跡象。只在概念識別環境中訓練過的能量函數,也能很好地執行概念生成任務,即使其沒有經過明確的訓練。
未來方向:進一步探索概念和語言理解的關系
我們很高興能夠在更豐富的三維環境中學到的更廣泛的概念,將概念與智能體決策策略相結合(因為到目前為止,我們只是將概念視為從被動體驗中學到的東西),并探索概念和語言理解之間的聯系。
-
機器人
+關注
關注
211文章
28594瀏覽量
207829 -
神經網絡
+關注
關注
42文章
4777瀏覽量
100995 -
智能體
+關注
關注
1文章
163瀏覽量
10600
原文標題:OpenAI概念學習新模型:學會概念僅需5次示范,實現跨領域概念遷移
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論