近日,兩個由 OpenAI 的研究人員開發的一模一樣的機械臂愛麗絲和鮑勃,可以在模擬情景中通過對弈互相學習,而不需要人為輸入文本。
其中一個虛擬機械臂已經學會解決各種不同的難題堆積木、擺放桌子、排列國際象棋棋子,并且每項任務不需要進行再訓練。這一切通過與另一個機械臂對弈得以實現。據了解,另一個機械臂經過訓練后,會給原本的機械臂臂帶來越來越難的挑戰。
這些機器人采用的是強化學習算法,即在不同情況下,通過試錯來訓練人工智能,并采取不同行動來實現目標。游戲包括在虛擬桌面上移動物體。例如,通過以特定的方式排列物體,愛麗絲試圖設置對鮑勃來說很難解決的謎題,而鮑勃會試圖解決愛麗絲的謎題。隨著它們的學習,愛麗絲會設置更復雜的謎題,而鮑勃也會越來越會解謎。
經過愛麗絲設置的積木謎題的訓練后,鮑勃便可以通用于一系列任務,包括擺放桌子和排列象棋棋子。
通常在多重任務處理中,深度學習模型必須在任務間進行再訓練。例如,AlphaZero (一款棋類 AI,可以通過自我博弈來學習)會使用單一算法教自己下國際象棋、將棋和圍棋但每次只能下一盤棋。例如,下國際象棋的時 AlphaZero 不能下圍棋,下圍棋時的 AlphaZero 不能下將棋。因此,造出真正能同時處理多任務的機器,是走向更通用的人工智能道路上的一大未解難題。
訓練 AI 同時執行多重任務時會遇到一個問題,即需要大量的例子。OpenAI 則通過訓練愛麗絲為鮑勃生成例子,用一個 AI 訓練另一個 AI 來避免這個問題。經過訓練,愛麗絲學會了設定目標,比如建造一座積木塔,然后把它撿起來并加以平衡。鮑勃學會了利用虛擬環境的屬性,如通過摩擦力來抓取和旋轉物體。
截至目前,虛擬現實的訓練只在虛擬環境中進行,但 OpenAI 和其他機構的研究人員正在將虛擬環境中訓練的模型轉移到物理環境中,且越來越有起色。據悉,模擬環境可以讓 AI 在短時間內處理大型數據集,然后研究人員會根據現實世界的環境再對其進行微調。
該團隊的研究人員表示,他們的最終目標是訓練這些機械臂去解決人類可能要求它做的任何任務。與 GPT-3 一樣(GPT-3 是一個能以各種不同方式使用語言的語言模型),這些機器人手臂是 OpenAI 打造多任務人工智能整體目標的一部分,而使用一個 AI 來訓練另一個 AI 也許是其中的關鍵所在。
責任編輯:YYX
-
AI
+關注
關注
87文章
30896瀏覽量
269110 -
機械臂
+關注
關注
12文章
515瀏覽量
24588 -
OpenAI
+關注
關注
9文章
1089瀏覽量
6516
發布評論請先 登錄
相關推薦
評論