來自英特爾AI實驗室和俄勒岡州立大學工程學院協作機器人和智能系統研究所的研究人員結合了多種方法,制作了性能更好的強化學習系統,可應用于機器人控制,控制自主車輛功能的系統和其他復雜系統。
協同進化強化學習(CERL)可以在類人、Hopper、Swimmer、HalfCheetah和Walker2D等基準測試中獲得更好的性能。使用CERL方法,研究人員能夠基于OpenAI的Humanoid基準測試使3D人形機器人直立行走。
這些成果在一定程度上是通過訓練系統實現的,該系統探索了更多的強化學習訓練環境,以尋求獎勵并完成特定的任務。
環境探索對于確保記錄各種經驗并考慮行動方案非常重要。研究人員在一篇解釋CERL工作原理的論文中說,與環境探索相關的問題已經出現,特別是在使用深度強化學習來完成具有挑戰性的現實任務越來越普及的情況下。該論文寫道,“神經進化將整個過程結合在一起,產生了一個超越任何個體學習者能力的學習者。”
CERL將基于策略梯度的強化學習和進化算法相結合,然后在每批或每一代訓練系統中選擇表現最佳的神經網絡。這樣,研究人員可以就可以使用最強大的神經網絡來創建新一代的系統,并且可以將計算資源分配給實現最佳性能的算法。
CERL還結合了重放緩沖區,用于存儲學習者在環境中的體驗,以便創建單個重放緩沖區并在系統之間共享體驗,從而實現比以前方法更高的樣本效率。
當前,人工智能正在從多個方面賦予機器人越來越多的能力,相信隨著相關技術的不斷增強,人形機器人的應用場景也將會大大拓展。
-
機器人
+關注
關注
211文章
28512瀏覽量
207500
發布評論請先 登錄
相關推薦
評論