波士頓動力人形機器人的后空翻技能亮相時,驚艷了全球群眾。
這么復雜的動作,不用說現實世界中的機器人,就算是在模擬器里,學起來也非常的難。
現在,加州大學伯克利分校和英屬哥倫比亞大學最新研究的一種新方法,能教生活在模擬器中的機器人通過模仿人類,學會武打、跑酷、雜技等復雜技能。
后空翻回旋踢什么的,輕輕松松搞定~
(下文還會提到很多次“機器人”,基本都是生活在模擬器里的這種)
讓機器人、動畫和游戲角色能靈活流暢地運動,是計算機圖形學、強化學習、機器人等等領域的研究者都在追求的目標。
不同方法各有所長,當然也各有所短。
用強化學習方法教機器人(模擬器里的智能體),能學會的動作花樣繁多,細致到拿東西、豪放到奔跑都能搞定,還可以給機器人設置一個明確的目的。但是,總難免上演一些羞恥或驚喜play。
而動作捕捉技術,能讓機器人做出和真人一模一樣,自然流暢毫無違和感的動作。但是,活學活用是不能指望的,每個動作、每個形態的機器人,都是需要單獨訓練的。
伯克利的科學家們取這兩個領域所長,創造了一種新方法DeepMimic。這種方法既有深度學習模型的通用性,可以覆蓋更多的動作類型和機器人形態,動作的自然流暢程度也可以媲美動作捕捉。
用這種新方法,機器人究竟是怎么學習新動作的呢?
簡單來說是通過看動作片段來學習,人類的動作捕捉數據就是個很好的學習資料。給機器人展示一個動作樣本,比如說下圖這個側空翻,右側就是供機器人學習的示范樣本。
參與這項研究的科學家們將示范動作分解成一個q^0,q^1,…,q^T的序列,q^T表示的是在機器人在t時間步的目標動作。而這個機器人學習的目標,就是要盡可能消滅t時間步的實際動作qT和目標動作q^T的差距。
機器人勤勞地不停練習練習練習,直到自己的動作不再羞恥,靈活性和仿真度能夠媲美演示視頻,像上圖左側那樣。
指導這個練習過程的,是這樣一個獎勵函數:
除了空翻,用這種方法教出來的機器人還能學到中西舞蹈、南拳北腿、跑步打把勢甚至鯉魚打挺:
對著完美的動作捕捉樣本,再copy一遍,有什么意思?這項研究當然不止于模仿。DeepMimic能讓機器人通過模仿學會動作之后,再活學活用起來。
比如當一個機器人學會了投球,就可以去執行一個演示樣本中沒有的任務。我們可以在模擬器中,指定一個目標讓它來投:
訓練的機器人,也可以長得和演示樣本不太一樣。比如說還是用前邊的后空翻樣本,可以訓練一個模擬波士頓動力Altas的機器人:
甚至不是人形的機器人,也可以用人形樣本來訓練。比如說這頭霸王龍,就是跟人形樣本學習的走路。在論文的主頁上,他們還展示了更多的例子,甚至還有獅子和龍~
-
機器人
+關注
關注
211文章
28418瀏覽量
207095 -
深度學習
+關注
關注
73文章
5503瀏覽量
121162
原文標題:強化學習新方法,讓后空翻回旋踢再也難不倒機器人 | 伯克利論文
文章出處:【微信號:tjrobot,微信公眾號:天津機器人】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論