跑酷是一項極限運動,需要參與者以高度動態的方式跨越障礙,對于大多數時候「笨手笨腳」的機器人來說,這似乎是件遙不可及的事,不過最近在機器人控制領域里出現了一些技術突破的趨勢。幾周前,機器之心曾報道過一個使用強化學習方法讓機器狗實現跑酷的研究,實現了不錯的效果。
最近,卡內基梅隆大學(CMU)的一項新研究也針對機器狗跑酷的挑戰提出了新方法,效果又上了一個臺階,以至于人們的評價一致是:amazing.
觀眾:「是《黑鏡》里面演的樣子」。
CMU 的這項研究讓機器狗可以像狗狗障礙賽里的選手一樣,自動越過不連續的箱子,在不同角度傾斜的坡面之間輕松地跑跳:
而且通過這些障礙的速度也很快。
輕松跳過 0.8 米(機器狗長度的 2 倍)的間距:
爬上 0.51 米高(機器狗高度的 2 倍)的障礙物:
這回沒有一把站穩,它還用后腿進行了補救,動作像真的狗一樣。
機器狗還可以做一些真實世界里動物難以完成的事,比如僅用兩條前腿行走,相當于倒立行走:
還能僅用兩條前腿下樓梯:
像在游戲里面卡了 bug,有點滑稽,又帶有一點點恐怖谷效應。
該研究旨在讓小型低成本機器狗能夠完成跑酷任務。這類機器狗的驅動不精確,且僅有用于感知的單個前置深度攝像頭,頻率低、容易出現抖動和偽影。
基于此,該研究提出一種直接從原始深度和機載傳感到關節角度命令的神經網絡,并通過大規模強化學習進行模擬訓練,以克服不精確的傳感和驅動帶來的問題,端到端地輸出高度精確的控制行為。研究項目已開源。
-
論文地址:https://extreme-parkour.github.io/resources/parkour.pdf
-
項目地址:https://github.com/chengxuxin/extreme-parkour
方法簡介
該研究通過端到端數據驅動的強化學習框架使機器狗具備「跑酷」的能力。為了讓機器狗在部署時根據障礙物類型進行自我調整,該研究提出了一種新穎的雙重蒸餾(dual distillation)方法。該策略不僅能輸出靈活的運動命令,還可以根據輸入深度圖像快速調整方向。
為了讓單個神經網絡能夠表征不同的跑酷技能行為,該研究提出了一種基于內積的簡單而有效的通用獎勵設計原則。
具體來說,該研究旨在訓練一個直接從原始深度和機載傳感到關節角度命令的神經網絡。為了訓練適應性運動策略,該研究采用了正則化在線適應(ROA)方法,并針對極限跑酷任務進行了關鍵修改。
實驗結果
該研究主要讓機器狗掌握 4 種技能,包括攀爬、跳過間距、在斜坡上跑跳、倒立,與其他幾種方法的比較結果如下表 1 所示:
為了驗證系統中各部分的作用,該研究提出了兩組基線。該研究首先測試了獎勵設計和整體 pipeline,結果如下表 2 所示:
第二組基線旨在測試蒸餾設置,其中涉及用于方向預測的 BC 和用于動作的 dagger,實驗結果如下表 3 所示:
此外,該研究還進行了很多現實實驗(記錄成功率),并與 NoClear 和 NoDir 基線進行比較,實驗結果如下圖 7 所示:
-
物聯網
+關注
關注
2912文章
44878瀏覽量
375677
原文標題:讓人恐懼的是,機器狗已經能做這種事了
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論