MIT團隊打造“密集目標網絡”(DON)的機器人系統,能夠讓抓取機器人真正“讀懂”目標,該系統將目標處理生成三維“視覺路線圖”的點集合,讓機器人真正在視覺上理解目標。利用這一系統,科學家們不必再像過去的計算機視覺研究一樣,繁瑣地對大量數據集中的數據進行標記了。
長期以來,人類一直以靈巧著稱,這種特點在很大程度上要歸功于我們的眼睛。不過現在,機器人也逐步迎頭趕上。經過幾十年的發展,現在用于生產線等受控環境中的機器人已經能夠一次又一次地拾起同一個目標了。
最近在計算機視覺方面的突破,讓機器人也能區分出不同的目標。不過即使這樣,機器人還是無法真正理解物體的形狀,因此在拾取目標后,幾乎無法再做什么別的事。
近日,麻省理工學院計算機科學與人工智能實驗室(CSAIL)的研究人員在一篇新論文中表示,他們已在這個領域取得了一項重要進展:他們打造的機器人系統可以識別出之前未見過的隨機目標,并能夠在視覺上“理解”這些目標,以完成更豐富的任務。
研究人員使用KUKA機器人抓起一只杯子
“密集對象網絡”:讓機器人讀懂抓取目標
該系統名為“密集對象網絡”(DON),該網絡將對象視為點的集合,當作“視覺路線圖”來使用。這種方法可以讓機器人更好地理解和抓取目標,最重要的是,機器人能夠在大量類似目標中挑出特定的目標。亞馬遜和沃爾瑪等公司在其倉庫中使用的機器就具備類似的技能。
比如,有人可能會使用DON系統讓機器人抓住目標上的特定位置,比如鞋舌頭。之后,它就能夠看到之前從未見過的鞋子,并成功抓住鞋舌頭。
參與該研究的博士生Lucas Manuelli說道:“許多控制系統和識別方法都無法識別朝多個方向放置的目標的特定部分。”他與該論文另一作者、博士生Pete Florence和MIT教授Russ Tedrake一起撰寫了該論文。 “比如,現有的算法就無法抓住馬克杯的杯柄,尤其是在馬克杯朝多個方向放置的情況下,比如直立或側放。”
該團隊認為,該技術不僅能用于工業制造,還能走入家庭的日常生活。比如,給系統展示一座整潔的房子的圖像,讓機器人在你工作時打掃房間,或向機器人展示菜肴的圖像,讓機器人在你度假時把你的餐桌上的盤子收拾好。
DON抓取算法:訓練無需標注數據集,省時省力
值得注意的一點是,沒有任何數據事先被人類標記過。這個系統是“自我監督的”,因此不需要任何來自人類的數據標注。
機器人抓取目標的兩種常見方法是,創建特定任務的機器學習,創建通用的抓取算法。這兩種技術都存在障礙:基于特定任務的方法很難推廣到其他任務,而通用的抓取算法不夠具體,無法顧及處理特定任務時的細微差別,比如將目標放到特定的位置上。
而DON系統基本上是在給定目標上創建一系列坐標,作為基于目標的一種“視覺路線圖”,使機器人更好地理解自己需要抓取哪些目標,目標在何處等。
該團隊訓練系統將對象視為構成較大坐標系的一系列點。然后將不同的點映射到一起,顯示出對象的三維形狀,這種方式和使用多張照片拼接全景照片的方式有些類似。在訓練之后,如果指定目標上的一個點,機器人可以拍攝該物體的照片,并一系列的點進行識別和匹配,然后就可以指定點拾取目標。
這個系統與加州大學伯克利分校的DexNet系統有所不同,伯克利的系統可以抓取許多不同的目標,但不能滿足抓取特定目標的要求。就好比一個一歲半的嬰兒,他不明白你想要他玩哪個玩具,但仍然可以抓起很多不同的玩具,而一個四歲的孩子,就可以準確地回應“去抓住那輛紅色小卡車的車尾”的要求。
在形狀對稱毛絨玩具上進行的一組測試中,由DON驅動的Kuka機器人手臂可以從一系列不同的目標位置抓住玩具的右耳。這表明系統具有在對稱物體上區分左右的能力。
在利用不同棒球帽進行測試時,DON可以選擇特定的目標帽子,盡管所有的帽子的設計都非常相似,機器人在之前從未在訓練數據中看到過帽子的照片。
未來,團隊希望將系統進行改進,讓其具備執行特定任務的能力,同時能夠更深入地了解相應的目標,例如學習如何抓住目標,并將其移動到最終位置等。
團隊將于下個月在瑞士蘇黎世舉行的機器人學習會議上發表這一成果。
-
機器人
+關注
關注
211文章
28597瀏覽量
207837 -
計算機視覺
+關注
關注
8文章
1699瀏覽量
46058 -
數據集
+關注
關注
4文章
1209瀏覽量
24770
原文標題:MIT識物機器人:“秒懂”物體,過目不忘,不用標記數據!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論