樂高愛好者抓撓他們的頭,閱讀組裝說明,可能很快有助于復雜的建設,感謝一個新的 學習 來自斯坦福大學、麻省理工學院和 Autodesk 。研究人員設計了一個深度學習框架,將 2D 手冊翻譯成機器可以理解的步驟,以構建 3D 樂高套件。這項工作可以推動專注于制造機器的研究,幫助人們組裝物體。
“樂高手冊提供了一個獨立的環境,展示了人類的一項核心技能:在指導下學習完成任務。利用視覺場景解析和程序合成的最新進展,我們旨在構建具有類似技能的機器,從樂高開始,最終以現實世界場景為目標,”該研究資深作者吳家軍說,斯坦福大學計算機科學助理教授。
研究人員表示,用人工智能翻譯 2D 手冊面臨兩大挑戰。首先, AI 必須基于 2D 手動圖像在每個裝配步驟中學習和理解 3D 形狀之間的對應關系。這包括考慮工件的方向和對齊。
它還必須能夠對磚塊進行分類,并在半組裝模型中推斷出磚塊的三維姿態。作為樂高積木制作過程的一部分,小部件被組合成更大的部件,如吉他的頭部、頸部和身體。當這些較大的部分組合在一起時,將創建一個完整的項目。這增加了難度,因為機器必須解析出所有的樂高積木,甚至是那些可能不可見的積木,如樂高釘和反積木。
該團隊致力于創建一個模型,該模型可以將 2D 手冊轉化為機器可執行計劃,以構建定義的對象。雖然目前有兩種執行此任務的方法:基于搜索的方法和基于學習的方法,但都存在局限性。
基于搜索的方法尋找工件和手動圖像的可能三維姿態,尋找正確的姿態。該方法計算量大,速度慢,但精度高。
基于學習的模型依賴于神經網絡來預測部件的 3D 姿態。它們速度快,但精度不高,尤其是在使用看不見的 3D 形狀時。
為了解決這一局限性,研究人員開發了手冊到可執行計劃網絡 ( MEPNet ) ,根據研究,它使用深度學習和 計算機視覺 集成“神經 2D 關鍵點檢測模塊和 2D-3D 投影算法”
??根據一系列預測,在每一步,模型都會閱讀手冊,定位要添加的零件,并推導出 3D 定位。在模型預測了每一塊和每一步的姿勢后,它可以從頭開始解析手冊,創建一個機器人可以遵循的建筑計劃來建造樂高對象。
研究人員在研究中寫道:“對于每個步驟,輸入包括 1 )一組在之前的步驟中構建的原始磚塊和零件,以 3D 表示; 2 )一個顯示組件應如何連接的目標 2D 圖像。預期輸出是該步驟中涉及的所有組件的(相對)姿態。”。
他們從一個包含 72 種磚塊的樂高工具包中創建了第一個合成訓練數據,并使用了來自 LPub3D ,一個用于“創建樂高風格的數字建筑說明”的開源應用程序
研究人員總共生成了 8000 份培訓手冊,其中 10 套用于驗證, 20 套用于測試。每個數據集中有大約 200 個單獨的步驟,約占培訓中的 200000 個單獨步驟。
他們在研究中寫道:“我們在綜合生成的數據集上對 MEPNet 進行全面監控,在該數據集中,我們有基本真相關鍵點、掩碼和旋轉信息。”。 MEPNet 模型在四個點上訓練 5 天 NVIDIA Titan RTX GPU 由 NVIDIA 圖靈架構提供支持。
他們還在 Minecraft house 數據集上測試了該模型,該數據集具有與樂高類似的構建風格。
通過將 MEPNet 與現有模型進行比較,研究人員發現,它在現實世界的樂高積木、合成手冊和 Minecraft 示例中的表現優于其他模型。
MEPNet 在姿勢估計方面更準確,甚至在識別不可見片段的構建方面也更好。研究人員還發現,該模型能夠將從合成手冊中獲得的知識應用于現實世界的樂高手冊。
雖然還需要制造一個能夠執行計劃的機器人,但研究人員將這項工作視為一個起點。
“我們的長期目標是制造能夠幫助人類構造和組裝復雜物體的機器。我們正在考慮將我們的方法擴展到其他組裝領域,如宜家家具,”斯坦福大學計算機科學博士生王若成( Ruocheng Wang )說。
關于作者
Michelle Horton 是 NVIDIA 的高級開發人員通信經理,擁有通信經理和科學作家的背景。她在 NVIDIA 為開發者博客撰文,重點介紹了開發者使用 NVIDIA 技術的多種方式。
審核編輯:郭婷
-
計算機
+關注
關注
19文章
7520瀏覽量
88225 -
AI
+關注
關注
87文章
31155瀏覽量
269481
發布評論請先 登錄
相關推薦
評論