來源:3D視覺工坊
本研究提出了ExTraCT框架,利用自然語言進(jìn)行軌跡校正。該框架結(jié)合了大型語言模型(LLMs)用于自然語言理解和軌跡變形函數(shù)。ExTraCT能夠根據(jù)場景在線生成軌跡修改特征及其自然語言描述,通過LLMs實(shí)現(xiàn)用戶話語和特征描述的語義匹配,進(jìn)而將軌跡修改函數(shù)應(yīng)用于初始軌跡,實(shí)現(xiàn)對未見過的軌跡和物體配置的泛化。通過模擬和物理機(jī)器人手臂上的用戶研究,我們驗(yàn)證了使用ExTraCT方法變形的軌跡在80%情況下更準(zhǔn)確且更受歡迎,表現(xiàn)優(yōu)于基線方法。該系統(tǒng)還展示了在操縱任務(wù)和輔助喂食任務(wù)中的多功能性。
讀者理解:
這篇文章提出了一種基于自然語言的軌跡修正方法,該方法結(jié)合了大型語言模型 (LLM) 和軌跡變形函數(shù)。LLM 用于理解自然語言,軌跡變形函數(shù)用于根據(jù)語言描述對軌跡進(jìn)行修正。
該方法的優(yōu)點(diǎn)是:
使用自然語言可以簡化軌跡修正的操作,使其更容易被人類理解。
使用 LLM 可以提高軌跡修正的準(zhǔn)確性和靈活性。
該方法的缺點(diǎn)是:
LLM 的訓(xùn)練需要大量的數(shù)據(jù),這使得該方法的應(yīng)用受到一定的限制。
1 引言
本文介紹了一個(gè)模塊化的框架(ExTraCT),將大型語言模型(LLMs)與軌跡變形函數(shù)集成,用于通過自然語言進(jìn)行軌跡校正,而無需進(jìn)行端到端訓(xùn)練。該框架通過將語言理解與軌跡變形分開,實(shí)現(xiàn)了更準(zhǔn)確的指令解釋,并可泛化到不同的物體配置和軌跡。我們的方法通過用戶研究表明,在大約80%的測試案例中,相比使用LLMs但以端到端方式訓(xùn)練的最新方法,我們的方法在準(zhǔn)確性和評分上更高。此外,我們的方法在解決失敗案例方面也表現(xiàn)出改進(jìn)的潛力。
2 方法
本文介紹了一種用自然語言校正來修改機(jī)器人操縱器軌跡的方法。其核心是ExTraCT框架,結(jié)合了大型語言模型(LLMs)和軌跡變形函數(shù)。主要步驟包括:
問題定義:目標(biāo)是根據(jù)給定環(huán)境E、語言校正l和初始軌跡ξ0,找到最可能的軌跡ξ?。
特征:將可能的軌跡ξ約束在有限的特征集Φ中。特征?對應(yīng)于軌跡的變形,可以是特定于場景或場景無關(guān)的。文本描述和最優(yōu)特征選擇:為每個(gè)特征?生成文本描述T?,并利用大型語言模型(LLMs)進(jìn)行語義匹配,確定最可能的特征??,從而獲取最可能的軌跡ξ?。
變形函數(shù):根據(jù)選定的特征??,使用變形函數(shù)δ對初始軌跡ξ0進(jìn)行修改,考慮環(huán)境和運(yùn)動規(guī)劃器的約束,最后通過軌跡優(yōu)化器得到最終的軌跡ξ?。
該方法突破了以往直接學(xué)習(xí)自然語言與機(jī)器人軌跡或動作之間映射的方式,而是通過語言理解和軌跡變形兩個(gè)步驟分別進(jìn)行,提高了指令解釋的準(zhǔn)確性和可靠性。這種方法在模擬和真實(shí)機(jī)器人環(huán)境的用戶研究中顯示出了較高的準(zhǔn)確性和偏好度。同時(shí),還展示了該框架在不同任務(wù)中的應(yīng)用靈活性,包括物體操縱和輔助喂食等方面。
3 總結(jié)
本文提出了ExTraCT框架,結(jié)合了LLMs的語言模型能力和手工制作特征的軌跡變形,以實(shí)現(xiàn)更精確、可解釋、可泛化的軌跡校正方法。該方法對理解和執(zhí)行語言校正取得了改進(jìn),并展示了對失敗原因的透明解釋。未來的工作將致力于擴(kuò)展特征空間,處理更復(fù)雜的語言表達(dá),并探索雙向機(jī)器人-用戶交流。
審核編輯:湯梓紅
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4331瀏覽量
62618 -
模型
+關(guān)注
關(guān)注
1文章
3243瀏覽量
48840 -
自然語言
+關(guān)注
關(guān)注
1文章
288瀏覽量
13350 -
LLM
+關(guān)注
關(guān)注
0文章
288瀏覽量
335
原文標(biāo)題:用語言描述修正機(jī)械臂軌跡?ExTraCT語言驅(qū)動軌跡優(yōu)化
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論