人類的手是數(shù)百萬(wàn)年進(jìn)化過(guò)程中最了不起的成果之一。我們能夠拿起各種物體并將它們作為工具使用,這是我們與其他動(dòng)物的最大區(qū)別之一,這也使我們能夠改變周圍的世界。
要想讓機(jī)器人在人類的日常生活中工作,機(jī)器人必須能夠與我們的工具和周圍的環(huán)境進(jìn)行靈巧的互動(dòng)。如果沒(méi)有這種能力,它們就只能繼續(xù)留在工廠、倉(cāng)庫(kù)等專門(mén)的領(lǐng)域發(fā)揮作用。
雖然有腿的機(jī)器人只需要一段時(shí)間就可以學(xué)會(huì)如何行走,但實(shí)踐證明有手的機(jī)器人控制起來(lái)的難度要大得多。帶有手指的機(jī)器人手有更多的關(guān)節(jié),它們的運(yùn)動(dòng)必須經(jīng)過(guò)特定的協(xié)調(diào)后才能完成指定的任務(wù)。傳統(tǒng)的機(jī)器人控制方法需要預(yù)先對(duì)抓取和運(yùn)動(dòng)進(jìn)行精確的編程,因此無(wú)法實(shí)現(xiàn)人類認(rèn)為理所當(dāng)然的那種“普通”精細(xì)運(yùn)動(dòng)控制技能。
解決這些問(wèn)題的方法之一是采用深度強(qiáng)化學(xué)習(xí)(RL)技術(shù)訓(xùn)練一個(gè)控制機(jī)器人關(guān)節(jié)的神經(jīng)網(wǎng)絡(luò)。通過(guò)深度強(qiáng)化學(xué)習(xí),機(jī)器人能夠從試驗(yàn)和錯(cuò)誤中學(xué)習(xí),并在成功完成指定任務(wù)后得到獎(jiǎng)勵(lì)。然而學(xué)習(xí)這種技術(shù)可能需要數(shù)百萬(wàn)甚至數(shù)十億樣本,因此它幾乎不可能直接應(yīng)用于現(xiàn)實(shí)中的機(jī)器人。
DeXtreme 將模擬環(huán)境中的靈巧操作轉(zhuǎn)移到現(xiàn)實(shí)世界
模擬的應(yīng)用
NVIDIA 的 Isaac 機(jī)器人模擬器能夠創(chuàng)造一個(gè)用于訓(xùn)練機(jī)器人的模擬空間,這個(gè)空間的運(yùn)行速度比現(xiàn)實(shí)世界快 1 萬(wàn)多倍,但是遵守物理法則。
從事 DeXtreme 項(xiàng)目的 NVIDIA 研究者們,利用 RL 機(jī)器人訓(xùn)練模擬器 Isaac Gym 教機(jī)器人手如何將一個(gè)立方體擺放到指定的目標(biāo)位置和方向或姿態(tài)。神經(jīng)網(wǎng)絡(luò)大腦可以在模擬中學(xué)會(huì)這一操作之后,再被移植到現(xiàn)實(shí)世界中控制機(jī)器人。
之前,只有 OpenAI 的研究者們展示過(guò)一次類似的工作。不過(guò),他們的工作需要一個(gè)更復(fù)雜、更昂貴的機(jī)器人手,一個(gè)帶有精確運(yùn)動(dòng)控制傳感器的立方體,而且需要使用由數(shù)百臺(tái)計(jì)算機(jī)組成的超級(jí)計(jì)算集群進(jìn)行訓(xùn)練。
靈巧性訓(xùn)練的大眾化
為了使世界各地的研究者都能夠復(fù)制我們的實(shí)驗(yàn),DeXtreme 項(xiàng)目選擇了盡可能簡(jiǎn)單、便宜的硬件。機(jī)器人本身是一臺(tái) Allegro Hand,其成本只有其他一些機(jī)器人的 1/10,它有四根手指并且沒(méi)有可以移動(dòng)的手腕。我們使用現(xiàn)成的 RGB 攝像頭作為追蹤立方體的“眼睛”,這樣就可以在不使用特殊硬件的情況下根據(jù)需要輕松移動(dòng)立方體。立方體是 3D 打印的,每個(gè)面都有貼紙。
一個(gè)簡(jiǎn)單、可負(fù)擔(dān)的現(xiàn)成系統(tǒng)是實(shí)現(xiàn)可復(fù)制性的關(guān)鍵。DeXtreme 使用的是三個(gè) RGB 攝像頭、一個(gè) 3D 打印的立方體和一個(gè)高性價(jià)比的機(jī)器人手,所以大家也應(yīng)該可以輕松嘗試。
DeXtreme 使用 Isaac Gym 進(jìn)行訓(xùn)練,該模擬器可提供一個(gè)用于強(qiáng)化學(xué)習(xí)的端到端 GPU 加速模擬環(huán)境。NVIDIA PhysX 在 GPU 上模擬出場(chǎng)景。在深度學(xué)習(xí)控制策略網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,結(jié)果會(huì)保留在 GPU 內(nèi)存中。因此,這項(xiàng)訓(xùn)練可以在一臺(tái) Omniverse OVX 服務(wù)器上進(jìn)行。在這個(gè)系統(tǒng)上訓(xùn)練一個(gè)好的策略大約需要 32 小時(shí),相當(dāng)于一個(gè)機(jī)器人在現(xiàn)實(shí)世界中 42 年的經(jīng)驗(yàn)。
由于不需要單獨(dú)的 CPU 集群進(jìn)行模擬,因此在目前的云租賃價(jià)格下,訓(xùn)練所產(chǎn)生的計(jì)算成本降低了 10-200 倍。使用 Isaac Gym 訓(xùn)練模型大大減少了訓(xùn)練的時(shí)間和成本。
感知和合成數(shù)據(jù)
為了讓機(jī)器人知道它所持的立方體的位置和方向,需要為機(jī)器人加上一個(gè)感知系統(tǒng)。為了控制成本并為將來(lái)操控其他物體留出余地,DeXtreme使用了三個(gè)現(xiàn)成的攝像頭和一個(gè)可以解釋立方體姿態(tài)的神經(jīng)網(wǎng)絡(luò)。
該網(wǎng)絡(luò)通過(guò)使用 Omniverse Replicator 生成的約 500 萬(wàn)幀合成數(shù)據(jù)訓(xùn)練而成,沒(méi)有使用任何真實(shí)的圖像。它學(xué)習(xí)了如何在具有挑戰(zhàn)性的真實(shí)環(huán)境中執(zhí)行任務(wù)。為了使訓(xùn)練更加有效,我們使用了一種叫做域隨機(jī)化的技術(shù)來(lái)改變照明和攝像機(jī)的位置,同時(shí)使用數(shù)據(jù)增強(qiáng)技術(shù)添加隨機(jī)裁剪、旋轉(zhuǎn)和背景。
DeXtreme NVIDIA Omniverse Replicator 合成數(shù)據(jù)通過(guò)隨機(jī)改變背景、照明和攝像機(jī)角度來(lái)訓(xùn)練一個(gè)強(qiáng)大的感知網(wǎng)絡(luò)
DeXtreme 姿態(tài)估計(jì)系統(tǒng)非常可靠,即便是在目標(biāo)物體被部分遮擋或者圖像有明顯運(yùn)動(dòng)模糊的情況下也能準(zhǔn)確感知到姿態(tài)。
DeXtreme 姿態(tài)估計(jì)器的計(jì)算機(jī)視覺(jué)模型在立方體的一部分被人手遮擋時(shí)的輸出結(jié)果
現(xiàn)實(shí)世界中的機(jī)器人訓(xùn)練依然困難重重
使用模擬的主要原因之一是直接在現(xiàn)實(shí)世界中訓(xùn)練機(jī)器人會(huì)產(chǎn)生各種難題。例如機(jī)器人硬件在過(guò)度使用后容易損壞、實(shí)驗(yàn)的迭代周期和周轉(zhuǎn)時(shí)間可能很長(zhǎng)等。
除了模擬之外,機(jī)器人還必須解決所有現(xiàn)實(shí)中的機(jī)械和物理學(xué)問(wèn)題
我們?cè)趯?shí)驗(yàn)中經(jīng)常發(fā)現(xiàn)在長(zhǎng)期使用后需要對(duì)機(jī)械手進(jìn)行修理,例如擰緊松動(dòng)的螺絲、更換帶狀電纜、在進(jìn)行 10-15 次試驗(yàn)后需要讓機(jī)械手休息并等待它冷卻等。在模擬中,我們是在一個(gè)不會(huì)損壞的機(jī)器人上進(jìn)行訓(xùn)練,所以能夠避開(kāi)許多這樣的問(wèn)題,同時(shí)還能獲得學(xué)習(xí)高難度任務(wù)所需的大量數(shù)據(jù)。而且模擬的運(yùn)行速度比實(shí)時(shí)訓(xùn)練快得多,所以迭代周期大幅縮短。
在模擬環(huán)境中訓(xùn)練的最大問(wèn)題是需要縮小模擬和現(xiàn)實(shí)世界之間的差距。為了解決這個(gè)問(wèn)題,DeXtreme 對(duì)模擬器中設(shè)置的物理屬性使用了域隨機(jī)化,可一次在超過(guò)十萬(wàn)個(gè)模擬環(huán)境中大規(guī)模地改變物體的質(zhì)量、摩擦水平和其他屬性。
隨機(jī)化所帶來(lái)的好處之一是讓我們可以使用各種不常見(jiàn)的場(chǎng)景組合來(lái)訓(xùn)練人工智能,這能保證機(jī)器人在現(xiàn)實(shí)世界執(zhí)行任務(wù)時(shí)的穩(wěn)健性。例如,我們?cè)诂F(xiàn)實(shí)機(jī)器人上的大部分實(shí)驗(yàn)都是在由于電路板上的連接松動(dòng)而導(dǎo)致拇指輕微失靈的情況下進(jìn)行的。盡管如此,我們還是對(duì)這些策略能夠從模擬可靠地轉(zhuǎn)移到現(xiàn)實(shí)世界而感到驚訝。
經(jīng)過(guò)超過(guò) 32 小時(shí)的強(qiáng)化學(xué)習(xí),DeXtreme 機(jī)器人能夠在根據(jù)指定目標(biāo)旋轉(zhuǎn)立方體的任務(wù)中反復(fù)取得成功
從模擬到現(xiàn)實(shí)
未來(lái)機(jī)器人操作領(lǐng)域的突破將催生出新一批不僅限于傳統(tǒng)工業(yè)用途的機(jī)器人應(yīng)用。DeXtreme 項(xiàng)目所傳達(dá)的核心信息是:模擬可以成為訓(xùn)練復(fù)雜機(jī)器人系統(tǒng)的一個(gè)非常有效的工具,包括需要不斷接觸環(huán)境中的物體的機(jī)器人系統(tǒng)。我們使用成本相對(duì)較低的硬件來(lái)證明這一點(diǎn)是為了鼓勵(lì)大家使用我們的模擬工具并在此基礎(chǔ)上繼續(xù)努力。
關(guān)于 DeXtreme 項(xiàng)目的更多細(xì)節(jié),請(qǐng)查看論文并訪問(wèn)項(xiàng)目網(wǎng)頁(yè):https://dextreme.org/
原文標(biāo)題:加強(qiáng)模擬的更大價(jià)值 —— 給真實(shí)機(jī)器人一雙靈巧的“手”
文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3815瀏覽量
91492
原文標(biāo)題:加強(qiáng)模擬的更大價(jià)值 —— 給真實(shí)機(jī)器人一雙靈巧的“手”
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論