在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何使用桌面級計算將訓練策略傳輸到遠程機器人中

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-19 14:36 ? 次閱讀

在設計基于機器學習的解決方案時,需要問的一個關鍵問題是,“開發此解決方案的資源成本是多少?”答案通常有很多因素:時間、開發人員技能和計算資源。很少有研究人員能夠最大化所有這些方面,因此優化解決方案開發過程至關重要。這一問題在機器人技術中進一步加劇,因為每項任務通常都需要一個完全獨特的解決方案,其中涉及到專家的大量手工制作

典型的機器人解決方案需要數周甚至數月的時間來開發和測試。靈巧的多指物體操縱一直是機器人操縱控制和學習領域的一個長期挑戰。

靈巧手法綜述

放松剛性約束:抓取操作的運動學軌跡優化和碰撞避免

學習局部模型的最優控制:在靈巧操作中的應用

具有深度強化學習的靈巧操作:高效、通用和低成本

雖然在過去 5 年中,運動的高維控制以及基于圖像的物體操作(使用簡化的夾持器)方面的挑戰取得了顯著的進展,但多指靈巧操作仍然是一個影響巨大但難以解決的問題。這一挑戰是由以下問題造成的:

高維協調控制

低效的仿真平臺

實際機器人操作中觀測和控制的不確定性

缺乏強健且經濟高效的硬件平臺

這些挑戰加上缺乏大規模計算機和機器人硬件,限制了試圖解決這些問題的團隊的多樣性。

我們在這項工作中的目標是通過大規模仿真和機器人即服務技術,為機器人學習的民主化提供一條道路和可行的解決方案。以靈巧多指機械手為例,重點研究了六自由度物體操縱。我們展示了在桌面級 GPU 和基于云的機器人技術上進行的大規模模擬如何使機器人專家能夠利用有限的資源進行機器人學習方面的研究。

雖然在手工操作方面的一些努力試圖構建健壯的系統,但最令人印象深刻的演示之一是幾年前來自 OpenAI 的一個團隊,該團隊構建了一個名為Dactyl的系統。這是一個令人印象深刻的工程壯舉,以實現多目標在手休息與陰影的手。

然而,它不僅在最終性能上,而且在構建此演示所需的計算量和工程工作量上都是引人注目的。據公眾估計,它使用了 13000 年的計算機,硬件本身成本高昂,但需要反復干預。巨大的資源需求有效地阻止了其他人復制這一結果,并因此在這一結果的基礎上再接再厲。

在這篇文章中,我們展示了我們的系統努力是解決這種資源不平等的途徑。現在,使用單一的臺式機等級 GPU 和 CPU ,在不到一天的時間內即可獲得類似的結果。

強化學習中標準姿勢表示的復雜性

在最初的實驗中,我們遵循以前的工作,提供了基于三維笛卡爾位置加上四維四元數表示的姿勢的觀察,以指定立方體的當前和目標位置。我們還根據 L2 范數(位置)和立方體的期望姿勢和當前姿勢之間的角度差(方向)固定了獎勵。有關更多信息,請參閱學習靈活性 OpenAI 帖子和 GPU – 分布式強化學習的加速機器人仿真。

我們發現這種方法會產生不穩定的獎勵曲線,即使在調整相對權重后,它也能很好地優化獎勵的位置部分。

pYYBAGJeWnSADdnvAABUEe-zI6E097.png

圖 1 。訓練曲線上的三指操縱任務使用獎勵函數類似于以前的作品。獎勵的性質使得政策難以優化,尤其是實現定向目標。

先前的工作已經證明了使用神經網絡時空間旋轉的交替表示的好處。此外,已經證明,這種方式的混合損失會導致只朝著優化單一目標的方向崩潰。該圖表暗示了類似的行為,其中只有職位獎勵被優化。

受此啟發,我們在 SO ( 3 )中為我們的 6 自由度休息問題尋找姿勢表示。這也會自然地通過強化學習以適合優化的方式權衡職位和輪換獎勵。

使用遠程機器人縮小 Sim2Real 差距

獲得物理機器人資源的問題因新冠病毒 -19 大流行而加劇。那些之前有幸在他們的研究小組中接觸到機器人的人發現,能夠接觸到機器人的人數大大減少了。那些依賴其他機構提供硬件的機構往往由于物理距離限制而完全疏遠。

我們的工作證明了機器人即服務( RaaS )方法與機器人學習相結合的可行性。一小隊接受過維護機器人培訓的人員和另一隊研究人員可以上傳一份經過培訓的政策,并遠程收集數據進行后處理。

雖然我們的研究團隊主要在北美,但物理機器人在歐洲。在整個項目期間,我們的開發團隊從來沒有和我們工作的機器人呆在同一個房間里。遠程訪問意味著我們無法改變手頭的任務以使其更容易。它還限制了我們可以進行的迭代和實驗的種類。例如,合理的系統識別是不可能的,因為我們的策略在整個 f ARM 中隨機選擇的機器人上運行。

盡管缺乏物理訪問,但我們發現,我們能夠通過多種技術的組合,制定出一個穩健且有效的策略來解決 6 自由度休息任務:

真實 GPU – 加速仿真

無模型 RL

域隨機化

任務適當的姿勢表示

方法概述

我們的系統使用 NVIDIA V100 或 NVIDIA NVIDIA 3090 RTX 在 16384 個環境中并行使用 GPU 健身房模擬器進行訓練。然后,利用上傳的演員權重,在位于德國大西洋彼岸的三指機器人上遠程進行推理。我們執行 Sim2Real 傳輸的基礎設施由真正的機器人挑戰的組織者提供。

pYYBAGJeWo6AYC5FAAGKyrNRgdw294.png

圖 2 。培訓系統流程圖

收集并處理培訓示例

使用 ISAAC 健身房模擬器,我們收集了高通量體驗( NVIDIA RTX 3090 上每秒約 10 萬個樣本)。樣例的對象姿勢和目標姿勢與對象形狀的八個關鍵點對應。將領域隨機化應用于觀測和環境參數,以模擬真實機器人和攝像機本體感受傳感器的變化。這些觀察結果,以及來自模擬器的一些特權狀態信息,然后被用來訓練我們的政策。

培訓政策

我們的策略是使用近端策略優化( PPO )算法來最大化定制獎勵。我們的獎勵激勵政策平衡機器人手指與物體的距離、移動速度以及從物體到指定目標位置的距離。它有效地解決了這項任務,盡管它是一種廣泛適用于手部操作應用的通用公式。該策略輸出每個機器人電機的扭矩,然后將其傳回模擬環境。

將策略轉移到真正的機器人并運行推理

在我們訓練了策略之后,我們將其上傳到真實機器人的控制器。這個立方體是用三個攝像頭在系統上跟蹤的。我們將系統提供的本體感知信息與轉換的關鍵點表示結合起來,為策略提供輸入。我們重復了基于攝像頭的立方體姿勢觀察,以進行后續的策略評估,從而使策略能夠利用機器人可用的更高頻率本體感受數據。然后,從系統收集的數據用于確定策略的成功率。

機器人上的跟蹤系統目前只支持立方體。然而,這在將來可以擴展到任意對象。

Results

姿勢的關鍵點表示大大提高了成功率和收斂性。

pYYBAGJeWJmAeougAABq8uU-Sfg150.png

圖 3 。為不同的訓練代理繪制真實機器人的成功率。 O-PQ 和 O-KP 分別表示位置+四元數和關鍵點觀測, R-PQ 和 R-KP 分別表示線性+角度和基于關鍵點的位移。每個平均數 由 N = 40 個試驗和基于 80% 置信區間計算的誤差條組成。

我們證明了使用我們的關鍵點表示法的策略,無論是在提供給策略的觀察中還是在獎勵計算中,都比使用位置+四元數表示法獲得了更高的成功率。最高性能來自于對這兩個元素使用替代表示的策略。

poYBAGJeWJqABEqMAAF1iaHBzTA489.png

圖 4 。無領域隨機和有領域隨機的訓練過程中的成功率。每條曲線是五個種子的平均值;陰影區域顯示標準偏差。不帶 DR 的培訓將顯示為 1B 步驟,以驗證績效;初始訓練后, DR 的使用對模擬成功率沒有太大影響。

我們進行了實驗,以了解關鍵點的使用如何影響我們經過訓練的策略的速度和收斂水平。可以看出,使用關鍵點作為獎勵的一部分大大加快了培訓,提高了最終成功率,并減少了培訓策略之間的差異。考慮到使用關鍵點作為獎勵的一部分的簡單性和普遍性,差異的大小令人驚訝。

經過培訓的策略可以直接從模擬器部署到遠程真實機器人。

圖 6 顯示了一種我們稱之為“掉落和重新抓取”的緊急行為。在這個動作中,機器人學會在立方體接近正確位置時掉落立方體,重新抓取立方體,然后將其撿起來。這使得機器人能夠在正確的位置穩定地抓住立方體,從而獲得更成功的嘗試。值得注意的是,這段視頻是實時的,不會以任何方式加速。

機器人還學習利用立方體在競技場中正確位置的運動,作為在地面上同時旋轉立方體的機會。這有助于在遠離手指工作區中心的挑戰性目標位置實現正確抓取。

我們的政策也很穩健,有助于降低成本。機器人可以從一個從手上掉下來的立方體中恢復,并從地面上取回它。

對物理和物體變化的魯棒性

我們發現,我們的策略對模擬中環境參數的變化具有魯棒性。例如,它優雅地處理了立方體的上下縮放,其范圍遠遠超過了隨機化。

令人驚訝的是,我們發現我們的策略能夠將 0-shot 推廣到其他對象,例如長方體或球,

由于策略自身的健壯性,在規模和對象上進行了泛化。我們不給它任何形狀信息。關鍵點保持在立方體上的相同位置。

結論

我們的方法通過基于 GPU 的大規模仿真展示了一條可行的機器人學習路徑。在本文中,我們向您展示了如何使用中等水平的計算資源(桌面級計算)來訓練策略,并將其傳輸到遠程機器人。我們還表明,這些策略對環境和被操縱對象中的各種變化具有魯棒性。我們希望我們的工作能夠成為研究人員向前邁進的平臺。

NVIDIA 還宣布廣泛支持具有開放機器人技術的機器人操作系統ROS )。這一重要的 ISAAC ROS 公告強調了 NVIDIA 人工智能感知技術如何加速人工智能在 ROS 社區的應用,以幫助機器人專家、研究人員和機器人用戶開發、測試和管理下一代基于人工智能的機器人。

關于作者

Varun Lodaya 是多倫多大學計算機科學與統計專業的本科生。他是 PAIR 研究實驗室和病媒研究所的成員。

Animesh Garg 是多倫多大學計算機科學助理教授 CVK3 NVIDIA 的資深研究科學家,也是向量研究所的一名教員。他在加州大學伯克利分校獲得博士學位,是斯坦福人工智能實驗室的博士后。他致力于廣義自治的算法基礎,使基于人工智能的機器人能夠與人類一起工作。他的工作在機器人學和機器學習領域獲得了多項研究獎。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    211

    文章

    28524

    瀏覽量

    207558
  • NVIDIA
    +關注

    關注

    14

    文章

    5025

    瀏覽量

    103268
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4754

    瀏覽量

    129074
收藏 人收藏

    評論

    相關推薦

    物理仿真人形機器人的統一全身控制策略

    創建動作自然并對各種控制輸入做出智能響應的交互式仿真人形機器人仍是計算機動畫和機器人技術領域最具挑戰性的問題之一。NVIDIA Isaac Sim等高性能 GPU 加速仿真器以及使用NVIDIA Isaac Lab的
    的頭像 發表于 01-06 12:31 ?142次閱讀
    物理仿真人形<b class='flag-5'>機器人</b>的統一全身控制<b class='flag-5'>策略</b>

    《具身智能機器人系統》第10-13章閱讀心得之具身智能機器人計算挑戰

    閱讀《具身智能機器人系統》第10-13章,我對具身智能機器人的工程實踐有了全新認識。第10章從實時性角度剖析了機器人計算加速問題。機器人定位
    發表于 01-04 01:15

    《具身智能機器人系統》第7-9章閱讀心得之具身智能機器人與大模型

    和經驗積累,使機器人能夠自主發現工藝規律,優化作業參數。家庭服務機器人則采用混合任務規劃策略訓練的基礎技能與實時規劃相結合,靈活應對開
    發表于 12-24 15:03

    【「具身智能機器人系統」閱讀體驗】+數據在具身人工智能中的價值

    嵌入式人工智能(EAI)人工智能集成到機器人等物理實體中,使它們能夠感知、學習環境并與之動態交互。這種能力使此類機器人能夠在人類社會中有效地提供商品及服務。 數據是一種貨幣化工具 數據是互聯網
    發表于 12-24 00:33

    《具身智能機器人系統》第1-6章閱讀心得之具身智能機器人系統背景知識與基礎模塊

    與環境持續互動來優化決策策略。書中還進一步討論了強化學習的基本原理,包括狀態空間、動作空間、獎勵函數的設計,以及策略網絡的訓練方法。 具身智能機器人系統是一個多學科知識交叉的復雜工程體
    發表于 12-19 22:26

    變速齒輪在機器人中的使用

    變速齒輪在機器人中具有廣泛的應用,它們通過改變轉速和扭矩來滿足機器人執行不同任務時的需求。以下是對變速齒輪在機器人中使用情況的分析: 一、變速齒輪的基本概念 變速齒輪是一種能夠改變輸入軸轉速和輸出軸
    的頭像 發表于 12-04 17:11 ?380次閱讀

    霍爾元件在掃地機器人中的應用

    霍爾元件在掃地機器人中發揮著至關重要的作用。作為一種半導體磁電器件,霍爾元件利用霍爾效應來工作,即當磁場作用于載流金屬導體或半導體中的載流子時,會產生橫向電位差的物理現象。以下是霍爾元件在掃地機器人中
    的頭像 發表于 11-29 19:46 ?272次閱讀

    產業用機器人中的旋轉花鍵若損傷有何影響?

    旋轉花鍵在產業用機器人中是關鍵的組件之一,如果機器人中的旋轉花鍵損壞,會對機器人的運行和性能產生一定影響。
    的頭像 發表于 11-23 17:54 ?105次閱讀
    產業用<b class='flag-5'>機器人中</b>的旋轉花鍵若損傷有何影響?

    PID控制在機器人中的應用案例

    PID控制作為一種經典的控制策略,因其簡單、魯棒和易于實現的特點,在機器人領域得到了廣泛的應用。以下是一些PID控制在機器人中的具體應用案例: 1. 電機速度控制 在機器人的運動控制中
    的頭像 發表于 11-13 14:42 ?753次閱讀

    NLP技術在機器人中的應用

    人類語言的能力,還使得機器人能夠以更加自然、流暢的方式與人類進行交互,從而在服務、教育、醫療、娛樂等多個領域展現出巨大的潛力和價值。本文將從NLP技術在機器人中的應用現狀、核心技術、應用場景、面臨的挑戰及未來發展趨勢等方面進行深入探討。
    的頭像 發表于 07-04 16:04 ?526次閱讀

    步進電機在工業機器人中的應用

    類型,在工業機器人中發揮著至關重要的作用。本文將從步進電機的定義、特點出發,詳細探討其在工業機器人中的應用,并結合相關案例進行分析,以期為工業機器人技術的發展提供參考。
    的頭像 發表于 06-17 10:10 ?827次閱讀

    觸翔X86工控主板在交互機器人中的應用

    X86工控主板在交互機器人中的應用主要體現在其高可靠性、抗干擾性和穩定性等方面,為交互機器人的正常運行和精確控制提供了有力支持。以下是關于X86工控主板在交互機器人中應用的詳細分析:
    的頭像 發表于 05-28 15:48 ?490次閱讀

    Profinet轉Ethernet IP網關在汽車配件生產中的應用

    開疆Profinet轉Ethernet IP網關連接在視覺機器人中發揮著重要的作用,它不僅為機器人提供了高效的數據傳輸遠程控制,還促進了系統集成和智能化發展。 Profinet轉Et
    發表于 03-18 11:29

    星動紀元開源人形機器人訓練框架Humanoid-Gym

    星動紀元,這家專注于人形機器人技術的創新公司,近日宣布計劃將其訓練框架Humanoid-Gym進行開源。Humanoid-Gym是一個為人形機器人設計的訓練框架,其開源
    的頭像 發表于 03-06 18:13 ?2113次閱讀

    什么是遠程桌面協議 遠程桌面協議的工作原理

    遠程桌面協議(RDP)需要兩個不同的設備才能運行:一臺本地計算機和一臺遠程計算機。 本地計算機也稱為RDP 客戶端。在此過程中,最終用
    的頭像 發表于 01-23 10:51 ?1056次閱讀
    主站蜘蛛池模板: 久久青草国产精品一区| 性欧美精品| 丁香六月婷婷在线| 成人在线91| 在线免费看片| 日日干视频| 国产高清区| h网站在线看| 午夜国产精品久久久久| www.狠狠干| 色视频免费在线观看| 欧美三级欧美一级| 国产在线97色永久免费视频| sihu在线| 日本免费黄色网址| 日韩操穴| 怡红院黄色| 日本资源在线观看| 国模福利| 天天射天天干天天| 国产高清一级视频在线观看| 亚洲黄站| 四虎网址最新| 久久88色综合色鬼| 香港午夜理理伦_级毛片| 狠狠干狠狠操视频| 又粗又大撑满了好爽| 亚洲综合色视频| 乱码一区二区三区完整视频| 亚洲国产精品综合久久久 | 美女一级毛片免费观看| 手机看片www xiao2b cm| 搞黄视频网站| 日韩a级毛片免费观看| 丁香婷婷网| 加勒比日本道| 国产在线麻豆自在拍91精品 | 亚洲欧美日本视频| 网站免费黄| 激情都市亚洲| 国产欧美亚洲精品|