在NVIDIA,我們正在開發(fā)AI解決方案,以使通用的人形機(jī)器人能夠理解人類世界,遵循語言指示并執(zhí)行各種任務(wù)。強(qiáng)大的視覺語言動(dòng)作(VLA)模型對(duì)于此類高級(jí)功能至關(guān)重要。為此,我們開發(fā)了GR00T N1,這是一種通用的機(jī)器人模型,該模型在包括以上為中心的人類視頻,真實(shí)和模擬的機(jī)器人軌跡以及合成數(shù)據(jù)的各種數(shù)據(jù)集中訓(xùn)練。
GR00T N1在多個(gè)機(jī)器人實(shí)施方案的模擬基準(zhǔn)中優(yōu)于模擬基準(zhǔn)中的最先進(jìn)的模仿學(xué)習(xí)模型。此外,它在家用任務(wù)中表現(xiàn)出對(duì)傅立葉GR-1和1X類人生物的有效語言雙層操作。
為了幫助AI解決我們社會(huì)中最關(guān)鍵的問題,我們通過NVIDIA ISAAC GR00T獲得允許的許可,使模型開放權(quán)重。
GROOT N1是英偉達(dá)公司推出的全球首個(gè)開源基礎(chǔ)模型,專為通用人形機(jī)器人設(shè)計(jì)。它基于多模態(tài)輸入(如語言和圖像)能夠在多樣化環(huán)境中執(zhí)行操作任務(wù)。該模型基于大規(guī)模人形機(jī)器人數(shù)據(jù)集進(jìn)行訓(xùn)練,結(jié)合了真實(shí)數(shù)據(jù)、合成數(shù)據(jù)和互聯(lián)網(wǎng)視頻數(shù)據(jù),以便適應(yīng)特定機(jī)器人形態(tài)、任務(wù)和環(huán)境。GROOT N1采用雙系統(tǒng)架構(gòu),其中視覺-語言模型負(fù)責(zé)推理和規(guī)劃,而擴(kuò)散變換器則負(fù)責(zé)生成精確動(dòng)作。在模擬和真實(shí)世界測(cè)試中,GROOT N1表現(xiàn)出色,尤其在復(fù)雜多步任務(wù)和精準(zhǔn)操作中展現(xiàn)出明顯優(yōu)勢(shì),為材料處理、包裝和檢查等應(yīng)用提供了高效解決方案。
NVIDIA ISAAC GR00T N1:人形機(jī)器人的開放基礎(chǔ)模型
GROOT N1? 的核心優(yōu)勢(shì)與特點(diǎn)總結(jié):
NVIDIA GROOT N1采用的是雙系統(tǒng)架構(gòu),包括視覺-語言模型和擴(kuò)散變換器。
- 視覺-語言模型(System 2):基于NVIDIA-Eagle和SnolLM-1.7B構(gòu)建,負(fù)責(zé)用視覺和語言指令理解環(huán)境,進(jìn)行推理和規(guī)劃,輸出動(dòng)作計(jì)劃。
- 擴(kuò)散變換器(System 1):作為動(dòng)作模型,將視覺-語言模型的計(jì)劃轉(zhuǎn)化為精確的連續(xù)動(dòng)作,控制機(jī)器人運(yùn)動(dòng)。
此外,NVIDIA GROOT N1在數(shù)據(jù)策略方面,預(yù)訓(xùn)練數(shù)據(jù)包括互聯(lián)網(wǎng)視頻數(shù)據(jù)、合成數(shù)據(jù)和真實(shí)機(jī)器人數(shù)據(jù)。 無監(jiān)督學(xué)習(xí)從大規(guī)模未標(biāo)注的人類視頻數(shù)據(jù)中提取運(yùn)動(dòng)模式,從而提高了機(jī)器人的學(xué)習(xí)效率。
核心優(yōu)勢(shì)?
- ?首創(chuàng)開源基礎(chǔ)模型?
- 全球首個(gè)專為通用人形機(jī)器人設(shè)計(jì)的開源基礎(chǔ)模型,推動(dòng)技術(shù)共享與生態(tài)協(xié)作。
- ?多模態(tài)融合能力?
- 支持語言、圖像等多模態(tài)輸入,適應(yīng)復(fù)雜環(huán)境中的動(dòng)態(tài)任務(wù)需求。
- ?數(shù)據(jù)多樣性訓(xùn)練?
- 結(jié)合真實(shí)數(shù)據(jù)、合成數(shù)據(jù)及互聯(lián)網(wǎng)視頻數(shù)據(jù),提升模型在形態(tài)、任務(wù)和環(huán)境上的泛化能力。
- ?高精度動(dòng)作生成?
- 通過擴(kuò)散變換器(Diffusion Transformer)生成精確動(dòng)作,解決復(fù)雜操作難題。
- ?應(yīng)用場(chǎng)景廣泛?
- 在材料處理、包裝、檢查等任務(wù)中表現(xiàn)優(yōu)異,尤其擅長(zhǎng)多步驟操作與精準(zhǔn)控制。
?技術(shù)特點(diǎn)?
- ?雙系統(tǒng)架構(gòu)設(shè)計(jì)?
- ?視覺-語言模型?:負(fù)責(zé)任務(wù)推理與規(guī)劃,理解環(huán)境語義;
- ?擴(kuò)散變換器?:專注于動(dòng)作序列生成,實(shí)現(xiàn)毫米級(jí)操作精度。
- ?跨環(huán)境適應(yīng)性?
- 模擬與真實(shí)世界測(cè)試均驗(yàn)證其穩(wěn)定性和可靠性,可快速部署至多樣化場(chǎng)景。
- ?人形機(jī)器人專用優(yōu)化?
- 針對(duì)人形機(jī)器人的物理結(jié)構(gòu)與運(yùn)動(dòng)邏輯進(jìn)行深度適配,強(qiáng)化動(dòng)作連貫性。
- ?開源生態(tài)支持?
- 開放模型架構(gòu)與訓(xùn)練框架,助力開發(fā)者定制化開發(fā)與行業(yè)應(yīng)用拓展。
?主要功能?:
- 通用操作任務(wù)執(zhí)行:GROOT N1能在多樣化環(huán)境中執(zhí)行各種操作任務(wù),如抓取、搬運(yùn)以及雙臂協(xié)調(diào)操作等。
- 多模態(tài)輸入處理:該機(jī)器人能夠同時(shí)處理語言指令和視覺圖像,根據(jù)自然語言指令執(zhí)行復(fù)雜的操作任務(wù)。
- 跨機(jī)器人形態(tài)適應(yīng)性:GROOT N1能適應(yīng)不同類型的機(jī)器人平臺(tái),如Fourier GR-1和1X Neo,實(shí)現(xiàn)通用性。
- 復(fù)雜任務(wù)推理與規(guī)劃:它能執(zhí)行需要持續(xù)上下文理解和多種技能整合的復(fù)雜多步任務(wù)。
- 高效數(shù)據(jù)利用與訓(xùn)練:結(jié)合互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)、合成數(shù)據(jù)和真實(shí)機(jī)器人數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,顯著提升性能和泛化能力,減少對(duì)大規(guī)模標(biāo)注數(shù)據(jù)的依賴。
?總結(jié)?
GROOT N1 通過多模態(tài)融合、雙系統(tǒng)協(xié)同與高精度動(dòng)作生成,為人形機(jī)器人提供了高效、通用的智能解決方案,是工業(yè)自動(dòng)化與復(fù)雜環(huán)境作業(yè)領(lǐng)域的突破性技術(shù)。
-
開源
+關(guān)注
關(guān)注
3文章
3492瀏覽量
43039 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3891瀏覽量
92576 -
人形機(jī)器人
+關(guān)注
關(guān)注
4文章
583瀏覽量
17059 -
大模型
+關(guān)注
關(guān)注
2文章
2840瀏覽量
3482
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
揭曉英偉達(dá)最強(qiáng)芯片!Blackwell Ultra、Rubin芯片亮相,新機(jī)器人壓軸

NVIDIA發(fā)布GR00T N1基礎(chǔ)模型等方案,人形機(jī)器人開發(fā)效率顯著提升
NVIDIA Isaac GR00T N1開源人形機(jī)器人基礎(chǔ)模型+開源物理引擎Newton加速機(jī)器人開發(fā)
NVIDIA發(fā)布全球首個(gè)開源人形機(jī)器人基礎(chǔ)模型Isaac GR00T N1
機(jī)器人Blue亮相 搭載英偉達(dá)最新GR00T N1人形機(jī)器人通用基礎(chǔ)模型

深度解讀GR00T N1:英偉達(dá)開源人形機(jī)器人功能模型的技術(shù)革新與行業(yè)影響
NVIDIA 發(fā)布全球首個(gè)開源人形機(jī)器人基礎(chǔ)模型 Isaac GR00T N1——并推出加速機(jī)器人開發(fā)的仿真框架

評(píng)論