隨著機器人技術(shù)和自動駕駛汽車的發(fā)展,加快物理 AI 的開發(fā)工作變得至關(guān)重要。物理 AI 使自主機器能夠感知、理解并執(zhí)行物理世界中的復(fù)雜操作,而這些系統(tǒng)的核心是世界基礎(chǔ)模型(WFM)。這種 AI 模型通過物理感知視頻仿真物理狀態(tài),使機器能夠做出準(zhǔn)確的決策并與周圍環(huán)境進行無縫交互。
NVIDIA Cosmos 是一個幫助開發(fā)者為物理 AI 系統(tǒng)大規(guī)模構(gòu)建定制世界模型的平臺。從數(shù)據(jù)整理、訓(xùn)練到定制,它為每個開發(fā)階段提供了開放世界基礎(chǔ)模型和工具。
本文將介紹 Cosmos 及其加速物理 AI 開發(fā)的主要功能。
使用 NVIDIA Cosmos
加速世界模型開發(fā)
物理 AI 的構(gòu)建難度極大,需要進行精確的仿真并理解和預(yù)測現(xiàn)實世界的行為。世界模型是克服這些挑戰(zhàn)的關(guān)鍵工具,它可以根據(jù)過去的觀察結(jié)果和當(dāng)前的輸入預(yù)測未來的環(huán)境狀態(tài)。這些模型使物理 AI 構(gòu)建者能夠在受控環(huán)境中仿真、訓(xùn)練和完善系統(tǒng),因此對他們價值連城。
但開發(fā)有效的世界模型需要大量數(shù)據(jù)、算力和現(xiàn)實世界測試,這可能會帶來巨大的安全風(fēng)險、后勤障礙和高昂的成本。為了解決這些問題,開發(fā)者通常會使用 3D 仿真生成的合成數(shù)據(jù)訓(xùn)練模型。雖然合成數(shù)據(jù)是一種強大的工具,但創(chuàng)建合成數(shù)據(jù)需要耗費大量資源,而且可能無法準(zhǔn)確反映現(xiàn)實世界的物理特性,尤其是在復(fù)雜或邊緣場景中。
NVIDIA Cosmos 端到端平臺能夠加速物理 AI 系統(tǒng)世界模型的開發(fā)。Cosmos 基于 CUDA 構(gòu)建,結(jié)合了目前最先進的世界基礎(chǔ)模型、視頻 tokenizer 和 AI 加速數(shù)據(jù)處理管線。
開發(fā)者可以通過微調(diào) Cosmos 世界基礎(chǔ)模型或從頭開始構(gòu)建新模型來加速世界模型的開發(fā)。除了 Cosmos 世界基礎(chǔ)模型,該平臺還包含:
用于高效整理視頻數(shù)據(jù)的 NVIDIA NeMo Curator
用于高效、緊湊和高保真視頻 token 化的 Cosmos Tokenizer
用于機器人和自動駕駛應(yīng)用的預(yù)訓(xùn)練 Cosmos 世界基礎(chǔ)模型
用于模型訓(xùn)練和優(yōu)化的 NVIDIA NeMo Framework
圖 1 NVIDIA Cosmos 是一個加速物理 AI 開發(fā)的世界基礎(chǔ)模型開發(fā)平臺,包含生成模型、數(shù)據(jù)采集器、tokenizer 和框架。
適用于物理 AI 的
預(yù)訓(xùn)練世界基礎(chǔ)模型
Cosmos 世界基礎(chǔ)模型是在 9000 萬億個 token(包括來自自動駕駛、機器人、合成環(huán)境和其他相關(guān)領(lǐng)域的 2000 萬小時數(shù)據(jù))上訓(xùn)練而成的預(yù)訓(xùn)練大型生成式 AI 模型。這些模型能夠創(chuàng)建逼真的環(huán)境和交互式合成視頻,為訓(xùn)練復(fù)雜的系統(tǒng)(從執(zhí)行高級動作的人形機器人仿真到端到端自動駕駛模型的開發(fā))提供了一個擴展自如的基礎(chǔ)。
這些模型按架構(gòu)可分為兩種:自回歸和擴散,并且均使用 Transformer 架構(gòu)。這種架構(gòu)擴展自如,并且能夠有效應(yīng)對復(fù)雜的時間依賴性。
自回歸模型
Cosmos 自回歸模型專為視頻生成設(shè)計,可根據(jù)輸入文本和過去的視頻幀預(yù)測下一個 token。它使用了 Transformer 解碼器架構(gòu),并且對世界模型的開發(fā)作出了多項關(guān)鍵改進。
3D RoPE(旋轉(zhuǎn)位置嵌入)分別對空間和時間維度進行編碼,確保精確的視頻序列表示。
交叉注意層實現(xiàn)了文本輸入,提高了對世界生成的控制力。
QK 歸一化提高了訓(xùn)練的穩(wěn)定性。
該模型的預(yù)訓(xùn)練循序漸進,從預(yù)測一個單輸入幀的 17 個未來幀開始,擴展到 34 個幀,最終達到 121 個幀(或 50000 個 token)。通過引入文本輸入,將描述與視頻幀相結(jié)合,并使用高質(zhì)量數(shù)據(jù)對模型進行微調(diào),最終獲得穩(wěn)健的性能。這種結(jié)構(gòu)化的方法使模型無論是否有文本輸入,都能夠生成不同長度和復(fù)雜程度的視頻。
圖 2 Cosmos 自回歸模型使用 Transformer 解碼器架構(gòu),并且對世界模型的開發(fā)作出了多項關(guān)鍵的改進
擴散模型
擴散模型由于能夠解構(gòu)訓(xùn)練數(shù)據(jù)并根據(jù)用戶輸入進行重建,從而生成高質(zhì)量的逼真輸出,因此被普遍用于生成圖像、視頻和音頻。
擴散模型的運行分為兩個階段:
前向擴散過程:通過在多個步驟中添加高斯噪聲,逐步破壞訓(xùn)練數(shù)據(jù),從而有效地將其轉(zhuǎn)化為純噪聲。
反向擴散過程:模型學(xué)會逐步逆轉(zhuǎn)噪聲,通過對損壞的輸入數(shù)據(jù)進行去噪處理來恢復(fù)原始數(shù)據(jù)。
經(jīng)過訓(xùn)練的擴散模型通過對隨機高斯噪聲進行采樣并將其傳遞到所學(xué)的去噪過程來生成新數(shù)據(jù)。此外,Cosmos 擴散模型還針對物理 AI 開發(fā)進行了多項關(guān)鍵更新。
3D 補丁化將視頻處理成更小的補丁,簡化了時空序列表示。
混合位置嵌入處理空間和時間維度,支持不同分辨率和幀率的視頻。
交叉注意層包含文本輸入,可根據(jù)描述更好地控制視頻生成。
借助 LoRA 實現(xiàn)的自適應(yīng)層歸一化可將模型大小減少 36%,從而減少保持高性能所需的資源。
選擇不同大小的模型滿足各種需求
開發(fā)者可根據(jù)性能、質(zhì)量和部署需求選擇以下三種大小的模型。
Nano:專為實時、低延遲推理和邊緣部署優(yōu)化。
Super:高性能基準(zhǔn)模型。
Ultra:追求最高的質(zhì)量和保真度,是蒸餾定制模型的理想選擇。
優(yōu)勢和局限性
Cosmos 世界基礎(chǔ)模型可生成低分辨率、與現(xiàn)實世界精準(zhǔn)匹配的合成視頻數(shù)據(jù),這些數(shù)據(jù)是訓(xùn)練機器人和自動駕駛汽車系統(tǒng)的關(guān)鍵。雖然這些模型缺乏藝術(shù)感,但其輸出結(jié)果與物理世界非常接近,因此非常適合用于在物理AI模型訓(xùn)練中實現(xiàn)精確的物體恒存和逼真的場景。
通過護欄保障 Cosmos 基礎(chǔ)模型的
安全使用
AI 模型需要護欄保證其可靠性,包括減少幻覺、防止輸出有害內(nèi)容、保護隱私以及與 AI 標(biāo)準(zhǔn)保持一致,從而實現(xiàn)安全可控的部署。Cosmos 通過符合 NVIDIA 可信 AI 承諾的定制雙段護欄系統(tǒng),保障世界基礎(chǔ)模型的安全使用。
Cosmos Guardrails 的運行分為兩個階段:前防護和后防護。
前防護
該階段包含兩層基于文本提示的安全措施:
關(guān)鍵詞屏蔽:攔截列表檢查器掃描提示中的不安全關(guān)鍵詞,使用詞素化檢測變體并攔截非英語術(shù)語或拼寫錯誤。
Aegis 護欄:NVIDIA 經(jīng)過微調(diào)的 Aegis AI 內(nèi)容安全模型可檢測并阻止語義上不安全的提示,包括暴力、騷擾和褻瀆等類別。如果檢測到不安全的提示,就會停止視頻生成并返回錯誤信息。
后防護
后防護階段通過以下方式保障生成視頻的安全性:
視頻內(nèi)容安全分類器:該多類分類器會對視頻進行逐幀安全評估。一旦有任何幀被標(biāo)記為不安全,整個視頻將被拒絕。
人臉模糊過濾器:使用 RetinaFace 模型對生成視頻中的所有人臉進行模糊處理,以保護隱私并減少年齡、性別或種族偏見。
為了完善系統(tǒng)和覆蓋邊緣情況,NVIDIA 專家使用對抗性示例進行了嚴格的測試,對 10000 多對提示-視頻添加了注釋。
評估 Cosmos 世界基礎(chǔ)模型的
3D 一致性和物理一致性
世界基礎(chǔ)模型能夠為物理 AI 應(yīng)用準(zhǔn)確、高效地仿真現(xiàn)實世界的物理特性,Cosmos 基準(zhǔn)測試在評估這一能力方面起到了至關(guān)重要的作用。目前,公開的視頻生成基準(zhǔn)測試側(cè)重于生成視頻的保真度、時間一致性和速度,而 Cosmos 基準(zhǔn)測試則增加了一個評估通用模型的新維度—— 3D 一致性和物理一致性,以便根據(jù)物理 AI 系統(tǒng)對準(zhǔn)確性的要求對視頻進行評估。
3D 一致性
我們從一個開放數(shù)據(jù)集中整理了 500 個視頻子集,然后在這些視頻子集的靜態(tài)場景中對 Cosmos 模型進行了 3D 一致性測試。為避免與運動相關(guān)的復(fù)雜性,我們生成了描述視頻的文本提示。我們將測試結(jié)果與基準(zhǔn)生成模型 VideoLDM 進行了比較。
使用的指標(biāo)
幾何一致性:使用 Sampson 誤差和攝像機姿態(tài)估計成功率等指標(biāo),通過極線幾何約束技術(shù)進行評估。
視圖合成一致性:使用峰值信噪比(PSNR)、結(jié)構(gòu)相似性指數(shù)(SSIM)和學(xué)習(xí)感知圖像補丁相似性(LPIPS)等指標(biāo)進行評估。這些指標(biāo)衡量的是根據(jù)插值攝像機位置合成視圖的質(zhì)量。
Sampson 誤差越低、成功率越高,說明 3D 對齊度越高。同樣,PSNR 和 SSIM 越高、LPIPS 越低,說明質(zhì)量越高。
表 1 Cosmos 世界基礎(chǔ)模型與 VideoLDM 基本模型的 3D 一致性評估結(jié)果比較
結(jié)果
Cosmos 世界基礎(chǔ)模型在 3D 一致性方面優(yōu)于基準(zhǔn)模型(表 1),其幾何對齊度和攝像機姿勢成功率更高。這些模型合成的視圖與現(xiàn)實世界的質(zhì)量相匹配,證明了它們可以作為有效的世界仿真器。
物理對齊度
物理對齊度測試了 Cosmos 模型仿真現(xiàn)實世界物理特性(包括運動、重力和能量動態(tài))的效果。我們使用 NVIDIA PhysX 和 NVIDIA Isaac Sim 設(shè)計了八個受控場景,以便評估虛擬環(huán)境中的重力、碰撞、扭矩、慣性等屬性。
使用的指標(biāo)
像素級指標(biāo):峰值信噪比(PSNR)衡量模型輸出的像素值與參考視頻的匹配程度。數(shù)值越高,說明噪聲越小,準(zhǔn)確度越高。結(jié)構(gòu)相似性指數(shù)(SSIM)評估生成的幀與基準(zhǔn)真相幀在結(jié)構(gòu)、亮度和對比度方面的相似性。SSIM 值越高,視覺保真度就越高。
特征級度量:DreamSim 衡量從兩段視頻中提取的高級特征之間的相似度。該方法可評估生成內(nèi)容的語義一致性,側(cè)重于物體和運動而非單個像素。
物體級指標(biāo):IoU(Intersection-over-Union)計算視頻中預(yù)測物體區(qū)域與實際物體區(qū)域的重疊度,尤其適合用于通過仿真追蹤特定物體以確保其行為符合物理預(yù)期。
PSNR、SSIM、DreamSim 和 IoU 越高,表示物理對齊度越高。
表 2 在 Cosmos 世界基礎(chǔ)模型自回歸變體所支持的最大長度——33 幀上根據(jù)各指標(biāo)計算出的物理對齊度結(jié)果
結(jié)果
Cosmos 世界基礎(chǔ)模型顯示出與物理定律的高度一致性(表 2),尤其是在增加調(diào)節(jié)數(shù)據(jù)的情況下。與基準(zhǔn)模型相比,在攝像機調(diào)節(jié)數(shù)據(jù)集上進行的后訓(xùn)練使姿勢估計成功率提高了兩倍。但也發(fā)現(xiàn)了需要重點改進的地方,如物體無常性(物體意外消失或出現(xiàn))和不合常理的行為(如違反重力)。
使用 Cosmos 和 NVIDIA Omniverse
為物理 AI 應(yīng)用定制模型
視頻搜索和理解:通過理解空間和時間模式簡化視頻標(biāo)記和搜索,使訓(xùn)練數(shù)據(jù)的準(zhǔn)備工作更加輕松。
可控的 3D 轉(zhuǎn)真實合成數(shù)據(jù)生成:借助 NVIDIA Omniverse,開發(fā)者可以創(chuàng)建 3D 場景并使用 Cosmos 生成逼真的視頻。可通過 3D 場景精準(zhǔn)控制生成的視頻,獲得高度定制化的合成數(shù)據(jù)集。
策略模型開發(fā)和評估:專為以行動為條件的視頻預(yù)測而微調(diào)的世界基礎(chǔ)模型可對策略模型(將狀態(tài)映射到行動的策略)進行可擴展、可重復(fù)的評估,從而減少對有風(fēng)險的現(xiàn)實世界測試或復(fù)雜仿真任務(wù)的依賴,例如障礙物導(dǎo)航或物體操作。
行動選擇預(yù)測:Cosmos 為物理 AI 模型提供了評估潛在行動結(jié)果的預(yù)測能力。
多重宇宙模擬:借助 Cosmos 和 NVIDIA Omniverse,開發(fā)者可以模擬多種未來結(jié)果,幫助 AI 模型評估和選擇實現(xiàn)目標(biāo)的最佳策略。從中受益的應(yīng)用包括預(yù)測性維護、自主決策等。
從通用模型到定制專業(yè)模型
Cosmos 引入了一種分為兩個階段的世界模型訓(xùn)練方法。
通用模型:Cosmos 世界基礎(chǔ)模型作為通用模型構(gòu)建并在廣泛的數(shù)據(jù)集上訓(xùn)練而成。所使用的數(shù)據(jù)集包括各種現(xiàn)實世界的物理和環(huán)境。這些開放式模型能夠處理從自然動力學(xué)到機器人交互等廣泛的場景,為一切物理 AI 任務(wù)提供了堅實的基礎(chǔ)。
專業(yè)模型:開發(fā)者可以使用更小但更具針對性的數(shù)據(jù)集對通用模型進行微調(diào),以創(chuàng)建專為特定應(yīng)用(例如自動駕駛或人形機器人)量身定制的專業(yè)模型或者生成定制的合成場景(例如帶有緊急車輛的夜景或高保真工業(yè)機器人環(huán)境)。與從頭開始訓(xùn)練模型相比,該微調(diào)過程大大減少了所需的數(shù)據(jù)和訓(xùn)練時間。
Cosmos 通過高效的視頻處理管線、高性能 tokenizer 和先進的訓(xùn)練框架加快了訓(xùn)練和微調(diào)的速度,使開發(fā)者能夠滿足運營需求并覆蓋邊緣案例,推進了物理 AI 的開發(fā)工作。
使用 NVIDIA NeMo Curator 加速數(shù)據(jù)處理
為了訓(xùn)練模型,需要投喂經(jīng)過整理的高質(zhì)量數(shù)據(jù),這需要耗費大量時間和資源。NVIDIA Cosmos 包含一個由 NVIDIA NeMo Curator 驅(qū)動并專為 NVIDIA 數(shù)據(jù)中心 GPU 優(yōu)化的數(shù)據(jù)處理和整理管線。
NVIDIA NeMo Curator 使機器人和自動駕駛汽車開發(fā)者能夠高效處理龐大的數(shù)據(jù)集。以 2000 萬小時的視頻為例,在NVIDIA Hopper GPU 上處理只需 40 天,在 NVIDIA Blackwell GPU 上處理只需 14 天,而使用未優(yōu)化的 CPU 管線處理則需要 3.4 年。
主要優(yōu)點包括:
整理速度提高了 89 倍:大幅縮短處理時間
可擴展性:無縫處理 100 PB 以上的數(shù)據(jù)
高吞吐量:先進的過濾、字幕添加和嵌入功能可在不影響速度的情況下確保質(zhì)量
圖 4 Cosmos 包含可將視頻數(shù)據(jù)處理速度提高 89 倍的 NeMo Curator
使用 Cosmos Tokenizer 進行高保真壓縮和重建
在對數(shù)據(jù)進行整理后,需要對其進行 token 化才能用于訓(xùn)練。token 化將復(fù)雜的數(shù)據(jù)分解為易于管理的單元,使模型能夠更加高效地處理和學(xué)習(xí)數(shù)據(jù)。
Cosmos tokenizer 簡化了這一過程,在保持質(zhì)量、降低成本和復(fù)雜性的同時,加快了壓縮和可視化重建的速度。用于自回歸模型的離散 tokenizer 將數(shù)據(jù)處理時間縮短了 8 倍并將數(shù)據(jù)所占空間壓縮了 16×16 倍,一次最多可處理 49 個幀。用于擴散模型的連續(xù) tokenizer 將數(shù)據(jù)處理時間縮短了 8 倍并將數(shù)據(jù)所占空間壓縮了 8×8 倍,最多可處理 121 個幀。
使用 NVIDIA NeMo 進行微調(diào)
開發(fā)者可以使用 NVIDIA NeMo 框架對 Cosmos 世界基礎(chǔ)模型進行微調(diào)。無論是在本地數(shù)據(jù)中心還是在云端,NeMo Framework 都能加快在 GPU 驅(qū)動的系統(tǒng)上訓(xùn)練模型的速度,幫助開發(fā)者增強現(xiàn)成的模型或構(gòu)建新的模型。
NeMo Framework 通過以下方式實現(xiàn)多模態(tài)數(shù)據(jù)的高效加載:
將 TB 大小的數(shù)據(jù)集分片成多個壓縮文件,以減少 IO 開銷。
確定性地保存和加載數(shù)據(jù)集,以避免重復(fù)并最大程度地減少計算浪費。
在交換數(shù)據(jù)時,使用經(jīng)過優(yōu)化的通信方式減少網(wǎng)絡(luò)帶寬。
開始使用 NVIDIA Cosmos
Cosmos 世界基礎(chǔ)模型是開放模型并且可在 NGC 和 Hugging Face 上獲得。開發(fā)者還可在 NVIDIA API 目錄上運行 Cosmos 世界基礎(chǔ)模型。此外,API 目錄上還提供用于提高文本提示準(zhǔn)確性的 Cosmos 工具、便于未來輕松識別 AI 生成序列的內(nèi)置水印系統(tǒng)以及用于解碼增強現(xiàn)實應(yīng)用視頻序列的專用模型。如需了解更多信息,請觀看演示。
用于加速數(shù)據(jù)處理管線的 NeMo Curator 以托管服務(wù)和 SDK 的形式提供。開發(fā)者現(xiàn)在可以申請搶先體驗。Cosmos tokenizer 是開放式神經(jīng)網(wǎng)絡(luò)并且可在 GitHub 和 Hugging Face 上獲得。
-
機器人
+關(guān)注
關(guān)注
211文章
28557瀏覽量
207687 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5049瀏覽量
103354 -
AI
+關(guān)注
關(guān)注
87文章
31262瀏覽量
269625
原文標(biāo)題:CES 2025 | 使用 NVIDIA Cosmos 世界基礎(chǔ)模型平臺推進物理 AI 的開發(fā)工作
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論