經數百萬小時的駕駛和機器人視頻數據訓練的先進模型,可用于普及物理 AI 開發,并以開放模型許可形式提供。
NVIDIA Cosmos是一個用于加速物理 AI 開發的平臺,推出了一系列世界基礎模型——可以預測和生成虛擬環境未來狀態的物理感知視頻的神經網絡,以幫助開發者構建新一代機器人和自動駕駛汽車(AV)。
如同大語言模型一樣,世界基礎模型(WFM)屬于基礎類模型。這類模型使用包括文本、圖像、視頻和運動在內的輸入數據來生成和仿真虛擬世界,以準確模擬場景中物體的空間關系及其物理交互。
在 CES 大會上,NVIDIA 推出第一批 Cosmos 世界基礎模型,用于基于物理的仿真和合成數據生成,配備先進的 tokenizer、護欄、加速數據處理和管理工作流,以及模型定制和優化框架。
無論公司規模大小,研究人員和開發者都可以根據 NVIDIA 允許商業使用的開放模型許可下,自由使用 Cosmos 模型。構建 AI 智能體的企業還可以使用在 CES 上推出的新開源 NVIDIA Llama Nemotron 和 Cosmos Nemotron 模型。
Cosmos 先進的開放模型能夠幫助物理 AI 開發者解決障礙,無拘無束構建機器人和自動駕駛汽車技術,并使各種規模的企業能夠更快地將其物理 AI 應用推向市場。開發者可以直接使用 Cosmos 模型生成基于物理學的合成數據,或利用 NVIDIA NeMo 框架,根據自己的視頻對模型進行微調,以實現特定物理 AI 設置。
物理 AI 領先者——包括機器人公司 1X、Agility Robotics 和小鵬汽車,以及自動駕駛汽車開發商 Uber 和 Waabi ——已經在與 Cosmos 協作,加速并增強模型開發。
開發者可以在 NVIDIA API 目錄中預覽首個 Cosmos 自回歸和擴散模型,并從 NGC 目錄和 Hugging Face 下載模型系列和微調框架。
用于物理 AI 的世界基礎模型
Cosmos 世界基礎模型是一套用于物理感知視頻生成的開放式擴散和自回歸 Transformer 模型。這些模型已基于 2000 萬小時的真實世界人類互動、環境、工業、機器人和駕駛數據,訓練了 9,000 萬億個 token。
該類模型分為三類:Nano,用于針對實時、低延遲推理和邊緣部署進行優化的模型;Super,用于高性能基線模型;Ultra,具有高質量和保真度,適合用于蒸餾自定義模型。
配合NVIDIA Omniverse3D 輸出時,擴散模型生成可控的高質量合成視頻數據,用于啟動機器人和自動駕駛汽車感知模型的訓練。自回歸模型基于輸入幀和文本,預測視頻幀序列中的下一步動態。可實現實時下一個 token 預測,讓物理 AI 模型預測他們的下一個最佳行動。
開發者可以使用 Cosmos 開放模型進行文本到世界和視頻到世界的生成。擴散或自回歸模型版本的參數量在 40 億到 140 億之間,現可以在 NGC 目錄和 Hugging Face 上查詢。
還提供用于總結文本提示的參數量級達 120 億的上采樣模型、針對增強現實優化 70 億參數級視頻解碼器、以及確保負責任和安全使用的護欄模型。
為了展示定制的機會,NVIDIA 還發布了針對垂直應用的微調模型樣本,例如為自動駕駛汽車生成多傳感器視圖。
推動機器人、自動駕駛汽車應用
Cosmos 世界基礎模型可以實現合成數據生成,以增強訓練數據集,在物理 AI 模型部署到現實世界之前進行仿真測試和調試,以及在虛擬環境中進行強化學習以加速 AI 智能體學習。
開發者可以通過使用NVIDIA Omniverse組合的 3D 場景來調節 Cosmos ,從而生成大量可控的基于物理學的合成數據。
Waabi 是一家從自動駕駛汽車開始致力于開發物理世界生成式 AI 的先驅。該公司正在評估 Cosmos 在自動駕駛汽車軟件開發和仿真中視頻數據搜索與整理的應用。這將進一步加速該公司安全方面行業領先的方法,該方法以 Waabi World 為基礎。Waabi World 是一種生成式 AI 仿真器,能夠以與現實世界中發生的情況相同的水平,創建出車輛可能遇到的情況。
在機器人開發中,世界基礎模型可以生成合成虛擬環境或世界,為機器人學習提供更具性價比、更高效和更受控的空間。AI 機器人初創公司 Hillbot 正在利用 Cosmos 生成萬億字節級的高保真 3D 環境,以提升數據工作流。這種 AI 生成數據將幫助公司完善其機器人培訓和操作,實現更快、更高效的機器人技能和提高工業和家庭任務表現。
無論工業或家庭應用,開發者都可以使用 NVIDIA Omniverse 和 Cosmos 作為多元宇宙仿真引擎,允許物理 AI 策略模型模擬執行特定任務的每一個可能的未來路徑,從而有助于模型選擇最佳路徑。
數據管理和 Cosmos 模型的訓練依賴于數千個 NVIDIA GPU,通過高性能、完全托管的 AI 平臺 NVIDIA DGX Cloud,在每個領先的云端提供加速計算集群。
采用 Cosmos 的開發者可以使用 DGX Cloud 進行 Cosmos 模型的簡單部署,并通過 NVIDIA AI Enterprise 軟件平臺提供進一步的支持。
通過 NVIDIA Cosmos 進行自定義和部署
除基礎模型外,Cosmos 平臺還包括由 NVIDIA NeMo Curator 提供支持的數據處理和管理工作流,并針對 NVIDIA 數據中心 GPU 進行了優化。
機器人和自動駕駛汽車開發者收集數百萬或數十億小時的真實世界錄制視頻,從而產生數千萬億字節級的數據。Cosmos 使開發者能夠在 NVIDIA Hopper GPU 上僅用 40 天處理 2000 萬小時的數據,在 NVIDIA Blackwell GPU 上只需 14 天就能處理 2000 萬小時的數據。使用在具有等效功耗的 CPU 系統上運行的未優化的工作流,處理相同數量的數據將需要三年以上的時間。
該平臺還擁有一套強大的視頻和圖像 tokenizer,可以將視頻轉換為不同視頻壓縮比的標記,用于訓練各種 Transformer 模型。
與當今先進的 tokenizer 相比,Cosmos tokenizer 的總壓縮率高出 8 倍,處理速度快 12 倍,在訓練和推理方面提供卓越的質量并降低計算成本。開發者可以通過 Hugging Face 和 GitHub 訪問這些根據 NVIDIA 開放模式許可提供的tokenizer。
使用 Cosmos 的開發者還可以使用 NeMo 框架提供的模型訓練和微調功能,NeMo 框架是一種 GPU 加速框架,可實現高吞吐量 AI 訓練。
開發安全、負責任的 AI 模型
現在,Cosmos 已根據 NVIDIA 開放模式許可協議向開發者開放,其開發符合 NVIDIA 的可信 AI 原則,包括非歧視、隱私、安全、保障和透明度。
Cosmos 平臺包括 Cosmos Guardrails,這是一套專用的模型,其功能包括在預處理期間減少有害文本和圖像輸入,以及在后處理期間屏幕生成安全視頻。開發者可以進一步增強這些護欄,以適應自定義應用程序。
NVIDIA API Catalog 上的 Cosmos 模型還具有內置的水印系統,可識別 AI 生成序列。
NVIDIA Cosmos 由 NVIDIA Research 開發。請閱讀研究論文《Cosmos World Foundation Model Platform for Physical AI》,了解有關模型開發和基準的更多詳細信息。可訪問 Hugging Face,查找模型卡以了解詳細信息。
開始使用 NVIDIA Cosmos 并與 NVIDIA 一起,參加 CES 大會。
-
NVIDIA
+關注
關注
14文章
5021瀏覽量
103257 -
AI
+關注
關注
87文章
31133瀏覽量
269470 -
模型
+關注
關注
1文章
3267瀏覽量
48924
原文標題:CES 2025 | NVIDIA 面向物理 AI 開發者社區開放 Cosmos 世界基礎模型
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論