在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

英偉達推出基石世界模型Cosmos,解決智駕與機器人具身智能訓練數據問題

佐思汽車研究 ? 來源:佐思汽車研究 ? 2025-01-14 11:04 ? 次閱讀

CES 2025展會上,英偉達推出了基石世界模型Cosmos,World Foundation Model基石世界模型,簡稱WFM。

物理 AI 模型的開發成本很高并且需要大量真實數據和測試。Cosmos 世界基礎模型(WFM)使開發者能夠輕松生成大量基于物理學的逼真合成數據,以用于訓練和評估其現有的模型。開發者還可以通過微調 Cosmos WFM 構建自定義模型。

為加速機器人自動駕駛汽車行業的工作,Cosmos 模型將以開放模型許可證的方式提供。開發者可以在 NVIDIA API 目錄中預覽首批模型,也可以從 NVIDIA NGC 目錄或 Hugging Face下載整個系列的模型和微調框架。

Cosmos 的首批用戶包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和小鵬汽車等領先機器人和汽車公司以及共享出行巨頭 Uber。

Cosmos主要功能,生成虛擬世界狀態:Cosmos能根據文本、圖像或視頻的提示生成高度仿真的虛擬世界狀態,適用于自動駕駛和機器人應用。

生成式模型:平臺基于生成式模型快速生成與真實世界場景相似的數據,幫助開發者訓練和評估現有的AI模型。

高級標記器和數據處理:Cosmos集成了高級標記器和加速視頻處理管道,生成的數據在后續的模型訓練中發揮更大的作用。

安全與合規:平臺還提供了安全防護機制,確保數據的安全與合規。

開放模型許可:Cosmos將以開放模型許可的形式在Hugging Face和NVIDIA NGC目錄中提供,支持開發者進行定制化應用。

Cosmos的技術原理

生成式世界基礎模型(WFM):Cosmos使用先進的生成式模型技術,模型包括擴散模型和自回歸Transformer模型,能生成與真實世界高度一致的場景。

駕駛環境模擬:Cosmos能生成各種天氣和路況條件下的合成數據,為自動駕駛系統的訓練提供豐富的場景。

策略模型優化:通過生成大量逼真的駕駛場景,Cosmos可以幫助自動駕駛系統在模擬環境中進行強化學習,優化決策策略模型,測試在不同場景下的性能。

復雜環境適應性訓練:Cosmos可以為機器人提供復雜環境的實時模擬,使其感知系統通過合成數據進行訓練。

導航與任務執行:基于Cosmos生成的虛擬世界狀態,機器人可以更好地理解和適應周圍環境,實現更精準的導航和任務執行。

逼真場景生成:Cosmos能生成高度仿真的虛擬世界狀態,適用于虛擬現實游戲和仿真訓練。例如,開發者可以使用Omniverse創建三維場景,然后通過Cosmos將其轉換為逼真的場景,使機器人在模擬環境中進行訓練。

工業數字孿生:結合NVIDIA的Omniverse和Cosmos,可以創建工業數字孿生環境,用于工廠和倉庫的模擬、測試和優化。這使得在復雜生產設施和配送中心網絡中,能更好地進行手動設計、操作和優化。

Cosmos的應用案例

Uber自動駕駛開發:Uber作為首批采用Cosmos的公司之一,基于生成式AI能力,加速了安全、可擴展的自動駕駛解決方案的進程。為Uber的自動駕駛系統提供了豐富的合成數據,幫助其在不同駕駛場景下進行模型訓練和優化,提升自動駕駛技術的安全性和可靠性。

小鵬汽車模擬訓練:小鵬汽車也采用了Cosmos平臺,通過生成各種天氣和路況條件下的合成駕駛數據,對自動駕駛算法進行模擬訓練。例如,在模擬雨、雪、霧、霾等惡劣天氣下,以及城市道路、高速公路等不同路況的場景中,自動駕駛系統可以學習如何更好地感知環境、做出決策和執行操作,提高算法在真實街景中的表現。

1X機器人動態規劃:1X公司用Cosmos的仿真引擎,為機器人提供了高保真的力學、運動學和動態交互建模能力。通過閉環模擬,1X機器人可以在虛擬環境中進行動態規劃與環境適應性優化,在實際應用場景中實現更精準的導航和任務執行。

Waabi是一家從自動駕駛汽車開始致力于開發物理世界生成式 AI 的先驅。該公司正在評估 Cosmos 在自動駕駛汽車軟件開發和仿真中數據整理的應用。

Wayve是一家致力于開發自動駕駛 AI 基礎模型的公司。該公司正在評估使用 Cosmos 搜索用于提高安全性和驗證的極端駕駛場景。

自動駕駛汽車工具鏈提供商Foretellix將使用 Cosmos 與 NVIDIA Omniverse Sensor RTX API大規模評估和生成高保真測試場景與訓練數據。

我們來具體看一下Cosmos,英偉達搜集了2000萬小時的視頻,這些視頻數據篩選或者說編審(curation)管線借助許多經過預訓練的圖像/視頻理解模型,從中抽出1億個2-60秒的片段,每個片段使用VLM視覺語言模型,每256幀提供一個視覺解說(caption),英偉達采用自回歸即transformer和擴散diffusion兩種模式來生成盡可能多的可用于訓練的視頻。英偉達使用一萬張H100顯卡,用時三個月,訓練出了Cosmos,當然這個模型會一直升級,英偉達的運算資源自然是不成問題的。

英偉達打造了一種Ray-based orchestration的管線,用于端到端特別是強化學習訓練中。

強化學習訓練

422e7d62-d08e-11ef-9310-92fbcf53809c.png

圖片來源:論文《Ray: A Distributed Framework for Emerging AI Applications》

Ray架構

4249faa6-d08e-11ef-9310-92fbcf53809c.png

圖片來源:論文《Ray: A Distributed Framework for Emerging AI Applications》

Cosmos實例

42603d98-d08e-11ef-9310-92fbcf53809c.png

圖片來源:英偉達

預訓練的Cosmos WFM生成高質量的3D視頻并且包含正確的物理世界分布與反應。使用連續和分離潛在表示(latent representation)來訓練視頻。

42972326-d08e-11ef-9310-92fbcf53809c.png

圖片來源:英偉達

WFM是基石,再根據下游具體應用做出對應的定制數據集,再進行訓練。

華為DriveGPT4

42a6d6ea-d08e-11ef-9310-92fbcf53809c.png

圖片來源:華為DriveGPT4論文

這和自動駕駛領域將LLM微調一樣,華為使用的是META開源的LLaMA 2,使用BDD-X和ChatGPT做指令微調。這些指令實際就是prompt,它包括動作命令、軌跡規劃和具體指令。這些prompt需要從現實物理世界中搜集,并做一一對應。

Cosmos構成

42b48f24-d08e-11ef-9310-92fbcf53809c.png

圖片來源:英偉達

Cosmos視頻篩選步驟

42c69b24-d08e-11ef-9310-92fbcf53809c.png

圖片來源:英偉達

42e04b82-d08e-11ef-9310-92fbcf53809c.png

上面是Cosmos視頻類型構成,駕駛類占了11%,手動作和物體操縱占16%,人類動作和活動占10%,空間認知和導航占16%,第一人稱視角占8%,自然動態占20%。由此看出,Cosmos主要還是面向機器人和具身智能的。

Cosmos的Tokenizer

430731e8-d08e-11ef-9310-92fbcf53809c.png

圖片來源:英偉達

Cosmos的Tokenizer可以對應各種類型的輸入。

Cosmos擴散WFM模型1.0版架構

4320e552-d08e-11ef-9310-92fbcf53809c.png

圖片來源:英偉達

Cosmos擴散WFM模型1.0版架構,tokenizer分的很細,且是3D的,國內受限于計算資源,都盡量減少token數量,這會導致準確率下降。英偉達自然是絲毫不在意計算資源的。

Cosmos生成多個視角視頻

43339260-d08e-11ef-9310-92fbcf53809c.png

Text-conditioned samples generated by Cosmos-1.0-Di?usion-7B-Text2World-SampleMultiView, extended to 8 seconds by Cosmos-1.0-Di?usion-7B-Video2World-Sample-MultiView.

圖片來源:英偉達

多視角視頻目前國內已知的只有華為的MagicDriveDiT。

434462e8-d08e-11ef-9310-92fbcf53809c.png

Trajectory-conditioned generated samples from Cosmos-1.0-Di?usion-7B-Text2World-SampleMultiView-TrajectoryCond.,給定軌跡,生成需要的視頻,同樣是多視角的,圖片只顯示了前攝像頭視角。

圖片來源:英偉達

436ebe44-d08e-11ef-9310-92fbcf53809c.png

圖片來源:英偉達

軌跡誤差即TFE的單位是厘米,與真實即groundtruth的誤差小于7厘米。

4380b55e-d08e-11ef-9310-92fbcf53809c.png

圖片來源:英偉達

視頻生成質量指標主要是FID和FVD,FID(Fréchet Inception Distance)是一種用于評估生成模型,尤其是在圖像生成任務中,生成圖像的質量和多樣性的指標。它通過比較生成圖像與真實圖像在特定空間內的分布來工作。這個特定的空間通常是通過預訓練的Inception網絡的某一層來定義的。對于生成圖像集和真實圖像集,分別通過Inception網絡(通常是Inception V3模型)計算它們的特征表示。這一步驟會得到每個圖像集的特征向量。計算每個集合的特征向量的均值和協方差矩陣,并做對比。FVD和FID接近,相當于把FID的圖像特征提取網絡換成視頻特征提取網絡,其他都差不多。

43919c70-d08e-11ef-9310-92fbcf53809c.png

注:這里的Ours指商湯的InfinityDrive

圖片來源:商湯科技

商湯的要比英偉達優秀很多,但英偉達是3D且是多視角,能達到中上游水平已經是相當優秀了,英偉達在3D方面實力是最強的,沒有之一。

Cosmos的數據保護

43aa5ae4-d08e-11ef-9310-92fbcf53809c.png

圖片來源:英偉達

視頻可能牽涉的隱私和安全問題,英偉達已經替你想過了,完全不用擔心。

英偉達Cosmos的推出對于智能駕駛特別是端到端智能駕駛有了極大的幫助,廠家的數據成本下降至少95%,數據的質量還更好,對于那些靠搜集真實數據的純數據集公司來說是滅頂之災,對于極佳、商湯和華為之流世界模型廠家則提出了嚴峻的挑戰。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    211

    文章

    28552

    瀏覽量

    207650
  • AI
    AI
    +關注

    關注

    87

    文章

    31234

    瀏覽量

    269597
  • 英偉達
    +關注

    關注

    22

    文章

    3811

    瀏覽量

    91469

原文標題:英偉達推出基石世界模型Cosmos,徹底解決智駕與機器人具身智能訓練數據問題

文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    英偉發布Cosmos世界基礎模型

    自動駕駛汽車、機器人等物理AI系統的開發進程。 Cosmos平臺的核心在于其強大的生成世界基礎模型,這一模型能夠模擬和預測現實
    的頭像 發表于 01-09 10:23 ?225次閱讀

    【「智能機器人系統」閱讀體驗】2.智能機器人的基礎模塊

    智能機器人的基礎模塊,這個是本書的第二部分內容,主要分為四個部分:機器人計算系統,自主機器人
    發表于 01-04 19:22

    智能機器人系統》第10-13章閱讀心得之智能機器人計算挑戰

    閱讀《智能機器人系統》第10-13章,我對智能
    發表于 01-04 01:15

    【「智能機器人系統」閱讀體驗】+兩本互為支持的書

    如何使用PyTorch進行數字圖像處理,它借助攝像頭來獲取視頻的圖像信息,然后通過已有的圖像識別框架模型經深度學習和優化以達到更精準的識別結果,從而為進一步的執行處理提供數據支持和依據。而《
    發表于 01-01 15:50

    【「智能機器人系統」閱讀體驗】2.智能機器人模型

    近年來,人工智能領域的大模型技術在多個方向上取得了突破性的進展,特別是在機器人控制領域展現出了巨大的潛力。在“
    發表于 12-29 23:04

    【「智能機器人系統」閱讀體驗】1.初步理解智能

    現狀和前沿研究,詳細介紹大模型的構建方法、訓練數據模型架構和優化技術。 第4部分(第10章到第13章)深入探討提升機器人計算實時性、算法安
    發表于 12-28 21:12

    【「智能機器人系統」閱讀體驗】1.全書概覽與第一章學習

    講解如何構造智能基礎模型的方法和步驟,包括數據采集、預處理、模型
    發表于 12-27 14:50

    智能機器人系統》第7-9章閱讀心得之智能機器人與大模型

    研讀《智能機器人系統》第7-9章,我被書中對大模型機器人技術融合的深入分析所吸引。第7章詳
    發表于 12-24 15:03

    【「智能機器人系統」閱讀體驗】+數據人工智能中的價值

    數據對于訓練增強和優化機器人能力的深度學習模型至關重要。 從財務上講,用戶數據對互聯網公司具有重要價值,估計每個用戶 600 美元,考慮到
    發表于 12-24 00:33

    【「智能機器人系統」閱讀體驗】+初品的體驗

    智能機器人系統》 一書由甘一鳴、俞波、萬梓燊、劉少山老師共同編寫,其封面如圖1所示。 本書共由5部分組成,其結構和內容如圖2所示。 該書可作為高校和科研機構的教材,為學生和研究人
    發表于 12-20 19:17

    智能機器人系統》第1-6章閱讀心得之智能機器人系統背景知識與基礎模塊

    、谷歌的RT系列等前沿產品中展露鋒芒。這些突破性成果標志著AI正從虛擬世界邁向物理世界的深度交互。 而研讀《智能
    發表于 12-19 22:26

    名單公布!【書籍評測活動NO.51】智能機器人系統 | 了解AI的下一個浪潮!

    技術列為重點支持領域。 近期,中國機器人研發團隊在多模態交互、語言模型運用,以及復雜任務規劃等方面取得了突破。 我國智能
    發表于 11-11 10:20

    智能機器人技術中的發展

    智能(Embodied Intelligence)在機器人技術中的發展是人工智能領域的一個重要趨勢。以下是對
    的頭像 發表于 10-27 09:48 ?745次閱讀

    英偉打造人形機器人訓練平臺,引領AI新紀元

    英偉近日宣布了一項重大舉措,為全球機器人制造業與AI領域注入強勁動力。公司推出了專為人形機器人設計的
    的頭像 發表于 08-05 11:45 ?767次閱讀

    英偉推出全新AI聊天機器人

    近日,英偉(Nvidia)宣布推出其全新的AI聊天機器人——“Chat With RTX”。這款聊天機器人被視為
    的頭像 發表于 02-19 11:09 ?953次閱讀
    主站蜘蛛池模板: 成人中文字幕一区二区三区| 99久久精品免费精品国产| 人人干网| 久操成人| 亚洲 另类色区 欧美日韩| 六月激情丁香| 欧美日韩一区视频| 欧美一级精品| 久久久久国产精品免费免费不卡 | 999国产精品| 欧美极品| 亚洲欧美在线观看| 伊人成伊人成综合网2222| 天天噜噜色| 欧美综合久久| 国产精品入口免费视频| 午夜视频免费在线观看| 加勒比日本在线| h在线免费| 伊人婷婷涩六月丁香七月| 色综合日韩| 精品视频免费看| 亚洲午夜久久| 成人午夜在线观看国产| 午夜a视频| 特级免费毛片| 精品国产欧美一区二区最新| 影音先锋色天使| 国产在线小视频| 亚洲二区在线| 特级做a爰片毛片免费看一区| 男人天堂伊人网| 一本在线免费视频| 国产伦精一区二区三区| 日本在线视频一区二区| 色最快国产| 高级毛片| 高黄网站| 一级毛片在线| 激情亚洲色图| 女bbbbxxxx毛片视频|