NVIDIA Research 發表 50 多篇論文,介紹 AI 軟件在創意產業、自動駕駛汽車開發、醫療和機器人領域的潛在應用。
NVIDIA 的研究人員站在快速發展的視覺生成式 AI 領域最前沿,正在開發用于創建和解釋圖像、視頻與 3D 環境的新技術。
NVIDIA日前在西雅圖舉行的國際計算機視覺與模式識別會議(CVPR)上展示 50 多個此類項目成果。其中的兩篇論文(一篇關于擴散模型訓練動態,另一篇關于自動駕駛汽車高清地圖)入圍了 CVPR 最佳論文獎。
NVIDIA 同時還在 CVPR 自動駕駛大型挑戰賽中獲得了大規模端到端駕駛類別第一名。這座重要的里程碑代表 NVIDIA 正在將生成式 AI 全面應用于自動駕駛模型。NVIDIA 提交的獲獎作品在全球 450 多件參賽作品中脫穎而出,還獲得了 CVPR 創新獎。
NVIDIA 在 CVPR 上展示的研究成果包括:一種可輕松定制以描繪特定物體或角色的文本轉圖像模型、全新的物體姿態估計模型、神經輻射場(NeRF)編輯技術以及一種能夠理解流行語的視覺語言模型等。另外還展示了介紹汽車、醫療和機器人等行業的特定領域創新的論文。
這些研究成果都加入了強大的 AI 模型,幫助創作者能夠更快地將其藝術構想變為現實,加快制造業自主機器人的訓練速度,通過協助處理放射學報告為醫療專業人員提供支持。
NVIDIA 感知與學習研究副總裁 Jan Kautz 表示:“人工智能,尤其是生成式人工智能,是一次關鍵的技術進步。從可以為專業創作者提供超強助力的強大圖像生成模型,一直擴展到可以幫助開發新一代自動駕駛汽車的自動駕駛軟件,都將在 CVPR 上呈現 NVIDIA Research 如何不斷拓寬技術邊界。”
NVIDIA 還在 CVPR 上發布了 NVIDIA Omniverse Cloud Sensor RTX,這套能實現物理級精確傳感器仿真的微服務,從而加速各類全自主機器的開發工作。
無需微調,JeDi 簡化自定義圖像生成
擴散模型是當前基于文本生成圖像的核心方法。使用擴散模型的創作者通常以一個特定的角色或物體為中心,例如圍繞一只動畫老鼠創作一個故事,或者集思廣益討論一款特定玩具的廣告等。
此前的研究已經讓這些創作者能夠通過微調(即用戶在自定義數據集上訓練模型)對擴散模型的輸出結果進行個性化處理,使模型能夠專注于特定的主題。但這一過程非常耗時,而且不支持普通用戶使用。
由約翰-霍普金斯大學(Johns Hopkins University)、豐田工業大學芝加哥分校(Toyota Technological Institute at Chicago)和 NVIDIA 研究人員共同撰寫的論文《JeDi》提出了一種新的技術,使用戶只需要使用參考圖像就能在幾秒鐘內輕松實現個性化的擴散模型輸出結果。研究小組發現該模型達到了最先進的質量水平,明顯優于當前基于微調和無微調的方法。
JeDi 還可以與檢索增強生成(RAG)相結合,為品牌產品目錄等數據庫生成特定視覺效果。
新基礎模型讓姿態更完美
NVIDIA 研究人員還在 CVPR 上展示了用于物體姿態估計和跟蹤的基礎模型 FoundationPose。該模型無需進行微調,即可在推理過程中即時應用于新的物體。
該模型通過一小組參考圖像或者物體的 3D 呈現了解物體的形狀,并且在流行的物體姿態估計基準測試中創下了新紀錄。在了解物體形狀后,它就可以識別并跟蹤物體在視頻中的 3D 移動和旋轉情況,即使在光線條件較差或有視覺障礙物的復雜場景中也不受影響。
FoundationPose 可用于工業應用,以幫助自主機器人識別和跟蹤與之交互的物體。它還可以用于增強現實應用,使用 AI 模型在實時場景上疊加視覺效果。
NeRFDeformer 轉換 3D 場景,
只需一張快照
NeRF 是一種 AI 模型,可以基于在環境不同位置拍攝的一系列 2D 圖像進行 3D 場景渲染。在機器人等領域,NeRF 可用于生成現實世界復雜場景的沉浸式 3D 渲染,例如雜亂無章的房間或建筑工地等。一旦需要進行更改,開發人員就需要手動定義場景的轉變方式,或者重新制作 NeRF。
伊利諾伊大學香檳分校(University of Illinois Urbana-Champaign)和 NVIDIA 的研究人員則使用 NeRFDeformer 簡化了這一過程。在 CVPR 大會上展示的這一方法,可以利用單張 RGB-D 圖像成功轉換現有的 NeRF。RGB-D 圖像由正常照片與深度圖組合而成,深度圖可以捕捉到場景中每個物體與攝像機之間的距離。
VILA 視覺語言模型獲取圖像
NVIDIA 與麻省理工學院(MIT)聯合開展的 CVPR 研究項目正在推動視覺語言模型技術的發展。視覺語言模型是一種能夠處理視頻、圖像和文本的生成式 AI 模型。
該研究小組開發的 VILA 是一個開源視覺語言模型系列。在測試 AI 模型回答圖像問題能力的關鍵基準測試中,VILA 的表現優于先前的神經網絡。VILA 獨特的預訓練流程解鎖了新的模型能力,包括更加深厚的世界知識、更強大的上下文學習能力以及多圖像間的推理能力。
VILA 可以理解流行語并基于多個圖像或視頻進行推理。
VILA 模型系列支持使用 NVIDIA TensorRT-LLM 開源程序庫進行推理優化,并且可以部署在數據中心、工作站甚至邊緣設備的 NVIDIA GPU 上。
在 NVIDIA 技術博客和 GitHub 上均可進一步了解 VILA。
生成式 AI 助力自動駕駛和智慧城市研究
在 NVIDIA 主筆的 CVPR 論文中,關于自動駕駛汽車研究的論文有十多篇。其他與自動駕駛汽車相關的重點內容包括:
NVIDIA 自動駕駛汽車應用研究,贏得 CVPR 自動駕駛挑戰賽冠軍并在如下 demo 中進行了演示。
NVIDIA AI 研究副總裁 Sanja Fidler 于 6 月 17 日的自動駕駛研討會上發表關于視覺語言模型的演講。
多倫多大學和 NVIDIA 研究人員共同撰寫的論文《在軌跡預測中生成和利用在線地圖的不確定性》成為 24 篇入圍 CVPR 最佳論文獎的論文之一。
此外,在本屆 CVPR 上,NVIDIA 為 AI 城市挑戰賽提供了有史以來最大的室內合成數據集,助力研究人員和開發人員推進智慧城市與工業自動化解決方案的開發。該挑戰賽的數據集使用 NVIDIA Omniverse 生成,這是一個由 API、SDK 和服務構成的平臺,可幫助開發人員構建基于通用場景描述(OpenUSD)的應用和工作流。
NVIDIA Research 在全球擁有數百名科學家和工程師,專注于 AI、計算機圖形學、計算機視覺、自動駕駛汽車和機器人等領域的研究。
-
NVIDIA
+關注
關注
14文章
4991瀏覽量
103137 -
自動駕駛
+關注
關注
784文章
13835瀏覽量
166514 -
生成式AI
+關注
關注
0文章
504瀏覽量
481
原文標題:CVPR 2024 | NVIDIA Research 在 CVPR 上展示視覺生成式 AI 最新進展
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論