3月19日凌晨,NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛在2025年GTC開發(fā)者大會上發(fā)表了主題演講,演講覆蓋了AI科技演進以及計算需求,同時公布了英偉達的Blackwell架構最新一代產品、未來幾代產品的計劃出貨時間,以及英偉達在人形機器人領域的最新進展。

圖源:英偉達官方視頻,下同
演講期間,黃仁勛再次提到AI技術的進化路徑,從 Perception 感知AI到 Generative生成式AI,再到現(xiàn)階段發(fā)展火熱Agentic代理型AI,最終實現(xiàn)具備傳感與執(zhí)行功能的Physical 物理型AI。黃仁勛認為AI的終極形態(tài)Physical AI將徹底改變世界。
以下是演講的核心內容與關鍵發(fā)布:
一、硬件革新:Blackwell架構及未來路線圖
Blackwell Ultra芯片
采用臺積電4NP工藝,單卡FP4算力達15 PetaFLOPS,HBM3e顯存容量提升至288GB,推理速度較前代Hopper提升11倍8。
機架級解決方案GB300 NVL72集成72顆GPU,支持液冷技術,推理性能達每秒1000 tokens(H100的10倍)。性能提升源于NVLink 72高速互聯(lián)技術,將多GPU組合成“巨型GPU”,突破算力瓶頸。
未來架構規(guī)劃
Rubin架構(2026年發(fā)布):采用NVLink 144互聯(lián)技術,HBM4內存帶寬提升2倍,2027年Ultra版性能將達Blackwell的14倍。
Feynman架構(2028年):以物理學家費曼命名,目標實現(xiàn)算力成本指數(shù)級下降。
二、軟件生態(tài)與工具升級
Dynamo推理操作系統(tǒng)
開源動態(tài)調度系統(tǒng),優(yōu)化GPU資源分配,使Hopper平臺運行Llama模型的吞吐量提升30倍,并支持KV緩存管理。在DeepSeek-R1模型測試中,單GPU生成token數(shù)量提升30倍以上。
CUDA生態(tài)擴展
CUDA-X庫新增工具:Newton物理引擎(與DeepMind、迪士尼合作):提升機器人訓練效率10倍。
cuOpt數(shù)學規(guī)劃工具:加速千倍,已與Gurobi、IBM合作。
開發(fā)者生態(tài):全球開發(fā)者突破600萬,加速庫增至900+,覆蓋量子計算、生物醫(yī)學等領域。
三、AI發(fā)展階段論與物理AI的推進
AI三階段演進路徑
感知人工智能(Perception AI):大約10年前啟動,專注于語音識別和其他簡單任務。
生成式人工智能(Generative AI):過去5年的重點,涉及通過預測模式進行文本和圖像創(chuàng)建。
代理人工智能(Agentic AI):人工智能以數(shù)字方式交互并自主執(zhí)行任務的當前階段,以推理模型為特征。
物理 AI(Physical AI):AI 的未來,為人形機器人和現(xiàn)實世界的應用提供動力。
物理AI落地實踐
開源人形機器人基礎模型Isaac GR00T N1:支持雙系統(tǒng)認知(慢思考規(guī)劃+快思考執(zhí)行),可遷移至工業(yè)制造場景。
與通用汽車合作構建全棧自動駕駛系統(tǒng):覆蓋數(shù)字孿生仿真與車載AI安全架構HALOS。
四、行業(yè)應用與合作案例
企業(yè)級AI解決方案
DGX Spark:售價3000美元的桌面級工作站,支持本地化模型微調。
語義存儲系統(tǒng):與Box合作,支持自然語言數(shù)據(jù)檢索。
邊緣與通信技術
聯(lián)合思科、T-Mobile構建AI-RAN(AI無線網(wǎng)絡),優(yōu)化5G信號處理與能耗。
硅光子技術突破:全球首個1.6T共封裝光學(CPO),減少數(shù)據(jù)中心光模塊功耗90%。
硬件創(chuàng)新:Blackwell架構引領算力飛躍
黃仁勛宣布Blackwell架構已全面投產,其性能和能效相比前代Hopper架構都有顯著提升。基于臺積電4NP工藝的Blackwell Ultra芯片(B300系列)正式發(fā)布,單卡FP4算力達15 PetaFLOPS,HBM3E顯存容量提升至288GB,推理速度較前代Hopper提升11倍。Blackwell Ultra包括NVIDIA GB300 NVL72機架級解決方案和NVIDIA HGXT B300 NVL16系統(tǒng)。GB300 NVL72與上一代NVIDIA GB200 NL72相比,AI的性能提升5倍。GB300 NVL72連接了72個Blackwell Ultra GPU與36個基于Arm Neoverse的Grace CPU;NVIDIA HGX B300 NVL16與上一代相比,在大型語言模型上具有11倍推理速度、4倍內存,可以為AI推理等復雜的工作負載提供突破性的性能。機架級解決方案GB300 NVL72集成72顆GPU,支持液冷技術,推理性能達每秒1000 tokens,已獲亞馬遜AWS、微軟Azure等四大云廠商360萬片訂單。此外,英偉達還公布了下一代GPU架構Vera Rubin和Feynman的路線圖,Vera Rubin架構計劃于2026年推出,采用NVLink 144互聯(lián)技術,HBM4內存帶寬提升2倍;2028年發(fā)布的Feynman架構,目標實現(xiàn)算力成本指數(shù)級下降。

軟件生態(tài)Dynamo與CUDA-X驅動開發(fā)效率
英偉達推出了開源推理軟件Dynamo,它可將Hopper平臺運行Llama模型的吞吐量提升30倍,支持動態(tài)分配GPU資源,優(yōu)化KV緩存管理。在DeepSeek-R1模型測試中,Dynamo使GB200 NVL72集群的單GPU生成token數(shù)量提升30倍以上。CUDA-X庫新增Newton物理引擎,與DeepMind、迪士尼合作開發(fā),機器人訓練效率提升10倍;cuOpt數(shù)學規(guī)劃工具加速千倍。全球開發(fā)者突破600萬,加速庫數(shù)量增至900+,覆蓋量子計算、生物醫(yī)學等前沿領域。

從自主型人工智能推理革命走向物理人工智能
黃仁勛闡述了AI發(fā)展的三階段演進路徑:從感知AI(Perception AI)的計算機視覺和語音識別,到生成式AI(Generative AI)的多模態(tài)內容生成,再到當下熱門的代理式AI(Agentic AI),其具備主動性,能感知并理解語境,制定并執(zhí)行計劃。未來則是物理AI(Physical AI)的時代,理解物理世界、三維世界的AI將推動機器人、自動駕駛等領域的發(fā)展。

演講期間,英偉達推出了開源人形機器人基礎模型Isaac GR00T N1,支持雙系統(tǒng)認知,可遷移至工業(yè)制造場景。同時,英偉達與通用汽車合作構建全棧自動駕駛系統(tǒng),覆蓋數(shù)字孿生仿真與車載AI安全架構HALOS。

推動CUDA生態(tài)進化
英偉達在AI for Science領域的布局持續(xù)加深,開發(fā)人員現(xiàn)在可以利用CUDA-X與最新的superchip架構實現(xiàn)CPU和GPU資源之間更緊密的自動集成與協(xié)調,與使用傳統(tǒng)加速計算架構相比,其工程計算工具的速度提高11倍,計算量提高5倍。CUDA-X目前已經(jīng)在天文學、粒子物理學、量子物理學、汽車、航空航天和半導體設計等一系列新的工程學科帶來了加速計算。
AI工廠時代到來
黃仁勛特別強調了AI工廠的概念,Dynamo被比作新時代的VMware,能夠自動編排如何讓AI在推理時代跑得更好。英偉達還推出了AI電腦DGX Spark和DGX Station,采用Blackwell芯片,助力企業(yè)構建更高效的AI基礎設施。

小結
黃仁勛的演講全面展示了英偉達在AI領域的技術實力和戰(zhàn)略布局,從硬件的持續(xù)創(chuàng)新到軟件生態(tài)的完善,再到對AI發(fā)展階段的深刻洞察,英偉達正致力于推動AI技術從從自主型人工智能推理革命走向物理人工智能終局。
-
NVIDIA
+關注
關注
14文章
5152瀏覽量
104805 -
AI
+關注
關注
87文章
32823瀏覽量
272287 -
人工智能
+關注
關注
1801文章
48203瀏覽量
242884
發(fā)布評論請先 登錄
相關推薦
NVIDIA GTC 2025精華一文讀完 黃仁勛在GTC上的主題演講

看點:黃仁勛再談DeepSeek 西門子將裁員5600人 字節(jié)高層再談AI方向
CES 2025:黃仁勛展望AI助手融入未來的愿景
2025年CES展:英偉達CEO黃仁勛將發(fā)表演講并可能進行HBM對談
NVIDIA CEO黃仁勛對話香港科技大學畢業(yè)生
NVIDIA CEO黃仁勛在SC24發(fā)表演講
黃仁勛:AI未來關鍵在于推理,芯片成本驟降成核心要素
NVIDIA CEO黃仁勛在 SIGGRAPH 2024 主題演講中或將首次亮相消費級GPU Blackwell

黃仁勛:人工智能和加速計算的交匯將重新定義未來
英偉達CEO黃仁勛展望AI與機器人新時代
“加速一切”,NVIDIA CEO 黃仁勛在 COMPUTEX 開幕前發(fā)表主題演講

評論