NVIDIA Dynamo 提高了推理性能,同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優(yōu)化將 DeepSeek-R1 上的吞吐量提高了 30 倍
NVIDIA 發(fā)布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴展 AI 工廠中的 AI 推理模型。
作為 NVIDIA Triton 推理服務(wù)器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務(wù)軟件,旨在為部署推理 AI 模型的 AI 工廠最大化其 token 收益。它協(xié)調(diào)并加速數(shù)千個 GPU 之間的推理通信,并使用分離服務(wù)將大語言模型 (LLM) 的處理階段和生成階段在不同 GPU 上分離開來。這使得每個階段的特定需求可以進行單獨優(yōu)化,并確保更大程度地利用 GPU 資源。
NVIDIA Dynamo 完全開源并支持 PyTorch、SGLang、NVIDIA TensorRT-LLM 和 vLLM,使企業(yè)、初創(chuàng)公司和研究人員能夠開發(fā)和優(yōu)化在分離推理時部署 AI 模型的方法。
“全世界各行業(yè)都在訓(xùn)練 AI 模型以不同的方式進行思考和學(xué)習(xí),從而使模型復(fù)雜度持續(xù)升級。” NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示,“為了實現(xiàn)自定義推理 AI 的未來,NVIDIA Dynamo 可以在這些模型上進行規(guī)模化部署,從而為 AI 工廠實現(xiàn)降本增效”。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5140瀏覽量
104730 -
AI
+關(guān)注
關(guān)注
87文章
32687瀏覽量
272118
原文標(biāo)題:GTC25 | NVIDIA Dynamo 開源庫加速并擴展 AI 推理模型
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
英偉達GTC2025亮點:NVIDIA認(rèn)證計劃擴展至企業(yè)存儲領(lǐng)域,加速AI工廠部署
英偉達GTC2025亮點:NVIDIA、Alphabet 和谷歌攜手開啟代理式與物理AI的未來

英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理

英偉達GTC2025亮點 NVIDIA推出Cosmos世界基礎(chǔ)模型和物理AI數(shù)據(jù)工具的重大更新
英偉達GTC25亮點:NVIDIA Blackwell Ultra 開啟 AI 推理新時代
Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

NVIDIA 推出開放推理 AI 模型系列,助力開發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺

評論