NVIDIA 于太平洋時間 3 月 18 日發布新一代 AI 超級計算機 —— 搭載 NVIDIA GB200 Grace Blackwell 超級芯片的 NVIDIA DGX SuperPOD。這臺 AI 超級計算機可以用于處理萬億參數模型,能夠保證超大規模生成式 AI 訓練和推理工作負載的持續運行。
全新 DGX SuperPOD 采用新型高效液冷機架級擴展架構,基于 NVIDIA DGX GB200 系統構建而成,在 FP4 精度下可提供 11.5 exaflops 的 AI 超級計算性能和 240 TB 的快速顯存,且可通過增加機架來擴展性能。
每個 DGX GB200 系統搭載 36 個 NVIDIA GB200 超級芯片,共包含 36 個 NVIDIA Grace CPU 和 72 個 NVIDIA Blackwell GPU。這些超級芯片通過第五代 NVIDIA NVLink 連接成一臺超級計算機。與 NVIDIA H100 Tensor Core GPU 相比,GB200 超級芯片在大語言模型推理工作負載方面的性能提升了高達 30 倍。
NVIDIA 創始人兼首席執行官黃仁勛表示:“NVIDIA DGX AI 超級計算機是推進 AI 產業變革的工廠。新一代 DGX SuperPOD 集 NVIDIA 加速計算、網絡和軟件方面的最新進展于一體,能夠幫助每一個企業、行業和國家完善并生成自己的 AI。”
Grace Blackwell 架構的 DGX SuperPOD 由 8 個或以上的 DGX GB200 系統構建而成,這些系統通過 NVIDIA Quantum InfiniBand 網絡連接,可擴展到數萬個 GB200 超級芯片。用戶可通過 NVLink 連接 8 個 DGX GB200 系統中的 576 塊 Blackwell GPU,從而獲得海量共享顯存空間,來賦能下一代 AI 模型。
面向生成式 AI 時代的全新機架級擴展的DGX SuperPOD 架構
采用 DGX GB200 系統構建而成的全新 DGX SuperPOD 采用了統一的計算網絡。除第五代 NVIDIA NVLink 網絡外,還包括 NVIDIA BlueField-3 DPU,并將支持同為今日發布的 NVIDIA Quantum-X800 InfiniBand 網絡。這個架構可為計算平臺中的每塊 GPU 提供高達每秒 1800 GB 的帶寬。
另外,第四代 NVIDIA 可擴展分層聚合和規約協議(SHARP)技術可提供 14.4 teraflops 的網絡計算能力,與上一代產品相比,新一代 DGX SuperPOD 架構的網絡計算能力提高了 4 倍。
統包式架構搭配先進的軟件,實現前所未有的正常運行時間
全新 DGX SuperPOD 是一臺完整的數據中心級 AI 超級計算機,在與 NVIDIA 認證合作伙伴提供的高性能存儲集成后,能夠滿足生成式 AI 工作負載的需求。每臺超級計算機都在出廠前完成了搭建、布線和測試,從而大大加快了在用戶數據中心的部署速度。
Grace Blackwell 架構的 DGX SuperPOD 具有智能預測管理功能,能夠持續監控軟硬件中的數千個數據點,通過預測并攔截導致停機和低效的根源以節省時間、能耗和計算成本。
即使沒有系統管理員在場,該軟件也能識別需要重點關注的領域并制定維護計劃,靈活調整計算資源,通過自動保存和恢復作業來防止停機。
如果軟件檢測到需要更換組件,該集群將激活備用容量以確保工作能夠及時完成。為任何必要的硬件更換做好安排,以免出現計劃之外的停機。
NVIDIA DGX B200 系統推動各行各業 AI 超級計算發展
NVIDIA 還發布了一款統一用于 AI 模型訓練、微調和推理的通用 AI 超級計算平臺 NVIDIA DGX B200 系統。
采用風冷傳統機架式設計的 DGX 已被全球各行各業數千家企業廣泛采用,DGX B200 是 DGX 系列的第六代產品。采用 Blackwell 架構的全新 DGX B200 系統包含 8 個 NVIDIA B200 Tensor Core GPU 和 2 個第五代英特爾至強處理器。用戶還可以使用 DGX B200 系統構建 DGX SuperPOD,打造能夠幫助大型開發團隊運行多種不同作業的 AI 卓越中心。
DGX B200 系統憑借全新 Blackwell 架構中的 FP4 精度特性,可提供高達 144 petaflops 的 AI 性能、1.4TB 海量的 GPU 顯存和 64TB/s 的顯存帶寬,從而使得該系統的萬億參數模型實時推理速度比上一代產品提升了 15 倍。
DGX B200 系統包含帶有 8 個 NVIDIA ConnectX-7 網卡和 2 個 BlueField-3 DPU 的高性能網絡,每個連接的帶寬高達 400 Gb/s,可通過 NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum-X 以太網網絡平臺支持更高的 AI 性能。
軟件和專家為擴大生產級 AI的規模提供支持
所有 NVIDIA DGX 平臺均包含用于企業級開發和部署的 NVIDIA AI Enterprise 軟件。DGX 用戶可以通過使用該軟件平臺中的預訓練的 NVIDIA 基礎模型、框架、工具套件和全新 NVIDIA NIM 微服務來加速他們的工作。
NVIDIA DGX 專家與部分獲得 NVIDIA DGX 平臺支持認證的合作伙伴將在每個部署環節為用戶提供幫助,以便其迅速實現 AI 投產。在系統投入運行后,DGX 專家還將繼續協助用戶優化其 AI 管線和基礎設施。
供應情況
NVIDIA 全球合作伙伴預計將在今年晚些時候提供基于 DGX GB200 和 DGX B200 系統構建而成的 NVIDIA DGX SuperPOD。
審核編輯:劉清
-
NVIDIA
+關注
關注
14文章
4986瀏覽量
103047 -
超級計算機
+關注
關注
2文章
462瀏覽量
41947 -
超級芯片
+關注
關注
0文章
34瀏覽量
8880 -
生成式AI
+關注
關注
0文章
504瀏覽量
474
發布評論請先 登錄
相關推薦
評論