NVIDIA 于太平洋時(shí)間 3 月 18 日發(fā)布新一代 AI 超級(jí)計(jì)算機(jī) —— 搭載 NVIDIA GB200 Grace Blackwell 超級(jí)芯片的 NVIDIA DGX SuperPOD。這臺(tái) AI 超級(jí)計(jì)算機(jī)可以用于處理萬(wàn)億參數(shù)模型,能夠保證超大規(guī)模生成式 AI 訓(xùn)練和推理工作負(fù)載的持續(xù)運(yùn)行。
全新 DGX SuperPOD 采用新型高效液冷機(jī)架級(jí)擴(kuò)展架構(gòu),基于 NVIDIA DGX GB200 系統(tǒng)構(gòu)建而成,在 FP4 精度下可提供 11.5 exaflops 的 AI 超級(jí)計(jì)算性能和 240 TB 的快速顯存,且可通過增加機(jī)架來(lái)擴(kuò)展性能。
每個(gè) DGX GB200 系統(tǒng)搭載 36 個(gè) NVIDIA GB200 超級(jí)芯片,共包含 36 個(gè) NVIDIA Grace CPU 和 72 個(gè) NVIDIA Blackwell GPU。這些超級(jí)芯片通過第五代 NVIDIA NVLink 連接成一臺(tái)超級(jí)計(jì)算機(jī)。與 NVIDIA H100 Tensor Core GPU 相比,GB200 超級(jí)芯片在大語(yǔ)言模型推理工作負(fù)載方面的性能提升了高達(dá) 30 倍。
NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:“NVIDIA DGX AI 超級(jí)計(jì)算機(jī)是推進(jìn) AI 產(chǎn)業(yè)變革的工廠。新一代 DGX SuperPOD 集 NVIDIA 加速計(jì)算、網(wǎng)絡(luò)和軟件方面的最新進(jìn)展于一體,能夠幫助每一個(gè)企業(yè)、行業(yè)和國(guó)家完善并生成自己的 AI?!?/strong>
Grace Blackwell 架構(gòu)的 DGX SuperPOD 由 8 個(gè)或以上的 DGX GB200 系統(tǒng)構(gòu)建而成,這些系統(tǒng)通過 NVIDIA Quantum InfiniBand 網(wǎng)絡(luò)連接,可擴(kuò)展到數(shù)萬(wàn)個(gè) GB200 超級(jí)芯片。用戶可通過 NVLink 連接 8 個(gè) DGX GB200 系統(tǒng)中的 576 塊 Blackwell GPU,從而獲得海量共享顯存空間,來(lái)賦能下一代 AI 模型。
面向生成式 AI 時(shí)代的全新機(jī)架級(jí)擴(kuò)展的DGX SuperPOD 架構(gòu)
采用 DGX GB200 系統(tǒng)構(gòu)建而成的全新 DGX SuperPOD 采用了統(tǒng)一的計(jì)算網(wǎng)絡(luò)。除第五代 NVIDIA NVLink 網(wǎng)絡(luò)外,還包括 NVIDIA BlueField-3 DPU,并將支持同為今日發(fā)布的 NVIDIA Quantum-X800 InfiniBand 網(wǎng)絡(luò)。這個(gè)架構(gòu)可為計(jì)算平臺(tái)中的每塊 GPU 提供高達(dá)每秒 1800 GB 的帶寬。
另外,第四代 NVIDIA 可擴(kuò)展分層聚合和規(guī)約協(xié)議(SHARP)技術(shù)可提供 14.4 teraflops 的網(wǎng)絡(luò)計(jì)算能力,與上一代產(chǎn)品相比,新一代 DGX SuperPOD 架構(gòu)的網(wǎng)絡(luò)計(jì)算能力提高了 4 倍。
統(tǒng)包式架構(gòu)搭配先進(jìn)的軟件,實(shí)現(xiàn)前所未有的正常運(yùn)行時(shí)間
全新 DGX SuperPOD 是一臺(tái)完整的數(shù)據(jù)中心級(jí) AI 超級(jí)計(jì)算機(jī),在與 NVIDIA 認(rèn)證合作伙伴提供的高性能存儲(chǔ)集成后,能夠滿足生成式 AI 工作負(fù)載的需求。每臺(tái)超級(jí)計(jì)算機(jī)都在出廠前完成了搭建、布線和測(cè)試,從而大大加快了在用戶數(shù)據(jù)中心的部署速度。
Grace Blackwell 架構(gòu)的 DGX SuperPOD 具有智能預(yù)測(cè)管理功能,能夠持續(xù)監(jiān)控軟硬件中的數(shù)千個(gè)數(shù)據(jù)點(diǎn),通過預(yù)測(cè)并攔截導(dǎo)致停機(jī)和低效的根源以節(jié)省時(shí)間、能耗和計(jì)算成本。
即使沒有系統(tǒng)管理員在場(chǎng),該軟件也能識(shí)別需要重點(diǎn)關(guān)注的領(lǐng)域并制定維護(hù)計(jì)劃,靈活調(diào)整計(jì)算資源,通過自動(dòng)保存和恢復(fù)作業(yè)來(lái)防止停機(jī)。
如果軟件檢測(cè)到需要更換組件,該集群將激活備用容量以確保工作能夠及時(shí)完成。為任何必要的硬件更換做好安排,以免出現(xiàn)計(jì)劃之外的停機(jī)。
NVIDIA DGX B200 系統(tǒng)推動(dòng)各行各業(yè) AI 超級(jí)計(jì)算發(fā)展
NVIDIA 還發(fā)布了一款統(tǒng)一用于 AI 模型訓(xùn)練、微調(diào)和推理的通用 AI 超級(jí)計(jì)算平臺(tái) NVIDIA DGX B200 系統(tǒng)。
采用風(fēng)冷傳統(tǒng)機(jī)架式設(shè)計(jì)的 DGX 已被全球各行各業(yè)數(shù)千家企業(yè)廣泛采用,DGX B200 是 DGX 系列的第六代產(chǎn)品。采用 Blackwell 架構(gòu)的全新 DGX B200 系統(tǒng)包含 8 個(gè) NVIDIA B200 Tensor Core GPU 和 2 個(gè)第五代英特爾至強(qiáng)處理器。用戶還可以使用 DGX B200 系統(tǒng)構(gòu)建 DGX SuperPOD,打造能夠幫助大型開發(fā)團(tuán)隊(duì)運(yùn)行多種不同作業(yè)的 AI 卓越中心。
DGX B200 系統(tǒng)憑借全新 Blackwell 架構(gòu)中的 FP4 精度特性,可提供高達(dá) 144 petaflops 的 AI 性能、1.4TB 海量的 GPU 顯存和 64TB/s 的顯存帶寬,從而使得該系統(tǒng)的萬(wàn)億參數(shù)模型實(shí)時(shí)推理速度比上一代產(chǎn)品提升了 15 倍。
DGX B200 系統(tǒng)包含帶有 8 個(gè) NVIDIA ConnectX-7 網(wǎng)卡和 2 個(gè) BlueField-3 DPU 的高性能網(wǎng)絡(luò),每個(gè)連接的帶寬高達(dá) 400 Gb/s,可通過 NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺(tái)支持更高的 AI 性能。
軟件和專家為擴(kuò)大生產(chǎn)級(jí) AI的規(guī)模提供支持
所有 NVIDIA DGX 平臺(tái)均包含用于企業(yè)級(jí)開發(fā)和部署的 NVIDIA AI Enterprise 軟件。DGX 用戶可以通過使用該軟件平臺(tái)中的預(yù)訓(xùn)練的 NVIDIA 基礎(chǔ)模型、框架、工具套件和全新 NVIDIA NIM 微服務(wù)來(lái)加速他們的工作。
NVIDIA DGX 專家與部分獲得 NVIDIA DGX 平臺(tái)支持認(rèn)證的合作伙伴將在每個(gè)部署環(huán)節(jié)為用戶提供幫助,以便其迅速實(shí)現(xiàn) AI 投產(chǎn)。在系統(tǒng)投入運(yùn)行后,DGX 專家還將繼續(xù)協(xié)助用戶優(yōu)化其 AI 管線和基礎(chǔ)設(shè)施。
供應(yīng)情況
NVIDIA 全球合作伙伴預(yù)計(jì)將在今年晚些時(shí)候提供基于 DGX GB200 和 DGX B200 系統(tǒng)構(gòu)建而成的 NVIDIA DGX SuperPOD。
審核編輯:劉清
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5160瀏覽量
104886 -
超級(jí)計(jì)算機(jī)
+關(guān)注
關(guān)注
2文章
465瀏覽量
42190 -
超級(jí)芯片
+關(guān)注
關(guān)注
0文章
37瀏覽量
8974 -
生成式AI
+關(guān)注
關(guān)注
0文章
522瀏覽量
633
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
NVIDIA GTC2025 亮點(diǎn) NVIDIA推出 DGX Spark個(gè)人AI計(jì)算機(jī)

NVIDIA Blackwell白皮書:NVIDIA Blackwell Architecture Technical Brief
NVIDIA Blackwell數(shù)據(jù)手冊(cè)與NVIDIA Blackwell架構(gòu)技術(shù)解析
NVIDIA 宣布推出 DGX Spark 個(gè)人 AI 計(jì)算機(jī)

MediaTek與NVIDIA攜手設(shè)計(jì)GB10 Grace Blackwell超級(jí)芯片
MediaTek與NVIDIA攜手打造超級(jí)芯片
MediaTek與NVIDIA攜手打造GB10 Grace Blackwell超級(jí)芯片
NVIDIA推出個(gè)人AI超級(jí)計(jì)算機(jī)Project DIGITS
聯(lián)發(fā)科與NVIDIA合作 為NVIDIA 個(gè)人AI超級(jí)計(jì)算機(jī)設(shè)計(jì)NVIDIA GB10超級(jí)芯片
Supermicro推出直接液冷優(yōu)化的NVIDIA Blackwell解決方案

評(píng)論