NVIDIA Spectrum-X 使基于 NVIDIA Hopper 十萬卡 GPU 的巨型系統(tǒng)成為可能
NVIDIA 宣布,xAI 位于田納西州孟菲斯市的Colossus 超級計(jì)算機(jī)集群達(dá)到了 10 萬顆 NVIDIA Hopper GPU 的巨大規(guī)模。該集群使用了NVIDIA Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺,該平臺是專為多租戶、超大規(guī)模的 AI 工廠提供卓越性能而設(shè)計(jì)的 RDMA(Remote Direct Memory Access)網(wǎng)絡(luò)。
Colossus 是世界上最大的 AI 超級計(jì)算機(jī),目前正被用于訓(xùn)練 xAI 的 Grok 系列大語言模型,以及作為 X Premium 用戶功能之一的聊天機(jī)器人(Chatbot)。xAI 正在將 Colossus 的規(guī)模進(jìn)一步擴(kuò)大一倍至 20 萬顆 NVIDIA Hopper GPU。
xAI 和 NVIDIA 僅用了 122 天就建成了所有配套設(shè)施和這臺最先進(jìn)的超級計(jì)算機(jī),從第一個(gè)機(jī)架落地到開始訓(xùn)練任務(wù),只用了 19 天。而建造這種規(guī)模的系統(tǒng)通常需要數(shù)月乃至數(shù)年的時(shí)間。
在訓(xùn)練 Grok 這種超大型模型時(shí),Colossus 實(shí)現(xiàn)了空前的網(wǎng)絡(luò)性能,在三層網(wǎng)絡(luò)架構(gòu)下,整個(gè)系統(tǒng)未出現(xiàn)任何因流量沖突而造成的應(yīng)用延遲增加或數(shù)據(jù)包丟失的情況。憑借 Spectrum-X 先進(jìn)的擁塞控制功能,系統(tǒng)數(shù)據(jù)吞吐量一直保持在 95%。
這一性能水平是傳統(tǒng)以太網(wǎng)在大規(guī)模的情況下根本無法實(shí)現(xiàn)的,傳統(tǒng)以太網(wǎng)在數(shù)千條流發(fā)生沖突時(shí),只能提供 60% 的數(shù)據(jù)吞吐量。
NVIDIA 網(wǎng)絡(luò)高級副總裁 Gilad Shainer表示:“AI 正變得至關(guān)重要,對性能、安全性、可擴(kuò)展性和成本效益提出了更高的要求。NVIDIA Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺專為那些如 xAI 一樣的創(chuàng)新企業(yè)提供更快的處理、分析和執(zhí)行 AI 工作負(fù)載的速度,進(jìn)而加速 AI 解決方案的開發(fā)、部署和上市。”
埃隆·馬斯克在 X 上表示:“Colossus 是世界上最強(qiáng)大的訓(xùn)練系統(tǒng)。xAI 團(tuán)隊(duì)、NVIDIA 和我們的眾多合作伙伴及供應(yīng)商干得漂亮。”
xAI 發(fā)言人表示:“xAI 構(gòu)建了全球規(guī)模最大、性能最強(qiáng)的超級計(jì)算機(jī)。借助 NVIDIA Hopper GPU 和 Spectrum-X,我們得以突破大規(guī)模 AI 模型訓(xùn)練的邊界,打造基于以太網(wǎng)標(biāo)準(zhǔn)并經(jīng)過超級加速和優(yōu)化的 AI 工廠。”
Spectrum-X 平臺的核心是 Spectrum SN5600 以太網(wǎng)交換機(jī),它支持高達(dá) 800Gb/s 的端口速度,采用了 Spectrum-4 交換機(jī) ASIC。xAI 采用了Spectrum-X SN5600 交換機(jī)與NVIDIA BlueField-3 SuperNIC的端到端解決方案,實(shí)現(xiàn)了前所未有的性能。
專門面向 AI 的 Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)具有先進(jìn)的功能,可在提供高效、可擴(kuò)展的帶寬的同時(shí),實(shí)現(xiàn)低延遲和短尾延遲,而這些功能之前是 InfiniBand 網(wǎng)絡(luò)所獨(dú)有的。Spectrum-X 的功能包括基于 NVIDIA DDP(Direct Data Placement)技術(shù)的動(dòng)態(tài)路由、擁塞控制計(jì)算,以及增強(qiáng)了 AI 網(wǎng)絡(luò)的可視性和性能隔離,所有這些功能都是多租戶生成式 AI 云和大型企業(yè)應(yīng)用環(huán)境的關(guān)鍵要求。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5160瀏覽量
104886 -
gpu
+關(guān)注
關(guān)注
28文章
4847瀏覽量
129966 -
超級計(jì)算機(jī)
+關(guān)注
關(guān)注
2文章
465瀏覽量
42190 -
AI
+關(guān)注
關(guān)注
87文章
32906瀏覽量
272528
原文標(biāo)題:NVIDIA 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 AI 超級計(jì)算機(jī)
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
NVIDIA GTC2025 亮點(diǎn) NVIDIA推出 DGX Spark個(gè)人AI計(jì)算機(jī)

NVIDIA 宣布推出 DGX Spark 個(gè)人 AI 計(jì)算機(jī)

NVIDIA推出個(gè)人AI超級計(jì)算機(jī)Project DIGITS
聯(lián)發(fā)科與NVIDIA合作 為NVIDIA 個(gè)人AI超級計(jì)算機(jī)設(shè)計(jì)NVIDIA GB10超級芯片
云端超級計(jì)算機(jī)使用教程
NVIDIA加速全球大多數(shù)超級計(jì)算機(jī)推動(dòng)科技進(jìn)步

NVIDIA Colossus超級計(jì)算機(jī)集群突破10萬顆Hopper GPU
NVIDIA 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 AI 超級計(jì)算機(jī)

NVIDIA助力丹麥發(fā)布首臺AI超級計(jì)算機(jī)
借助NVIDIA超級計(jì)算機(jī)加速量子計(jì)算發(fā)展
馬斯克人工智能初創(chuàng)公司xAI將打造超級計(jì)算機(jī),引領(lǐng)AI新紀(jì)元
xAI將在孟菲斯打造全球最大超算
馬斯克計(jì)劃打造超級計(jì)算機(jī)推動(dòng)AI發(fā)展
Green500全球最節(jié)能超級計(jì)算機(jī)榜單:采用NVIDIA技術(shù)包攬前三
NVIDIA和Recursion利用AI超級計(jì)算機(jī)加快新藥研發(fā)

評論