基于云的 AI 超級計算機(jī)(包括 Microsoft Azure 和劍橋大學(xué)的新系統(tǒng))正在世界上最強(qiáng)大的計算機(jī)的最新榜單上蓄勢待發(fā)
ISC 高性能計算大會 (ISC High Performance) 發(fā)布的 TOP500 榜單中,有 342 個系統(tǒng)采用了 NVIDIA 技術(shù)提供加速,其中包括70%的新系統(tǒng),與排名前10的8個。
最新的全球最強(qiáng)系統(tǒng)榜單顯示出越來越多的高性能計算中心在使用 AI,也體現(xiàn)出用戶們在繼續(xù)擁抱NVIDIA AI與加速計算、網(wǎng)絡(luò)技術(shù)的組合來運(yùn)行他們的科學(xué)和商業(yè)工作負(fù)載。
例如,榜單上使用 InfiniBand 的系統(tǒng)數(shù)量比去年增加了20%。隨著AI,HPC和模擬數(shù)據(jù)對于低延遲和加速的需求日益增加,InfiniBand已成為首選網(wǎng)絡(luò)。
此外,名單上的兩個新系統(tǒng)便是我們所稱的超級云 —— 一種新興的共享超級計算機(jī),能夠同時滿足人工智能、高性能計算和云端的需求。
超級云的到來
Microsoft Azure 利用集群將公有云服務(wù)提升到一個新的水平,在 TOP500 榜單上連續(xù)占據(jù)第 26 位到第 29 位。它們是超級云的一部分,是一臺全球的人工智能超級計算機(jī),如今地球上的任何用戶都可以按需使用。
在HPL基準(zhǔn)測試(也成為了Linpack),四個 Azure 系統(tǒng)中的每一個都實(shí)現(xiàn)了 16.59 Petaflop 的計算性能。Linpack 是衡量 64 位浮點(diǎn)數(shù)學(xué)運(yùn)算的高性能計算性能的傳統(tǒng)標(biāo)準(zhǔn),也是 TOP500 榜單的參考依據(jù)。
邁入行業(yè)高性能計算時代
Azure 系統(tǒng)便是 NVIDIA 首席執(zhí)行官黃仁勛所述“行業(yè)高性能計算革命”的一例,即 AI 與高性能計算和加速計算融合,正在推動科研和行業(yè)各個領(lǐng)域的發(fā)展。
在幕后,有 8 個 NVIDIA A100 Tensor Core GPU 為 Azure 系統(tǒng)的各個虛擬實(shí)例提供動力支持。每個芯片都有自己的 HDR 200G InfiniBand 通信接口,可以與 Azure 云中的數(shù)千個 GPU 建立快速連接。
英國研究人員采用云原生技術(shù)
劍橋大學(xué)首次成為英國最快的學(xué)術(shù)系統(tǒng),其超級計算機(jī)在 Green500 世界上最節(jié)能的系統(tǒng)名單中排名第三,這是另一種超級云。它被稱為 Wilkes-3,是世界上第一臺云原生超級計算機(jī),其使研究人員可以在不影響性能的情況下,共享具有隱私和安全性的虛擬資源。這要?dú)w功于 經(jīng)過優(yōu)化的NVIDIA BlueField DPU可以執(zhí)行安全、虛擬化和其他數(shù)據(jù)處理任務(wù)。
該系統(tǒng)使用 320 個連接在 HDR 200G Infiniband 網(wǎng)絡(luò)上的 A100 GPU,為學(xué)術(shù)研究以及探索科學(xué)和醫(yī)學(xué)前沿的商業(yè)合作伙伴加速模擬、人工智能和數(shù)據(jù)分析。
TOP500 榜單新秀采用 AI
榜單上許多由 NVIDIA 提供動力支持的新系統(tǒng),凸顯了 AI 對于科研和商業(yè)用戶的高性能計算應(yīng)用的重要性不斷提升。
國家能源研究科學(xué)計算中心 (NERSC) 的 Perlmutter 以 64.59 Linpack petaflops 在 TOP500 中排名第 5,部分歸功于其 6,144 個 A100 GPU。
該系統(tǒng)在最新版本的 HPL-AI 上提供了超過一半的 exaflops 性能。它是融合 HPC 和 AI 工作負(fù)載的新興基準(zhǔn),它使用混合精度數(shù)學(xué)——深度學(xué)習(xí)和許多科學(xué)和商業(yè)工作的基礎(chǔ)——同時仍然提供雙精度數(shù)學(xué)的完全準(zhǔn)確性。
AI 性能變得越來越重要,因?yàn)?AI 是 “美國能源部的一個增長領(lǐng)域,其可行性已被驗(yàn)證,正在計劃投入生產(chǎn),” NERSC 數(shù)據(jù)和分析服務(wù)組代理負(fù)責(zé)人 Wahid Bhimji 表示。
HiPerGator AI 以 17.20 petaflops 排名第 22 位,在 Green500 榜單中排名第 2,使其成為世界上最節(jié)能的學(xué)術(shù)超級計算機(jī)。它與 Green500 的榜首位置相差甚遠(yuǎn)——僅為 0.18 Gflops/Watt。
與最新名單上的其他 12 款系統(tǒng)一樣,該系統(tǒng)采用了 NVIDIA DGX SuperPOD 的模塊化架構(gòu),這一配置讓佛羅里達(dá)大學(xué)能夠快速部署世界上最強(qiáng)大的學(xué)術(shù) AI 超級計算機(jī)之一。該系統(tǒng)還使其成為領(lǐng)先的AI大學(xué),其既定目標(biāo)是 在2030 年前有 30,000 名AI相關(guān)專業(yè)的畢業(yè)生。
盧森堡的 MeluXina 在 HPL-AI 上以 10.5 Linpack petaflops排名第 37 位。該系統(tǒng)是首批在歐洲國家超級計算機(jī)網(wǎng)絡(luò)中亮相的首個系統(tǒng),,將用于在科研和商業(yè)應(yīng)用中運(yùn)用 AI 和數(shù)據(jù)分析。
Cambridge-1 在 500 強(qiáng)中排名第 42 位,達(dá)到 9.68 Linpack petaflops,成為英國最強(qiáng)大的系統(tǒng),將為包括阿斯利康(AstraZeneca)、葛蘭素史克(GSK)和Oxford Nanopore在內(nèi)的學(xué)術(shù)和商業(yè)組織的英國醫(yī)療保健研究人員提供服務(wù)。
BerzeLiUs 以 5.25 petaflops 排名第 83,成為瑞典最快的系統(tǒng)。BerzeLiUs在 200G 的 InfiniBand 網(wǎng)絡(luò)上連接了 60 個 NVIDIA DGX 系統(tǒng),將HPC、AI 和數(shù)據(jù)分析用于學(xué)術(shù)和商業(yè)研究。是榜單上15個基于NVIDIA DGX的其中一個。
10 大系統(tǒng)助推 HPL-AI 采用
另一個跡象表明,AI 工作負(fù)載的重要性日益增加,榜單上有 10 個系統(tǒng)報告其 HPL-AI 得分是去年 6 月的 5 倍。大多數(shù)系統(tǒng)采用了 3 月發(fā)布的針對代碼的重大優(yōu)化,這是自田納西大學(xué)的研究人員在 2018 年底發(fā)布該基準(zhǔn)以來的首次升級。
新軟件簡化了通信,實(shí)現(xiàn)了 GPU 間鏈路,從而消除了等待主機(jī) CPU 的時間。它還以 16 位代碼的形式實(shí)現(xiàn)通信,而不是在Linpack 上默認(rèn)使用的較慢的 32 位代碼。
Azzam Haidar Ahmad 稱:“我們將芯片間通信的時間減少了一半,并使其他一些工作負(fù)載能夠并行運(yùn)行,因此新代碼相較于原代碼平均改進(jìn)了約 2.7 倍”。他幫助定義了該基準(zhǔn),現(xiàn)在是 NVIDIA 的高級工程師。
該基準(zhǔn)測試雖然專注于混合精度數(shù)學(xué)計算,但仍然提供與 Linpack 相同的 64 位精度,這要?dú)w功于 HPL-AI 的一種循環(huán)方法,它能迅速優(yōu)化一些計算。
Summit 的 HPL-AI 得分超過 1 Exaflop
經(jīng)過優(yōu)化后,與去年使用早期版本的代碼所報告的得分相比,現(xiàn)在的得分大大高于基準(zhǔn)線。
例如,橡樹嶺國家實(shí)驗(yàn)室(Oak Ridge National Lab,ORNL)的 Summit 超級計算機(jī)是第一臺采用 HPL-AI 基準(zhǔn)的超級計算機(jī),其在 2019 年宣布使用第一版代碼的得分為 445 Petaflop。今年峰會上的測試使用最新版本的 HPL-AI 測試,得分達(dá)到 1.15 Exaflops。
采用該基準(zhǔn)的其他超級計算機(jī)包括日本的 Fugaku(世界上最快的系統(tǒng))、NVIDIA 的 Selene(世界上最快的商業(yè)系統(tǒng))和德國的最強(qiáng)超級計算機(jī) Juwels。
于利希超算中心 (Jülich Supercomputing Center) 主任 Thomas Lippert 稱:“我們使用 HPL-AI 基準(zhǔn),因?yàn)樗芎芎玫睾饬课覀內(nèi)找嬖龆嗟?AI 和科研工作負(fù)載中的混合精度作業(yè),而且能反映準(zhǔn)確的 64 位浮點(diǎn)運(yùn)算結(jié)果。”
編輯:jq
-
gpu
+關(guān)注
關(guān)注
28文章
4740瀏覽量
128951 -
超級計算機(jī)
+關(guān)注
關(guān)注
2文章
462瀏覽量
41948 -
AI
+關(guān)注
關(guān)注
87文章
30896瀏覽量
269108 -
HPC
+關(guān)注
關(guān)注
0文章
316瀏覽量
23774
原文標(biāo)題:ISC2021 | 超級云:AI、云原生超級計算機(jī)躋身 TOP500 榜單
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論