超級(jí)計(jì)算機(jī)遍布世界各地,以解決人類面臨的一些最大挑戰(zhàn)。這些機(jī)房大小的大型機(jī)比任何筆記本電腦都強(qiáng)大幾百萬(wàn)倍,具有令人眼花繚亂的快速計(jì)算能力。這些大型機(jī)曾經(jīng)專門供大型政府實(shí)驗(yàn)室、美國(guó)國(guó)家航空航天局(NASA)和制造、金融、石油和天然氣,以及航空航天等垂直行業(yè)的頂級(jí)參與者使用。但是現(xiàn)在,超級(jí)計(jì)算機(jī)的設(shè)計(jì)和構(gòu)建方式正在發(fā)生變化,將它們應(yīng)用于新的用例范圍。得益于新一代的處理能力和超高速網(wǎng)絡(luò),我們正進(jìn)入一個(gè)新的、或許更民主化的高性能計(jì)算(HPC)時(shí)代。
圖形處理單元(GPU)取代了中央處理單元(CPU)進(jìn)行處理,從而顯著提高了計(jì)算吞吐量。與傳統(tǒng)的高性能計(jì)算(HPC)系統(tǒng)相比,基于GPU的系統(tǒng)占用的空間較小,并且它們的運(yùn)行效率更高且運(yùn)營(yíng)成本更低。
但是隨著計(jì)算能力的提高,對(duì)最大數(shù)據(jù)吞吐量的需求也在增加。InfiniBand(HPC世界中常用的一種網(wǎng)絡(luò)標(biāo)準(zhǔn))可以滿足對(duì)高吞吐量和極低延遲的需求。
強(qiáng)有力的支持生態(tài)系統(tǒng)是必須被視為民主化的明確標(biāo)志的另一個(gè)因素。現(xiàn)在有600多個(gè)HPC應(yīng)用程序利用GPU和InfiniBand網(wǎng)絡(luò)來(lái)提高性能,因此在商業(yè)和研究領(lǐng)域的采用率一直很強(qiáng)。
引領(lǐng)下一代人工智能
這種日益可訪問的處理能力的另一個(gè)新興用途是實(shí)現(xiàn)人工智能。使用大規(guī)模人工智能模型的趨勢(shì)正在改變,這正在改變?nèi)斯ぶ悄艿臉?gòu)建方式。
例如,微軟公司是人工智能的行業(yè)先驅(qū),并同時(shí)使用GPU和InfiniBand。通過在其Azure平臺(tái)中利用最新的超級(jí)計(jì)算技術(shù)來(lái)支持一類新型的大規(guī)模模型,Microsoft正在實(shí)現(xiàn)新一代的人工智能。通過使用大量數(shù)據(jù),這些大規(guī)模模型僅需訓(xùn)練一次。然后,可以使用更小的數(shù)據(jù)集和資源針對(duì)不同的任務(wù)和領(lǐng)域?qū)δP瓦M(jìn)行微調(diào)。
衡量績(jī)效的重要性
隨著高性能計(jì)算(HPC)用例的擴(kuò)展,越來(lái)越多的超級(jí)計(jì)算機(jī)被構(gòu)建為更快,更強(qiáng)大的規(guī)格。了解不同的高性能計(jì)算(HPC)機(jī)器之間如何進(jìn)行比較仍然與以往一樣重要。因此,TOP500項(xiàng)目的意義在于對(duì)世界上500個(gè)最強(qiáng)大的非分布式計(jì)算機(jī)系統(tǒng)進(jìn)行排名和詳細(xì)說明。該項(xiàng)目始于1993年,至今仍每年兩次發(fā)布更新的超級(jí)計(jì)算機(jī)列表,現(xiàn)在所包含的機(jī)器范圍比早期的要多得多。
TOP500項(xiàng)目的價(jià)值在于為跟蹤和檢測(cè)高性能計(jì)算的趨勢(shì)提供可靠的基礎(chǔ)。但是考慮一下用于量化HPC的基準(zhǔn)。
從歷史上看,最重要的是長(zhǎng)期的HPL基準(zhǔn)。HPL是高性能Linpack Benchmark的便攜式實(shí)現(xiàn)。它用作提供TOP500數(shù)據(jù)的參考,并且是全球超級(jí)計(jì)算機(jī)排名中的關(guān)鍵工具。但是,它僅以觸發(fā)器的形式測(cè)量計(jì)算能力。
HPCG基準(zhǔn)(高性能共軛梯度)是作為替代方案而創(chuàng)建的,它提供了另一個(gè)對(duì)HPC系統(tǒng)進(jìn)行排名的指標(biāo),并旨在作為HPL的補(bǔ)充。盡管它尚未納入TOP500排名。
正如人們已經(jīng)看到的那樣,人工智能現(xiàn)在已經(jīng)成為高性能計(jì)算領(lǐng)域的關(guān)鍵部分,因此有人認(rèn)為新的,更合適的基準(zhǔn)是對(duì)這一趨勢(shì)的必要認(rèn)識(shí)。
現(xiàn)代HPC系統(tǒng)的新指標(biāo)
MLPerf是一種新型的基準(zhǔn)測(cè)試組織。與人工智能超級(jí)計(jì)算的時(shí)代相吻合,其使命是建立公平,有用的基準(zhǔn),以衡量機(jī)器學(xué)習(xí)(ML)硬件,軟件和服務(wù)的訓(xùn)練和推理性能。它日益受到人們的認(rèn)可,正使其成為研究人員、開發(fā)人員、硬件制造商、機(jī)器學(xué)習(xí)框架的構(gòu)建者、云服務(wù)提供商、應(yīng)用程序提供商以及最終用戶的有用工具。
它的目標(biāo)圍繞通過公平和有用的衡量來(lái)加速機(jī)器學(xué)習(xí)的進(jìn)步,從而為商業(yè)和研究社區(qū)提供服務(wù)。它還旨在為競(jìng)爭(zhēng)系統(tǒng)的比較提供更公平的基礎(chǔ),同時(shí)鼓勵(lì)創(chuàng)新。它的精神風(fēng)貌可能使它在其他HPC基準(zhǔn)測(cè)試中脫穎而出,這是它致力于保持基準(zhǔn)測(cè)試負(fù)擔(dān)得起,以便所有人都能參與的承諾。MLPerf得到了包括亞馬遜、百度、Facebook、谷歌、哈佛、英特爾、微軟和斯坦福等組織的支持,并且隨著人工智能自身的發(fā)展而不斷發(fā)展,以保持相關(guān)性。
當(dāng)今最大的HPC和人工智能系統(tǒng)不僅通過具有InfiniBand網(wǎng)絡(luò)的GPU來(lái)解決傳統(tǒng)HPC工作負(fù)載的新方法,而且還推動(dòng)了新一輪的推薦系統(tǒng)和對(duì)話式人工智能應(yīng)用程序的發(fā)展,而其他系統(tǒng)則推動(dòng)了對(duì)個(gè)性化和精準(zhǔn)醫(yī)學(xué)的追求。
責(zé)任編輯:tzh
-
cpu
+關(guān)注
關(guān)注
68文章
10898瀏覽量
212532 -
計(jì)算
+關(guān)注
關(guān)注
2文章
451瀏覽量
38843 -
人工智能
+關(guān)注
關(guān)注
1793文章
47567瀏覽量
239417 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8434瀏覽量
132873
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論