電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))要說(shuō)HPC對(duì)更高算力等級(jí)的追求,往往在很長(zhǎng)一段時(shí)間之前就開(kāi)始了,比如最近才開(kāi)始冒頭的Exascale超算,其實(shí)也是從2007年左右才開(kāi)始規(guī)劃的,直到去年才有了Frontier的出現(xiàn),以及將在今年上線的Aurora和El Captitan超算。其中經(jīng)歷了不少阻礙,比如處理器的設(shè)計(jì)問(wèn)題、供應(yīng)鏈的短缺加上正式上線前持續(xù)的優(yōu)化等。
然而,在達(dá)成了一個(gè)目標(biāo)后,我們就會(huì)忍不住去設(shè)想下一個(gè)目標(biāo),Zettascale到底離我們有多遠(yuǎn)?到了現(xiàn)在我們也都知道,肯定不會(huì)像Intel前圖形部門(mén)負(fù)責(zé)人Raja Koduri說(shuō)的那樣,在2027年左右實(shí)現(xiàn)。可我們也都知道現(xiàn)在是一個(gè)算力指數(shù)增長(zhǎng)的時(shí)代,為何真正的Zettascale系統(tǒng)卻還要那么久才能出現(xiàn)呢?除了技術(shù)演進(jìn)外,自然就是成本問(wèn)題。
規(guī)模硬件成本
首先考慮到的就是規(guī)模成本,目前的Exascale級(jí)別系統(tǒng)中,擁有成千上萬(wàn)個(gè)節(jié)點(diǎn)已經(jīng)不是什么稀奇事了,而作為Exascale千倍的Zettascale系統(tǒng),除非通用算力有了飛躍式的提升,不然這樣的規(guī)模化部署即便是大型云服務(wù)廠商或國(guó)家實(shí)驗(yàn)室都難以負(fù)擔(dān)。
就已上面提到的Frontier為例,這臺(tái)超算由9472塊AMD Epyc 7453 CPU和37888塊Radeon Instinct MI250X GPU組成,單是硬件成本就達(dá)到了6億美元左右。同樣,如此龐大規(guī)模的系統(tǒng)在運(yùn)營(yíng)規(guī)模上也不可小覷,根據(jù)超算實(shí)驗(yàn)室負(fù)責(zé)人透露,在這類(lèi)機(jī)器上運(yùn)行應(yīng)用程序兩周的成本大概在700萬(wàn)美元。
以上還只是規(guī)模化的計(jì)算硬件成本,每一個(gè)超算系統(tǒng)還要考慮到規(guī)模化的電源、冷卻和線纜帶來(lái)的成本。如果節(jié)點(diǎn)數(shù)量翻倍的話,以上附加硬件費(fèi)用也都要統(tǒng)統(tǒng)翻倍,甚至可能會(huì)指數(shù)級(jí)上漲。
至于可用的規(guī)模化量子計(jì)算超算,解決藥物代謝之類(lèi)的復(fù)雜科學(xué)問(wèn)題,那需要的物理量子位可能要在千萬(wàn)級(jí)以上,總的硬件成本范圍大概在50億美元和200億美元之間。可以說(shuō),如果無(wú)法把這個(gè)成本降下幾個(gè)數(shù)量級(jí),那么為HPC付出的成本代價(jià)勢(shì)必會(huì)令所有人退卻。
設(shè)計(jì)成本
要想及時(shí)進(jìn)入Zettascale時(shí)代,直接購(gòu)買(mǎi)第三方供應(yīng)的處理器必然是最省事的,但對(duì)比近來(lái)幾個(gè)超算系統(tǒng)的部署進(jìn)度,供應(yīng)商不一定能保證按時(shí)交付,有太多因素會(huì)影響到原本的部署計(jì)劃。而且這種方式因?yàn)槠渫ㄓ眯匀笔×瞬簧俾闊瑓s不一定省錢(qián)。那么自研處理器是否會(huì)是更加省錢(qián)的方法呢?
以日本的富岳超算為例,雖然該系統(tǒng)整個(gè)項(xiàng)目的成本達(dá)到了10億美元,但其中包括了A64FX這一ARM CPU的設(shè)計(jì)與硬件成本。更不用說(shuō)同樣的架構(gòu)未來(lái)可以用于打造下一代超算系統(tǒng)。而不需要購(gòu)買(mǎi)時(shí)下昂貴的第三方處理器。
擁有同樣想法的還有印度政府,他們?yōu)閲?guó)內(nèi)超算系統(tǒng)打造的AUM處理器同樣采用了ARM架構(gòu),甚至由于采用了96核的Arm Neoverse V1設(shè)計(jì),并采用了臺(tái)積電的5nm工藝,在性能上甚至要高于A64FX。
可由于采用了先進(jìn)工藝,其設(shè)計(jì)成本本身就很難降低下來(lái),以目前的市價(jià)來(lái)看,臺(tái)積電N5節(jié)點(diǎn)的設(shè)計(jì)成本大概在5億美元,所以如果不是真的打算把自研一直走下去,這種方法反而是最費(fèi)錢(qián)的一種。
小結(jié)
我們是靠吃到了工藝、設(shè)計(jì)雙雙爆發(fā)的紅利,才能以這么快的速度進(jìn)入了Exascale時(shí)代,至于64位下的Zettascale系統(tǒng),我們很可能還是要等到2035年才能得見(jiàn)真容。但這并不代表我們不能從現(xiàn)在開(kāi)始準(zhǔn)備,雖然離部署還很遙遠(yuǎn),但對(duì)各大處理器和架構(gòu)的評(píng)估,其實(shí)早就在各大研究機(jī)構(gòu)中開(kāi)展了。尤其是隨著AI負(fù)載的加入,任何HPC系統(tǒng)都必須決定未來(lái)通用計(jì)算與AI計(jì)算各自的占比,并研究專(zhuān)為AI打造的一套全新HPC應(yīng)用程序。
-
HPC
+關(guān)注
關(guān)注
0文章
316瀏覽量
23808
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論