六月下旬,2023年的國(guó)際計(jì)算機(jī)架構(gòu)會(huì)議(International Symposium on Computer Architecture,ISCA)在美國(guó)佛羅里達(dá)的奧蘭多舉辦。ISCA是全球最頂尖的計(jì)算機(jī)架構(gòu)會(huì)議,許多經(jīng)典處理器芯片的架構(gòu)研究都是在這個(gè)會(huì)議上發(fā)布,而每年ISCA上發(fā)表的論文也是未來(lái)幾年內(nèi)計(jì)算芯片的重要風(fēng)向標(biāo)。今年恰逢ISCA五十周年紀(jì)念,全球最頂尖的計(jì)算機(jī)架構(gòu)領(lǐng)域?qū)W者也在上周發(fā)表了一篇回顧過(guò)去ISCA五十年發(fā)表論文走向的論文《Fifty Years of ISCA: A data-driven retrospective on key trends》(我們翻譯如下《從頂會(huì)50年,看計(jì)算機(jī)體系架構(gòu)變遷》),我們希望能接著這篇論文來(lái)洞察未來(lái)計(jì)算芯片的走向。
01. 芯片工藝決定了未來(lái)計(jì)算芯片架構(gòu)
論文《Fifty Years of ISCA: A data-driven retrospective on key trends》中,總結(jié)了ISCA舉辦至今五十年內(nèi),每個(gè)十年發(fā)表論文的共性主題。事實(shí)上,如果我們把這些主題的變化和半導(dǎo)體芯片工藝的變化結(jié)合起來(lái)的話(huà),可以看到一個(gè)非常清晰的脈絡(luò):
首先,1973年到1992年的ISCA舉辦前二十年是單處理器性能突飛猛進(jìn)的二十年,而對(duì)應(yīng)半導(dǎo)體工藝則是Dennard Scaling規(guī)律占主導(dǎo)的二十年。在半導(dǎo)體領(lǐng)域中,“每18個(gè)月晶體管集成度翻倍”的摩爾定律廣為人知,但是半導(dǎo)體工藝演進(jìn)的過(guò)程中,除了晶體管之外,還牽扯到了電源電壓和晶體管的時(shí)鐘頻率。Dennard Scaling就是摩爾定律在這二十年中的表現(xiàn)形式,即每18個(gè)月晶體管集成度翻倍(如摩爾定律所描述的),同時(shí)電源電壓降低30%,時(shí)鐘頻率升高40%。因此,根據(jù)Dennard Scaling,每18個(gè)月芯片除了集成度翻倍之外,芯片的性能還會(huì)提高40%,而且芯片整體功耗不會(huì)發(fā)生變化。換句話(huà)說(shuō),在Dennard Scaling的時(shí)代,單芯片性能隨著工藝節(jié)點(diǎn)變化突飛猛進(jìn),同時(shí)不用擔(dān)心功耗過(guò)大。
這樣的時(shí)代對(duì)應(yīng)到處理器架構(gòu),就是如何把單核處理器的性能做到極致,如何能把處理器的時(shí)鐘頻率盡可能提升,并且在一個(gè)時(shí)鐘周期內(nèi)做盡可能多的事情。ISCA上研究的重點(diǎn)方向就包括并行處理(例如流水線(xiàn),超標(biāo)量架構(gòu),分支預(yù)測(cè),超長(zhǎng)指令字等等),以及如何確保處理器不被速度較慢的主存所拖累(因此誕生了緩存架構(gòu)的經(jīng)典研究),這一點(diǎn)在1993年ISCA發(fā)表論文的關(guān)鍵字云中可以看到。
第二個(gè)時(shí)代是1993年到2012年,在這個(gè)時(shí)代中,半導(dǎo)體工藝?yán)^續(xù)維持摩爾定律,即芯片集成度持續(xù)指數(shù)級(jí)上升,但是Dennard Scaling在進(jìn)入21世紀(jì)后逐漸到了尾聲,就是說(shuō)芯片在集成度翻倍是無(wú)法的同時(shí),性能雖然提升但是不會(huì)有1.4倍這么多,電源電壓雖然下降但是芯片的功耗密度不再維持不變而是會(huì)上升。對(duì)應(yīng)到處理器架構(gòu),就意味著無(wú)論是從晶體管性能還是功耗的角度,繼續(xù)把單核性能提升都不再是一個(gè)可持續(xù)的提升整體計(jì)算機(jī)性能的模式了,也就是在這20年,多處理器相關(guān)的研究得到了廣泛重視,處理器芯片也從單核走向了多核時(shí)代。
第三個(gè)時(shí)代是2013年到今天。在這個(gè)時(shí)代,摩爾定律的發(fā)展受到了嚴(yán)重的挑戰(zhàn),雖然晶體管集成度還在上升,但是單晶體管性能的提升已經(jīng)非常有限。而另一方面,各種層出不窮的新應(yīng)用,尤其是人工智能應(yīng)用,對(duì)于處理器芯片的性能提升卻提出了非常高的要求。在這個(gè)時(shí)代,專(zhuān)用加速器(accelertor)已經(jīng)取代了通用處理器(processor)成為了最熱門(mén)的關(guān)鍵詞——因?yàn)橥ㄓ锰幚砥鞯男阅芴嵘呀?jīng)不足以滿(mǎn)足新應(yīng)用的需求,只有根據(jù)應(yīng)用量身定做,并且使用算法-架構(gòu)協(xié)同設(shè)計(jì)的專(zhuān)用加速器才能滿(mǎn)足應(yīng)用對(duì)于算力的需求。
02. 未來(lái)將是計(jì)算芯片架構(gòu)設(shè)計(jì)的黃金時(shí)代
展望未來(lái),我們認(rèn)為未來(lái)十年將是計(jì)算芯片架構(gòu)領(lǐng)域的黃金十年,我們會(huì)看到大量有影響力巨大的研究出現(xiàn),對(duì)于算法和應(yīng)用產(chǎn)生深遠(yuǎn)的影響;另一方面,隨著新應(yīng)用和需求的出現(xiàn),相關(guān)的加速器研究也會(huì)慢慢變得主流,因此計(jì)算芯片架構(gòu)的研究覆蓋面將進(jìn)一步拓寬。
從計(jì)算芯片架構(gòu)的影響力來(lái)看,我們已經(jīng)從人工智能領(lǐng)域看到專(zhuān)用加速器的架構(gòu)研究和演進(jìn)對(duì)于整個(gè)科技行業(yè)乃至于人類(lèi)社會(huì)帶來(lái)的深遠(yuǎn)影響。從2015年開(kāi)始,隨著以神經(jīng)網(wǎng)絡(luò)為主流算法的人工智能成為主流,相關(guān)的加速器架構(gòu)在幾年內(nèi)也發(fā)生了深刻而且意義巨大的改變。這些新的架構(gòu)設(shè)計(jì)往往是結(jié)合了算法的相關(guān)特性,同時(shí)又助推了新一代人工智能算法的誕生。這里我們謹(jǐn)舉幾個(gè)例子:首先是谷歌的TPU架構(gòu)設(shè)計(jì),2017年的第一代TPU架構(gòu)設(shè)計(jì)考慮了當(dāng)時(shí)最流行的卷積神經(jīng)網(wǎng)絡(luò),使用了脈動(dòng)陣列做計(jì)算并且搭配了大量片上SRAM,一舉成為了一個(gè)經(jīng)典設(shè)計(jì),同時(shí)相關(guān)論文也是ISCA五十年內(nèi)引用第二數(shù)量第二高的論文;后面幾代的TPU則在大規(guī)模可擴(kuò)展性等方面做了巨大的努力(例如專(zhuān)門(mén)研發(fā)了光學(xué)電路來(lái)實(shí)現(xiàn)超高性能數(shù)據(jù)互聯(lián)),而最終這些架構(gòu)上的新穎研究讓TPU成為谷歌在人工智能領(lǐng)域最強(qiáng)的核心能力之一。另外一個(gè)例子則是Nvidia從2015年開(kāi)始為人工智能設(shè)計(jì)的GPU架構(gòu)演進(jìn);隨著人工智能算法的發(fā)展,Nvidia在幾代GPU中加入了大量和人工智能算法結(jié)合的架構(gòu)要素,包括對(duì)于低精度計(jì)算(FP16,INT8)的支持,對(duì)于稀疏矩陣計(jì)算加速的支持,以及對(duì)于Transformer模塊的專(zhuān)用支持等。這些架構(gòu)上的改變,每一個(gè)都大大提升了GPU對(duì)于相關(guān)算法性能的提升,而Nvidia能一直占據(jù)人工智能加速領(lǐng)域的龍頭地位,靠的不僅僅是每一代GPU都能使用最先進(jìn)的半導(dǎo)體工藝,而且是靠這些先進(jìn)的架構(gòu)設(shè)計(jì),以及軟件生態(tài)領(lǐng)域的護(hù)城河。
從另一個(gè)角度來(lái)看,這些計(jì)算架構(gòu)領(lǐng)域的演進(jìn),已經(jīng)對(duì)于我們的整體社會(huì)帶來(lái)了深遠(yuǎn)的影響。例如,最近已經(jīng)對(duì)于各大行業(yè)的生產(chǎn)模式帶來(lái)深遠(yuǎn)影響的ChatGPT,其背后的大語(yǔ)言模型需要海量的算力支持才能在合理的時(shí)間內(nèi)完成計(jì)算,而這些都離不開(kāi)過(guò)去十年中人工智能加速器芯片架構(gòu)領(lǐng)域的研究,可以說(shuō)每一個(gè)研究都在為今天ChatGPT的成功添磚加瓦。而隨著這類(lèi)下一代人工智能給社會(huì)帶來(lái)全新的變革,相關(guān)的人工智能加速器架構(gòu)領(lǐng)域也會(huì)得到整個(gè)社會(huì)前所未有的關(guān)注,因此計(jì)算芯片架構(gòu)的未來(lái)十年可謂是黃金十年。
除了重點(diǎn)領(lǐng)域的縱向影響力巨大之外,加速器芯片架構(gòu)領(lǐng)域橫向發(fā)展也會(huì)很快,這里的橫向主要是指會(huì)有新的應(yīng)用對(duì)于新的專(zhuān)用加速器芯片有需求。從最近幾年的ISCA(以及其他的相關(guān)芯片會(huì)議例如ISSCC)來(lái)看,已經(jīng)有一些新的加速器領(lǐng)域正在蓬勃發(fā)展,包括:
加密計(jì)算,尤其是同態(tài)加密(homomorphic)計(jì)算,該領(lǐng)域可以云端服務(wù)器在不解密用戶(hù)數(shù)據(jù)的前提下,就完成相關(guān)的計(jì)算(例如把加密的用戶(hù)數(shù)據(jù)直接送到機(jī)器學(xué)習(xí)模型里做計(jì)算)。我們知道,人工智能對(duì)于數(shù)據(jù)的需求是前所未有的,而加密計(jì)算技術(shù)有可能在保護(hù)用戶(hù)隱私的前提下同時(shí)給人工智能算法提供高質(zhì)量的數(shù)據(jù),從而成為人工智能的關(guān)鍵賦能技術(shù)之一。加密計(jì)算對(duì)于算力需求很高,相關(guān)的加速器研究也得到了非常多的關(guān)注,2022年ISCA引用數(shù)量最多的兩篇論文都是關(guān)于加密計(jì)算加速器架構(gòu),其潛力可見(jiàn)一斑。
量子計(jì)算,在物理、化學(xué)以及規(guī)劃領(lǐng)域,相關(guān)算法都是NP-Hard問(wèn)題,即經(jīng)典算法無(wú)法在合理的時(shí)間范圍內(nèi)得到最優(yōu)解,而量子計(jì)算則可以解決相關(guān)的問(wèn)題。因此,最近量子計(jì)算,或者使用量子計(jì)算相關(guān)算法的計(jì)算芯片架構(gòu)研究也是加速器最有潛力的新領(lǐng)域之一。
仿生計(jì)算,目前人工智能神經(jīng)網(wǎng)絡(luò)計(jì)算的功耗非常驚人,相對(duì)而言人類(lèi)大腦的功耗比起執(zhí)行人工智能計(jì)算的硬件來(lái)說(shuō)要低幾個(gè)數(shù)量級(jí),因此如何使用neuromorphic等仿生計(jì)算來(lái)降低計(jì)算功耗,并且通過(guò)模仿生物大腦的計(jì)算模式來(lái)啟迪下一代人工智能算法也是一個(gè)非常有潛力的方向。
03. 未來(lái)計(jì)算芯片架構(gòu)設(shè)計(jì)需要系統(tǒng)級(jí)思維
半導(dǎo)體工藝摩爾定律正在接近尾聲,但是芯片性能和能效比的指數(shù)發(fā)展規(guī)律仍然如火如荼,尤其是在熱門(mén)的專(zhuān)用加速器領(lǐng)域——例如GPU計(jì)算的能效比就是每2.2年改善兩倍。
如前所述,為了維持這樣的指數(shù)級(jí)性能上升,專(zhuān)用加速器的一個(gè)核心要點(diǎn)是與上層算法協(xié)同優(yōu)化,從而可以產(chǎn)生巨大的推動(dòng)力:目前人工智能模xin型里面最常用的Transformer模塊就是一個(gè)典型例子,Transformer在誕生之初就比較適合在GPU上做運(yùn)算因?yàn)槠溆?jì)算主要是矩陣計(jì)算,另一方面Nvidia在設(shè)計(jì)GPU架構(gòu)時(shí)又加入了對(duì)于Transformer的優(yōu)化,最終使得以Transformer為底層模塊的大語(yǔ)言模型能夠順利實(shí)現(xiàn)大規(guī)模訓(xùn)練,并且點(diǎn)燃下一代人工智能。
下一代芯片架構(gòu)設(shè)計(jì)除了需要和上層算法打通之外,還需要能把半導(dǎo)體電路系統(tǒng)中的高級(jí)封裝乃至半導(dǎo)體器件都納入設(shè)計(jì)和優(yōu)化范圍,從而實(shí)現(xiàn)最優(yōu)的性能。例如,隨著未來(lái)整體芯片架構(gòu)變得越來(lái)越復(fù)雜,而先進(jìn)工藝的良率難以提高,這就意味著系統(tǒng)中會(huì)有更多的小的芯片粒,而這就需要能以一種靈活的架構(gòu)支持這樣的多芯片系統(tǒng),同時(shí)能提供性能和效率的顯著提升。顯然,這樣靈活的架構(gòu)需要能把對(duì)于芯片粒高級(jí)封裝的技術(shù)考慮在內(nèi)。AMD就是這樣在架構(gòu)中積極考慮高級(jí)封裝,從而實(shí)現(xiàn)性能顯著提升的典型例子;其CDNA3和3D V-Cache等最新的架構(gòu)設(shè)計(jì)中,高級(jí)封裝(包括芯片粒和3D堆疊)都是架構(gòu)中的重要因素。回到ISCA上面的研究,我們也可以發(fā)現(xiàn)在2023年的研究詞云中,“電路”(circuit)首次出現(xiàn)。ISCA在往年都是專(zhuān)注于抽象層次較高的架構(gòu)設(shè)計(jì),但是如我們所說(shuō)的摩爾定律遇到瓶頸,未來(lái)的架構(gòu)需要能使用系統(tǒng)級(jí)思維把底層電路系統(tǒng)也納入考慮范圍之內(nèi),這也是我們認(rèn)為今年ISCA詞云中出現(xiàn)電路這個(gè)關(guān)鍵詞的原因。
總結(jié)我們的觀(guān)察,ISCA給了我們一個(gè)非常好的預(yù)測(cè)未來(lái)的角度。以史為鑒,過(guò)去50年半導(dǎo)體工藝始終主導(dǎo)著計(jì)算芯片架構(gòu)的設(shè)計(jì);未來(lái)半導(dǎo)體工藝演進(jìn)速度減慢但是應(yīng)用對(duì)于性能需求的提升仍然保持指數(shù)級(jí)增長(zhǎng),因此需要芯片架構(gòu)設(shè)計(jì)從多個(gè)緯度來(lái)看都變得越來(lái)越重要。從縱向維度來(lái)看,架構(gòu)設(shè)計(jì)需要能夠有系統(tǒng)級(jí)思維,把上層算法到下層電路和半導(dǎo)體器件都打通實(shí)現(xiàn)最優(yōu)設(shè)計(jì),而從橫向維度來(lái)看,隨著新應(yīng)用層出不窮,會(huì)有越來(lái)越多的專(zhuān)用加速器領(lǐng)域出現(xiàn)。
-
處理器
+關(guān)注
關(guān)注
68文章
19316瀏覽量
230075 -
半導(dǎo)體
+關(guān)注
關(guān)注
334文章
27443瀏覽量
219416 -
芯片架構(gòu)
+關(guān)注
關(guān)注
1文章
30瀏覽量
14568
原文標(biāo)題:處理器架構(gòu),如何發(fā)展?
文章出處:【微信號(hào):算力基建,微信公眾號(hào):算力基建】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論