由于處理器與存儲(chǔ)器的工藝、封裝、需求的不同,從1980年開(kāi)始至今二者之間的性能差距越來(lái)越大。有數(shù)據(jù)顯示,處理器和存儲(chǔ)器的速度失配以每年50%的速率增加。
存儲(chǔ)器數(shù)據(jù)訪問(wèn)速度跟不上處理器的數(shù)據(jù)處理速度,數(shù)據(jù)傳輸就像處在一個(gè)巨大的漏斗之中,不管處理器灌進(jìn)去多少,存儲(chǔ)器都只能“細(xì)水長(zhǎng)流”。兩者之間數(shù)據(jù)交換通路窄以及由此引發(fā)的高能耗兩大難題,在存儲(chǔ)與運(yùn)算之間筑起了一道“內(nèi)存墻”。
隨著數(shù)據(jù)的爆炸勢(shì)增長(zhǎng),內(nèi)存墻對(duì)于計(jì)算速度的影響愈發(fā)顯現(xiàn)。為了減小內(nèi)存墻的影響,提升內(nèi)存帶寬一直是存儲(chǔ)芯片聚焦的關(guān)鍵問(wèn)題。
長(zhǎng)期以來(lái),內(nèi)存行業(yè)的價(jià)值主張?jiān)诤艽蟪潭壬鲜冀K以系統(tǒng)級(jí)需求為導(dǎo)向,已經(jīng)突破了系統(tǒng)性能的當(dāng)前極限。很明顯的一點(diǎn)是,內(nèi)存性能的提升將出現(xiàn)拐點(diǎn),因?yàn)樵絹?lái)越多人開(kāi)始質(zhì)疑是否能一直通過(guò)內(nèi)存級(jí)的取舍(如功耗、散熱、占板空間等)來(lái)提高系統(tǒng)性能。
基于對(duì)先進(jìn)技術(shù)和解決方案開(kāi)展的研究,內(nèi)存行業(yè)在新領(lǐng)域進(jìn)行了更深入的探索。作為存儲(chǔ)器市場(chǎng)的重要組成部分,DRAM技術(shù)不斷地升級(jí)衍生。DRAM從2D向3D技術(shù)發(fā)展,其中HBM是主要代表產(chǎn)品。
HBM(High Bandwidth Memory,高帶寬內(nèi)存)是一款新型的CPU/GPU 內(nèi)存芯片,其實(shí)就是將很多個(gè)DDR芯片堆疊在一起后和GPU封裝在一起,實(shí)現(xiàn)大容量,高位寬的DDR組合陣列。
通過(guò)增加帶寬,擴(kuò)展內(nèi)存容量,讓更大的模型,更多的參數(shù)留在離核心計(jì)算更近的地方,從而減少內(nèi)存和存儲(chǔ)解決方案帶來(lái)的延遲。
從技術(shù)角度看,HBM使DRAM從傳統(tǒng)2D轉(zhuǎn)變?yōu)榱Ⅲw3D,充分利用空間、縮小面積,契合半導(dǎo)體行業(yè)小型化、集成化的發(fā)展趨勢(shì)。HBM突破了內(nèi)存容量與帶寬瓶頸,被視為新一代DRAM解決方案,業(yè)界認(rèn)為這是DRAM通過(guò)存儲(chǔ)器層次結(jié)構(gòu)的多樣化開(kāi)辟一條新的道路,革命性提升DRAM的性能。
在內(nèi)存領(lǐng)域,一場(chǎng)關(guān)于HBM的競(jìng)賽已悄然打響。
巨頭領(lǐng)跑,HBM3時(shí)代來(lái)臨
據(jù)了解,HBM主要是通過(guò)硅通孔(Through Silicon Via, 簡(jiǎn)稱(chēng)“TSV”)技術(shù)進(jìn)行芯片堆疊,以增加吞吐量并克服單一封裝內(nèi)帶寬的限制,將數(shù)個(gè)DRAM裸片像樓層一樣垂直堆疊。
裸片之間用TSV技術(shù)連接
SK海力士表示,TSV是在DRAM芯片上搭上數(shù)千個(gè)細(xì)微孔并通過(guò)垂直貫通的電極連接上下芯片的技術(shù)。該技術(shù)在緩沖芯片上將數(shù)個(gè)DRAM芯片堆疊起來(lái),并通過(guò)貫通所有芯片層的柱狀通道傳輸信號(hào)、指令、電流。相較傳統(tǒng)封裝方式,該技術(shù)能夠縮減30%體積,并降低50%能耗。
憑借TSV方式,HBM大幅提高了容量和數(shù)據(jù)傳輸速率。與傳統(tǒng)內(nèi)存技術(shù)相比,HBM具有更高帶寬、更多I/O數(shù)量、更低功耗、更小尺寸。隨著存儲(chǔ)數(shù)據(jù)量激增,市場(chǎng)對(duì)于HBM的需求將有望大幅提升。
HBM的高帶寬離不開(kāi)各種基礎(chǔ)技術(shù)和先進(jìn)設(shè)計(jì)工藝的支持。由于HBM是在3D結(jié)構(gòu)中將一個(gè)邏輯die與4-16個(gè)DRAM die堆疊在一起,因此開(kāi)發(fā)過(guò)程極為復(fù)雜。鑒于技術(shù)上的復(fù)雜性,HBM是公認(rèn)最能夠展示廠商技術(shù)實(shí)力的旗艦產(chǎn)品。
2013年,SK海力士將TSV技術(shù)應(yīng)用于DRAM,在業(yè)界首次成功研發(fā)出HBM。
HBM1的工作頻率約為1600 Mbps,漏極電源電壓為1.2V,芯片密度為2Gb(4-hi)。HBM1的帶寬高于DDR4和GDDR5產(chǎn)品,同時(shí)以較小的外形尺寸消耗較低的功率,更能滿足GPU等帶寬需求較高的處理器。
隨后,SK海力士、三星、美光等存儲(chǔ)巨頭在HBM領(lǐng)域展開(kāi)了升級(jí)競(jìng)賽。
2016年1月,三星宣布開(kāi)始量產(chǎn)4GB HBM2 DRAM,并在同一年內(nèi)生產(chǎn)8GB HBM2 DRAM;2017年下半年,被三星趕超的SK海力士開(kāi)始量產(chǎn)HBM2;2018年1月,三星宣布開(kāi)始量產(chǎn)第二代8GB HBM2“Aquabolt”。
2018年末,JEDEC推出HBM2E規(guī)范,以支持增加的帶寬和容量。當(dāng)傳輸速率上升到每管腳3.6Gbps時(shí),HBM2E可以實(shí)現(xiàn)每堆棧461GB/s的內(nèi)存帶寬。此外,HBM2E支持最多12個(gè)DRAM的堆棧,內(nèi)存容量高達(dá)每堆棧24GB。與HBM2相比,HBM2E具有技術(shù)更先進(jìn)、應(yīng)用范圍更廣泛、速度更快、容量更大等特點(diǎn)。
2019年8月,SK海力士宣布成功研發(fā)出新一代“HBM2E”;2020年2月,三星也正式宣布推出其16GB HBM2E產(chǎn)品“Flashbolt”,于2020年上半年開(kāi)始量產(chǎn)。
據(jù)三星介紹,其16GB HBM2E Flashbolt通過(guò)垂直堆疊8層10納米級(jí)16GB DRAM晶片,能夠提供高達(dá)410GB/s的內(nèi)存帶寬級(jí)別和每引腳3.2 GB/s的數(shù)據(jù)傳輸速度。
SK海力士的HBM2E以每個(gè)引腳3.6Gbps的處理速度,每秒能處理超過(guò)460GB的數(shù)據(jù),包含1024個(gè)數(shù)據(jù)I/O。通過(guò)TSV技術(shù)垂直堆疊8個(gè)16GB芯片,其HBM2E單顆容量16GB。
HBM技術(shù)線路圖(圖源:SK海力士)
2020年,另一家存儲(chǔ)巨頭美光宣布加入到這一賽場(chǎng)中來(lái)。
美光在當(dāng)時(shí)的財(cái)報(bào)會(huì)議上表示,將開(kāi)始提供HBM2內(nèi)存/顯存,用于高性能顯卡,服務(wù)器處理器產(chǎn)品,并預(yù)計(jì)下一代HBMNext將在2022年底面世。但截止目前尚未看到美光相關(guān)產(chǎn)品動(dòng)態(tài)。
2022年1月,JEDEC組織正式發(fā)布了新一代高帶寬內(nèi)存HBM3的標(biāo)準(zhǔn)規(guī)范,繼續(xù)在存儲(chǔ)密度、帶寬、通道、可靠性、能效等各個(gè)層面進(jìn)行擴(kuò)充升級(jí),具體包括:
主接口使用0.4V低擺幅調(diào)制,運(yùn)行電壓降低至1.1V,進(jìn)一步提升能效表現(xiàn)。
傳輸數(shù)據(jù)率在HBM2基礎(chǔ)上再次翻番,每個(gè)引腳的傳輸率為6.4Gbps,配合1024-bit位寬,單顆最高帶寬可達(dá)819GB/s。
如果使用四顆,總帶寬就是3.2TB/s,六顆則可達(dá)4.8TB/s。
獨(dú)立通道數(shù)從8個(gè)翻番到16個(gè),再加上虛擬通道,單顆支持32通道。
支持4層、8層和12層TSV堆棧,并為未來(lái)擴(kuò)展至16層TSV堆棧做好準(zhǔn)備。
每個(gè)存儲(chǔ)層容量8/16/32Gb,單顆容量起步4GB(8Gb 4-high)、最大容量64GB(32Gb 16-high)。
支持平臺(tái)級(jí)RAS可靠性,集成ECC校驗(yàn)糾錯(cuò),支持實(shí)時(shí)錯(cuò)誤報(bào)告與透明度。
JEDEC表示,HBM3是一種創(chuàng)新的方法,是更高帶寬、更低功耗和單位面積容量的解決方案,對(duì)于高數(shù)據(jù)處理速率要求的應(yīng)用場(chǎng)景來(lái)說(shuō)至關(guān)重要,比如圖形處理和高性能計(jì)算的服務(wù)器。
HBM性能演進(jìn)(圖源:Rambus)
SK海力士早在2021年10月就開(kāi)發(fā)出全球首款HBM3,2022年6月量產(chǎn)了HBM3 DRAM芯片,并將供貨英偉達(dá),持續(xù)鞏固其市場(chǎng)領(lǐng)先地位。隨著英偉達(dá)使用HBM3 DRAM,數(shù)據(jù)中心或?qū)⒂瓉?lái)新一輪的性能革命。
根據(jù)此前的資料介紹,SK海力士提供了兩種容量產(chǎn)品,一個(gè)是12層硅通孔技術(shù)垂直堆疊的24GB(196Gb),另一個(gè)則是8層堆疊的16GB(128Gb),均提供819 GB/s的帶寬,前者的芯片高度也僅為30微米。相比上一代HBM2E的460 GB/s帶寬,HBM3的帶寬提高了78%。此外,HBM3內(nèi)存還內(nèi)置了片上糾錯(cuò)技術(shù),提高了產(chǎn)品的可靠性。
SK海力士對(duì)于HBM的研發(fā)一直非常積極,為了滿足客戶(hù)不斷增加的期望,打破現(xiàn)有框架進(jìn)行新技術(shù)開(kāi)發(fā)勢(shì)在必行。SK海力士還在與HBM生態(tài)系統(tǒng)中的參與者(客戶(hù)、代工廠和IP公司等)通力合作,以提升生態(tài)系統(tǒng)等級(jí)。商業(yè)模式的轉(zhuǎn)變同樣是大勢(shì)所趨。作為HBM領(lǐng)軍企業(yè),SK海力士將致力于在計(jì)算技術(shù)領(lǐng)域不斷取得進(jìn)步,全力實(shí)現(xiàn)HBM的長(zhǎng)期發(fā)展。
三星也在積極跟進(jìn),在2022年技術(shù)發(fā)布會(huì)上發(fā)布的內(nèi)存技術(shù)發(fā)展路線圖中,三星展示了涵蓋不同領(lǐng)域的內(nèi)存接口演進(jìn)的速度。首先,在云端高性能服務(wù)器領(lǐng)域,HBM已經(jīng)成為了高端GPU的標(biāo)配,這也是三星在重點(diǎn)投資的領(lǐng)域之一。HBM的特點(diǎn)是使用高級(jí)封裝技術(shù),使用多層堆疊實(shí)現(xiàn)超高IO接口寬度,同時(shí)配合較高速的接口傳輸速率,從而實(shí)現(xiàn)高能效比的超高帶寬。
在三星發(fā)布的路線圖中,2022年HBM3技術(shù)已經(jīng)量產(chǎn),其單芯片接口寬度可達(dá)1024bit,接口傳輸速率可達(dá)6.4Gbps,相比上一代提升1.8倍,從而實(shí)現(xiàn)單芯片接口帶寬819GB/s,如果使用6層堆疊可以實(shí)現(xiàn)4.8TB/s的總帶寬。
2024年預(yù)計(jì)將實(shí)現(xiàn)接口速度高達(dá)7.2Gbps的HBM3p,從而將數(shù)據(jù)傳輸率相比這一代進(jìn)一步提升10%,從而將堆疊的總帶寬提升到5TB/s以上。另外,這里的計(jì)算還沒(méi)有考慮到高級(jí)封裝技術(shù)帶來(lái)的高多層堆疊和內(nèi)存寬度提升,預(yù)計(jì)2024年HBM3p單芯片和堆疊芯片都將實(shí)現(xiàn)更多的總帶寬提升。而這也將會(huì)成為人工智能應(yīng)用的重要推動(dòng)力,預(yù)計(jì)在2025年之后的新一代云端旗艦GPU中看到HBM3p的使用,從而進(jìn)一步加強(qiáng)云端人工智能的算力。
從HBM1到HBM3,SK海力士和三星一直是HBM行業(yè)的領(lǐng)軍企業(yè)。
HBM未來(lái)潛力與演進(jìn)方向
對(duì)于接下來(lái)的規(guī)劃策略和技術(shù)進(jìn)步,業(yè)界旨在突破目前HBM在速度、密度、功耗、占板空間等方面的極限。
影響HBM性能的因素
首先,為了打破速度極限,SK海力士正在評(píng)估提高引腳數(shù)據(jù)速率的傳統(tǒng)方法的利弊,以及超過(guò)1024個(gè)數(shù)據(jù)的I/O總線位寬,以實(shí)現(xiàn)更好的數(shù)據(jù)并行性和向后設(shè)計(jì)兼容性。簡(jiǎn)單來(lái)講,即用最少的取舍獲得更高的帶寬性能。
針對(duì)更大數(shù)據(jù)集、訓(xùn)練工作負(fù)載所需的更高內(nèi)存密度要求,存儲(chǔ)廠商開(kāi)始著手研究擴(kuò)展Die堆疊層數(shù)和物理堆疊高度,以及增加核心Die密度以?xún)?yōu)化堆疊密度。
另一方面也在致力于提高功耗效率,通過(guò)評(píng)估從最低微結(jié)構(gòu)級(jí)別到最高Die堆疊概念的內(nèi)存結(jié)構(gòu)和操作方案,最大限度地降低每帶寬擴(kuò)展的絕對(duì)功耗。由于現(xiàn)有中介層光罩尺寸的物理限制以及支持處理單元和HBM Cube的其他相關(guān)技術(shù),實(shí)現(xiàn)總內(nèi)存Die尺寸最小化尤為重要。因此,行業(yè)廠商需要在不擴(kuò)大現(xiàn)有物理尺寸的情況下增加存儲(chǔ)單元數(shù)量和功能,從而實(shí)現(xiàn)整體性能的飛躍。
但從產(chǎn)業(yè)發(fā)展歷程來(lái)看,完成上述任務(wù)的前提是:存儲(chǔ)廠商要與上下游生態(tài)系統(tǒng)合作伙伴攜手合作和開(kāi)放協(xié)同,將HBM的使用范圍從現(xiàn)有系統(tǒng)擴(kuò)展到潛在的下一代應(yīng)用。
此外,新型HBM-PIM(存內(nèi)計(jì)算)芯片將AI引擎引入每個(gè)存儲(chǔ)庫(kù),從而將處理操作轉(zhuǎn)移到HBM。
在傳統(tǒng)架構(gòu)下,數(shù)據(jù)從內(nèi)存單元傳輸?shù)接?jì)算單元需要的功耗是計(jì)算本身的約200倍,數(shù)據(jù)的搬運(yùn)耗費(fèi)的功耗遠(yuǎn)大于計(jì)算,因此真正用于計(jì)算的能耗和時(shí)間占比很低,數(shù)據(jù)在存儲(chǔ)器與處理器之間的頻繁遷移帶來(lái)嚴(yán)重的傳輸功耗問(wèn)題,稱(chēng)為“功耗墻”。新型的內(nèi)存旨在減輕在內(nèi)存和處理器之間搬運(yùn)數(shù)據(jù)的負(fù)擔(dān)。
寫(xiě)在最后
過(guò)去幾年來(lái),HBM產(chǎn)品帶寬增加了數(shù)倍,目前已接近或達(dá)到1TB/秒的里程碑節(jié)點(diǎn)。相較于同期內(nèi)其他產(chǎn)品僅增加兩三倍的帶寬增速,HBM的快速發(fā)展歸功于存儲(chǔ)器制造商之間的競(jìng)爭(zhēng)和比拼。
存儲(chǔ)器帶寬指單位時(shí)間內(nèi)可以傳輸?shù)臄?shù)據(jù)量,要想增加帶寬,最簡(jiǎn)單的方法是增加數(shù)據(jù)傳輸線路的數(shù)量。事實(shí)上,每個(gè)HBM由多達(dá)1024個(gè)數(shù)據(jù)引腳組成,HBM內(nèi)部的數(shù)據(jù)傳輸路徑隨著每一代產(chǎn)品的發(fā)展而顯著增長(zhǎng)。
各代HBM產(chǎn)品的數(shù)據(jù)傳輸路徑配置
回顧HBM的演進(jìn)歷程,第一代HBM數(shù)據(jù)傳輸速率大概可達(dá)1Gbps;2016年推出的第二代產(chǎn)品HBM2,最高數(shù)據(jù)傳輸速率可達(dá)2Gbps;2018年,第三代產(chǎn)品HBM2E的最高數(shù)據(jù)傳輸速率已經(jīng)可達(dá)3.6Gbps。如今,SK海力士和三星已研發(fā)出第四代產(chǎn)品HBM3,此后HBM3預(yù)計(jì)仍將持續(xù)發(fā)力,在數(shù)據(jù)傳輸速率上有更大的提升。
從性能來(lái)看,HBM無(wú)疑是出色的,其在數(shù)據(jù)傳輸?shù)乃俾?、帶寬以及密度上都有著巨大的?yōu)勢(shì)。不過(guò),目前HBM仍主要應(yīng)用于服務(wù)器、數(shù)據(jù)中心等應(yīng)用領(lǐng)域,其最大的限制條件在于成本,對(duì)成本比較敏感的消費(fèi)領(lǐng)域而言,HBM的使用門(mén)檻仍較高。
盡管HBM已更迭到了第四代,但HBM現(xiàn)在依舊處于相對(duì)早期的階段,其未來(lái)還有很長(zhǎng)的一段路要走。
而可預(yù)見(jiàn)的是,隨著人工智能、機(jī)器學(xué)習(xí)、高性能計(jì)算、數(shù)據(jù)中心等應(yīng)用市場(chǎng)的興起,內(nèi)存產(chǎn)品設(shè)計(jì)的復(fù)雜性正在快速上升,并對(duì)帶寬提出了更高的要求,不斷上升的寬帶需求持續(xù)驅(qū)動(dòng)HBM發(fā)展。市場(chǎng)調(diào)研機(jī)構(gòu)Omdia預(yù)測(cè),2025年HBM市場(chǎng)的總收入將達(dá)到25億美元。
在這個(gè)過(guò)程中,存儲(chǔ)巨頭持續(xù)發(fā)力、上下游廠商相繼入局,HBM將受到越來(lái)越多的關(guān)注與青睞。
編輯:黃飛
?
評(píng)論
查看更多