人工智能的蓬勃發展促使產業對AI基礎設施提出了更高的性能要求,先進計算處理單元,尤其是ASIC或GPU,為了在機器學習、HPC提供穩定的算力表現,傳統的內存系統已經不太能滿足日益增加的帶寬了。與此同時,在我們報道的不少AI芯片、HPC系統中,HBM或類似的高帶寬內存越來越普遍,為數據密集型應用提供了支持。
提及HBM,不少人都會想到成本高、良率低等缺陷,然而這并沒有影響業內對HBM的青睞,諸如AMD的RadeonPro5600M、英偉達的A100等消費級/企業級GPU,或是思科的路由ASIC芯片SiliconOneQ100、英特爾與AMD-Xilinx的FPGA,都用到了HBM內存。就在今年1月底,JEDEC終于正式發布了HBM的第四代HBM3的標準。
HBM3性能未來可期
HBM2/2E與HBM3的架構對比 / SK海力士
HBM3帶來的性能提升大家應該都比較清楚了,傳輸速率是HBM2的兩倍,達到了6.4Gb/s,使得每個堆棧最高可達819GB/s的帶寬??捎玫莫毩⑼ǖ酪矎腍BM2的8個擴充至16個,加上每個通道兩個偽通道的設計,HBM3可以說支持到32通道了,提供更優秀的時序來提升系統性能。
HBM3 8Hi和12Hi的機械結構對比/ SK海力士
HBM3的TSV堆疊層數支持4-high、8-high和12-high,這倒是和HBM2e沒有什么差別。從SK海力士提供的機械結構圖來看,無論是8Hi還是12Hi,其封裝大小和高度都是一樣的,只不過是減小了中間堆疊的裸片高度。這僅僅是第一代HBM3,未來HBM3會擴展至16-high的TSV堆棧,單設備的內存密度范圍也將達到4GB至64GB,不過第一代HBM3設備的話,目前用到的依然是16GB的內存層。
此外,在散熱上,通過增加dummybump、增加HBM3裸片大小并降低間隙高度,HBM3成功將溫度降低了25%,實現了更好的散熱性能。在7位ADC的支持下,HBM3的溫度傳感器也能以1℃的分辨率輸出0到127℃的溫度信息。
首個用上HBM3的平臺
以在GTC22上亮相的H100 GPU為例,這是全球首個支持PCIe5.0并利用HBM3的GPU,其內存容量達到了80GB。這個容量與上一代A100一致,但帶寬卻有了質的飛躍,與采用HBM2的A100相比,H100的內存帶寬提升了兩倍,達到了3TB/s。
英偉達各個系列GPU加速卡的內存帶寬 / 英偉達
你可能會感到疑惑,既然HBM3可以提供每個堆棧16GB以上的內存,從H100的芯片圖上看來有6個HBM3,為何只有80GB呢?是不是英偉達為了成本有所閹割?
H100 GPU / 英偉達
其實原因很簡單,6個HBM3的其中一個為DummyDie,所以真正可用的HBM3內存只有5x16也就是80GB,所以英偉達在H100的白皮書也明確提到了這80GB是由5Stacks的HBM3內存組成。如此做的原因很可能是出于良率的考量,畢竟我們已經提到了HBM良率低的包袱,而且上一代80GB HBM2e的A100也是如此設計的。
HBM找到了新的市場
根據SK海力士給出的市場預期,HBM市場正在以40%的年復合增長率席卷HPC、AI和CPU等應用,如今這其中還多出來一個特殊的應用,那就是ADAS和自動駕駛。如今的自動駕駛芯片上幾乎看不到HBM的存在,即便是英偉達的JetsonAGX Orin,用的也只是256位的LPDDR5內存,帶寬最高只有204.8GB/s。
HBM3內存 / SK海力士
這種情況再正常不過了,誰叫如今的ADAS或自動駕駛方案還用不到HBM的大帶寬?;ㄥX去設計HBM,還不如在芯片的計算性能上多下功夫。然而到了L4或L5的自動駕駛中,又是另外一幅光景了。低延遲和準確的數據處理對于激光雷達、攝像頭等傳感器來說,可謂至關重要,這兩大自動駕駛等級下的帶寬至少也要1TB/s。
據研究機構的預測,到了2030年,L4以上的自動駕駛系統將占據20%的市場,到了2035年,這一比例將上升至45%。為了不在突破L3時遇到帶寬的瓶頸,引入HBM可以說是越早越好,甚至從L3就可以開始考慮了,畢竟現在不少自動駕駛芯片已經標榜著L3乃至L4以上的能力。
比如L3級別的自動駕駛,帶寬要求在600GB/s到1TB/s之間,單車可以使用兩個HBM2e或者一個HBM3;而L4到L5級別的自動駕駛,帶寬要求在1TB/s到1.5TB之間,單車可用3個HBM2e或兩個HBM3。
結語
雖然HBM3標準已經發布,芯片設計公司(英偉達、AMD、英特爾)、IP公司(新思、Cadence、Rambus)、晶圓代工廠的封裝技術(臺積電Cowos-S、三星H-Cube、英特爾EMIB)以及存儲廠商(三星、SK海力士)都開始了相關的部署,但HBM3的普及仍然需要時間。
預計2023年到2024年,我們可以見到第一代HBM3內存在HPC上的普及,2025年到2026年第二代才會開始放量,屆時我們也能看到下一代HBM4的性能前瞻。至于HBM上自動駕駛芯片倒是不必急求,汽車產品的上市周期一向很長,從HBM3的推進速度來看,估計L4和L5才能充分利用HBM3乃至HBM4的全部優勢。
-
gpu
+關注
關注
28文章
4768瀏覽量
129261 -
AI
+關注
關注
87文章
31493瀏覽量
270049 -
HBM
+關注
關注
0文章
386瀏覽量
14822 -
HBM3
+關注
關注
0文章
74瀏覽量
163
發布評論請先 登錄
相關推薦
評論