生成式人工智能和大模型的驅動下,我們正置身于一個算力領域千載難逢的拐點:一個類似于個人電腦、互聯網、移動設備和云誕生的時刻。面對持續以10倍/年增長的大模型參數,一切傳統上設計和構建算力基礎設施的方式均已不再奏效,異構、Chiplet 及其引發的各種片內互聯創新被推向臺前。
作為一種已被多次證實有效尚富有生命力的技術,Chiplet 迅速激發了巨頭們的斗志,并藉此武器,再次踏入一場數據中心算力形態的戰爭。
總體而言,在數據中心處理器領域,采用 Chiplet 化具有幾大優勢:
1、降低設計成本:
隨著最新工藝制程的發展,芯片設計成本已增至令人望而卻步的地步,根據 IBS?預估,2nm 芯片從頭開發的總成本將達到 7.25 億美元。使用 Chiplet?可以顯著減少芯片研發時間和成本:只需對關鍵模塊進行更新,就擁有了一個全新的芯片。從成本方面考慮,在不久的將來,隨著制程的不斷提升,如果不使用 Chiplet,幾乎不可能構建領先的芯片。
2、降低量產成本:
總擁有成本(TCO)是在數據中心將模型投入生產的主要制約因素之一,而芯片的量產成本則是?TCO?的重要組成部分。當數據中心規模不斷擴大,對 TCO 的影響也越大。根據?Tirias Research 預測,到 2028 年,一個典型 GenAI 數據中心服務器基礎設施+運營成本將超過 760 億美元。而 Chiplet 允許開發人員為每個模塊選擇不同工藝,靈活平衡性能與成本,而不必將所有功能都押寶在昂貴而難以獲得的尖端制程上。
3、提升性能&集成度:
在摩爾定律和光照尺寸的限制下,Chiplet 已成為繼續增強芯片性能經濟而可持續的方式,通過?2.5D 平鋪/ 3D 堆疊芯粒,可以有效擴展芯片性能,提升芯片的復雜度。當然,這也帶來了互聯的問題,畢竟,如果這些芯粒不能有效的連接在一起,就什么也做不了。
4、加速 TTM 時間:
Chiplet 的另一項關鍵優勢是可以縮短開發芯片的上市時間(TTM)。通過將復雜的功能隱藏在可重復使用的已驗證芯粒中,企業可以有效縮短開發定制全新芯片所需的上市時間,并加速下一代產品的開發和創新。
本文將以英特爾和 Google 的代表性產品為例,分析數據中心 GPU 的發展趨勢。
Intel - GPU Max
作為GPU 領域的新入局者,英特爾可謂野心勃勃,入場即從集成 GPU、中端獨立 GPU 迅速殺至數據中心和超算市場。其首款面向服務中心的 GPU MAX(前代號 Ponte Vecchio)正是這樣一款野心之作,基于 Intel Xe HPC 微架構,將超過1000億個晶體管集成在47個芯粒里,堪稱算力怪獸。
量產成本下降
作為英特爾的首款服務中心 GPU,GPU MAX 的物理設計堪稱 Chiplet 集大成者。通過將功能模塊分離為 47 個芯粒,為每個不同芯粒單元分配多達 5 種不同制程。其中,Base tile 和 HBM2e SerDes 使用 Intel 7 工藝,計算單元采用 TSMC N5 工藝,從而實現成本的控制。
性能提升
GPU MAX 系列通過多達 47 顆芯粒的堆疊,提供多達 128 個 Xe-HPC 核心,408 MB 二級緩存和 64MB 一級緩存,以提高吞吐量和性能。英特爾表示,使用 Max 系列 GPU 的大型二級服務器,其 AI 工作負載的性能獲得了 2 倍提升。
阿貢國家實驗室是首批GPU Max系列采用者。其團隊計劃部署 60,000 個 Max 系列 GPU,平均分配給 10,000 個服務器刀片。每個刀片還依靠兩個 Intel Xeon CPU Max 系列處理器來最大限度地提高 Aurora 的架構,以應對一些有史以來最重要的科學工作負載。一旦 ANL 在其旗艦 Aurora 系統上部署全套 Max 系列 GPU 和 CPU,雙精度計算性能將超過 2 exaFLOPS。
47 顆芯粒,如何高速連在一起?
大型 GPU 上的 die 間傳輸數據并不容易,尤其對?GPU MAX 這樣極度復雜的大型芯片來說,必須依靠高效的互連設計。
High level X e?HPC Stack Component Overview, source: Intel
Base Tile(die):英特爾在 Max GPU 系列中引入了 Base Tile 的概念。Base Tile 是一種基礎芯粒,與 interposer 的功能類似,用于承載計算核心和高速 I/O,但功能更加豐富。Max GPU 的?Base Tile 采用了英特爾 7nm 制程,將高速 I/O 的 SerDes 與計算核心解耦后重新打包在同一制程內,以降低量產成本。
此外,Base die 中還集成了一個容量為 144 MB的 RAMBO,以及 L3 Cache 的交換網絡(Switch Fabric),通過 Switch Fabric 將144MB Cache 與 8 顆計算芯粒、4 顆 RAMBO 芯粒的 60MB Cache 連接在一起,最后通過3D Foveros 技術將計算芯粒堆疊在 Base die 之上,從而使得 GPU MAX 的互聯效率大為增強,讓芯粒間以最短的垂直路徑互連為一個整體,從而極大的提升算力密度和更高的內存帶寬。
Co-EMIB:EMIB + Foveros
為保障互聯速度,每個 GPU MAX 被整合為兩組鏡像的 Chiplet 堆棧,堆棧間由 Co-EMIB 連接。Co-EMIB 是英特爾 2.5D EMIB 技術與3D 技術的 Foveros 結合產物,在堆棧間形成高密度互連的橋梁,互聯密度可達 Base die 的兩倍。
其中,EMIB 負責芯粒與芯粒之間的 2.5D 互連,而 Foveros 則在兩個 3D 堆疊的芯粒堆棧間建立了密集的 die-to-die 垂直連接陣列,信號和電源通過硅通孔進入堆棧,較寬的垂直互連則直接穿透芯粒,形成距離更短的互聯。
Chiplet 為英特爾這個?GPU 領域遲到的野心家按下了加速鍵,通過 Base die 和 2.5D、3D 互聯技術的整合,為這款超級芯片注入驚人的性能和快速上市、快速迭代的基因,以實現與?AI 芯片霸主的正面競爭。
在今天,通過2.5D /?3D Chiplet?堆疊的形式擴展處理器的算力,已成為數據中心的主流路徑。其中,Base die 作為3D Chiplet 的實現基礎,已廣泛應用于全球范圍內的數據中心。隨著 AIGC 應用的擴大化,通用化的 Base die 將迎來巨大的市場空間。國內市場通用 Base die 代表企業如奇異摩爾,旗下?Base die 將于年內流片。
Google TPU v5e
2023年8月,Goole Cloud 在 Next23 上,發布了其最新一代云端 AI 芯片 TPU v5e,TPUv5e?是 TPUv4i (TPUv4 lite) 的后繼產品,一款專注于中大規模模型的訓練和推理性能的精簡版芯片。相比尚未發布的 TPUv5,TPU v5e 更加經濟、高效,具有更小的尺寸和更低的功耗、內存帶寬、FLOPS,功耗僅為 H100 的 20%。
降低成本
TPU 是一種特殊計算單元,可理解為針對張量計算的專用 GPU。與通用 GPU 相比,TPU 在特定任務方面的速度和能效方面表現更好。基于 Chiplet 架構的靈活性優勢,Google 得以在 TPUv5 推出前,精簡、優化架構,迅速推出這樣一款極具成本效益的 TPU。
在面向 <200B 參數模型AI訓練和推理時,TPUv5e 運行成本不到 TPU v4 一半(運行 TPU v4 的價格約為 3.2 美元/小時,TPU v5e 僅需 1.2 美元/小時),成本的大幅降低使組織能夠以相同成本訓練和部署更大、更復雜的 AI 模型。這對于許多第三方使用者來說,無疑具有巨大的成本優勢。?
Throughput per dollar of Google’s Cloud TPU v5e compared to Cloud TPU v4. Souce:Google Cloud
根據版本大小不同,Google TPU會配備1個或2個 Tensor Core。相比未發布的全尺寸 TPU v5 芯片,TPUv5e 只保留了一個 Tensor Core和一半的 HBM 堆棧,大幅縮減了成本。不同于英偉達不惜犧牲功耗追求極致性能的策略,Google TPU 更好的利用了 Chiplet 的靈活性優勢,快速推出多款面向不同客戶需求的產品,并可以根據推出的精簡版產品反饋靈活調整全尺寸芯片策略。
TPU v5e:更小而更強
盡管通過芯片減半降低實現了成本優化,TPU v5e 也實現了性能的大幅提升。Google 表示,TPU v5e 在各種人工智能負載實現高性能和高成本效益的推理,其性能較前代產品提高了 2-4 倍,成本效益提高超 2 倍。每個TPU v5e 芯片每秒可提供高達 393 萬億次int8 運算(TOPS),顯著優于全尺寸的前代產品 TPU v4 的 275 petaflops,可對最復雜的模型進行快速預測。
?
Key chip specifications | v5e values |
Peak compute per chip (bf16) | 197 TFLOPs |
Peak compute per chip (Int8) | 393 TFLOPs |
HBM2 capacity and bandwidth | 16 GB, 819 GBps |
Interchip Interconnect BW | 1600 Gbps |
?
Tensor Core 同樣基于?Chiplet 架構,每個?Tensor Core?由 4 個矩陣乘法單元 ?(MXU)、1 個向量單元和 1 個標量單元組成。通過對核心計算單元的優化,每個 MXU 每個周期可執行 16,000 次乘法累加運算。其中,6 個芯粒單元通過?2.5D interposer 進行單元間的高速互聯,并與 HBM2E 內存進行通信,總內存帶寬為 819.2GB/s。
TPUv4 & TPUv5e 架構對比
左為TPUv4,右為TPUv5e,Source:Google??????? ?
2.5D interposer:
2.5D interposer即硅中介層,通常位于芯片底層 Substrate 和頂層芯粒間,通過硅通孔(Silicon Through Via, TSV)和 ubump 實現芯粒間的互連。2.5D Interposer 采用硅工藝,具有更小的線寬線距,ubump 尺寸更小,二者相結合,可以共同提升 IO 密度并降低傳輸延遲與功耗。
作為 Chiplet 架構的物理實現基礎,2.5D interposer 已成為數據中心產品的普遍解決方案。可以讓客戶用更短的時間、更低的成本實現性能擴展。據 Yole 報告顯示,2020年到 2025 年期間,2.5D interposer 的年復合增長率達 44%。
巨大的市場空間和加劇了競爭,2.5D interposer 的產能逐漸成為數據中心芯片供應的瓶頸,國內也應勢產生了一系列2.5D interposer的廠商,奇異摩爾作為其中的代表,核心產品涵蓋2.5D interposer、2.5D IO Die、3D Base Die等高性能互聯芯粒、網絡加速芯粒、及全系列Die2Die IP,及相關Chiplet系統解決方案,是目前國內少有的專注于Chiplet 互聯賽道的企業。
高速發展的 AIGC 為世界帶來了巨大的機遇與變革。同時,它也對我們所處的世界提出了更高的要求。在未來數年里,數據中心將會比現在強大上百倍,其訓練和推理需要更強大的計算處理能力,更靈活、高效的架構,更低成本,更快的市場反應速度,這使得 Chiplet 及其互聯技術在以 GPU 為代表的數據中心處理器架構中將成為必然。Chiplet 的統治地位才剛剛開始。
編輯:黃飛
評論
查看更多