AI 服務器發展迅速,GPU 環節被英偉達與 AMD 所占據。AIGC 的發展帶動AI 服務器迅速增長,TrendForce 集邦咨詢預計 23 年 AI 服務器出貨量約 120 萬臺,同比+38.4%,占整體服務器出貨量的比約為9%,2022~2026 年 AI 服務器出貨量 CAGR 將達 22%,而 AI 芯片 2023 年出貨量將成長 46%。GPU 作為數據并行處理的核心,是 AI 服務器的核心增量。
本文來自“行業專題:GPU龍頭產品迭代不斷,產業鏈各環節持續催化”,全球GPU呈現“一超一強”的競爭格局,根據 IDC 數據,2021 英偉達在企業級 GPU 市場中占比 91.4%,AMD 占比 8.5%。
目前英偉達產品 DGX GH200 已發布,互連技術強大,算力進一步升級。5月 29 日,英偉達在其發布會上,正式發布最新的 GH200 Grace Hopper 超級芯片,以及擁有 256 個 GH200 超級芯片的 NVIDIA DGX GH200 超級計算機。
GH200超級芯片內部集成了 Grace CPU 和 H100 GPU,晶體管數量達 2000 億個。其借助 NVIDIA NVLink-C2C 芯片互連,將英偉達 Grace CPU 與英偉達 H100 TensorCore GPU 整合。與 PCIe Gen5 技術相比,其 GPU 和 CPU 之間的帶寬將提高 7倍,并將互連功耗減少至 1/5 以下。同時,DGX GH200 的 AI 性能算力將達到1exaFLOPS。
英偉達產品 DGX GH200 共享內存大幅提升,突破內存瓶頸。DGX GH200系統將 256 個 GH200 超級芯片與 144TB 的共享內存進行連接,進一步提高系統協同性。與 DGX H100 相比,DGX GH200 的共享內存提升約 230 倍。憑借強大的共享內存,GH200 能夠顯著改善受 GPU 內存大小瓶頸影響的 AI 和 HPC 應用程序的性能。而在具有 tb 級嵌入式表的深度學習推薦模型(DLRM)、tb 級圖神經網絡訓練模型或大型數據分析工作負載中,使用 DGX GH200 可將速度提高4到7倍。
而 AMD 在美國時間 2023 年 6 月 13 日,推出其新款 AI 芯片 MI300 系列,兩款芯片分別為 MI300A 與 MI300X,分別集成 1460、1530 億個晶體管。MI300A內含 13 個小芯片,總共集成 1460 億個晶體管,其內部包含 24 個 Zen 4 CPU 核心、1 個 CDNA 3 圖形引擎和 128GB HBM3 內存;而 MI300X 是針對大預言模型的優化版本,其內存達 192GB,內存帶寬為 5.2TB/s,Infinity Fabric 帶寬為896GB/s,晶體管達 1530 億個。AMD 表示,與上代 MI 250 相比,MI300 的 AI性能和每瓦性能分別為 MI250 的 8 倍和 5 倍。
應用先進封裝 Chiplet 技術與 HBM3,工藝技術驅動產品升級。在以往 CPU、GPU 設計中,AMD 常利用其先進的封裝堆疊技術,集成多個小核心,從而實現整體性能的提升。根據芯智訊,MI300 由 13 個小芯片整合而成,其中其計算部分由 9 個基于臺積電 5nm 工藝制程的小芯片組成,這些小芯片包括了 CPU 和 GPU內核。3D 堆疊設計極大提升了 MI 300 的性能與數據吞吐量。同時,MI300 兩側排列著 8 個合計 128GB 的 HBM3 芯片,滿足其海量且高速的數據存儲需求。
AI 大模型等 AIGC 產業的升級離不開算力的底層支持,使得 GPU 等大算力芯片性能持續提升,帶來產業鏈各環節增量。以英偉達 DGX H100 為例,其在GPU、互連技術、智能網卡、內存條、硬盤等結構上均較普通服務器有較大提升,同時其 PCB 的面積需求量與性能要求亦高于普通服務器。
(1)GPU:量價齊升,產業鏈最大增量。一般的普通服務器僅會配備單卡或雙卡,而 AI 服務器由于需要承擔大量的計算,一般配置四塊或以上的 GPU。且AI大模型在訓練與推理時的計算量巨大,中低端的GPU無法滿足其運算需求。如在英偉達 DGX H100 中,其配備 8 個 NVIDIA H100 GPU,總 GPU 顯存高達640GB;每個GPU配備18個NVIDIA NVLink,GPU之間的雙向帶寬高達900GB/s。若以每個 NVIDIA H100 GPU 單價 4 萬美元測算,DGX H100 的 GPU 價值量為32 萬美元,為 AI 服務器中的最大增量。
(2)硬盤:AI 服務器 NAND 數據存儲需求提升 3 倍。AI 服務器的高吞吐量及訓練模型的高參數量級亦推升 NAND 數據存儲需求。美光估計,AI 服務器中NAND 需求量是傳統服務器的 3 倍。一臺 DGX H100 中,SSD 的存儲容量達 30TB。
(3)內存:AI 服務器 DRAM 數據存儲需求提升 8 倍,HBM 需求快速提升。以 HBM 為主要代表的存算一體芯片能夠通過 2.5D/3D 堆疊,將多個存儲芯片與處理器芯片封裝在一起,克服單一封裝內帶寬的限制、增加帶寬、擴展內存容量、并減少數據存儲的延遲。根據公眾號全球 SSD,三星 2021 年 2 月與 AMD 合作開發 HBM-PIM,將內存和 AI 處理器合而為一,在 CPU 和 GPU 安裝 HBM-PIM,顯著提高服務器運算速度。2023 年開年后,三星高帶寬存儲器(HBM)訂單快速增加。SK 海力士亦在 2021 年 10 月成功開發出 HBM3,并于 2022 年 6 月開始量產,在 2022 年第三季度向英偉達進行供貨。同時,美光估計,AI 服務器中 DRAM需求量是傳統服務器的 8 倍。如在一臺 DGX H100 中,內存容量達 2TB。
(4)PCB:AI 服務器 PCB 明確受益 AI 算力提升。目前普通服務器需要 6-16層板和封裝基板,而 AI 服務器等高端服務器主板層數則達 16 層以上,背板層數超過 20 層。且除 GPU 外,服務器中主板、電源背板、硬盤背板、網卡、Riser卡等核心部分均需使用 PCB 板進行數據傳輸。服務器出貨量的增加將推動 PCB需求量的提升。
(5)先進封裝:高制程芯片設計成本與制造成本均呈現指數型的增長趨勢,Chiplet 等先進封裝應運而生。隨著制程的提升,芯片成本的提升呈現指數型增長。以芯片設計為例,根據 UCIE 白皮書,28nm 制程的芯片設計成本約 0.51 億美元,但當制程提升至 5nm 時,芯片設計成本則快速升至 5.42 億美元,成本提升近十倍,先進制程的推進速度愈加緩慢。因此在 HPC 高性能計算領域,Chiplet 的重要性持續提升。
目前,以 CoWoS 為代表的高性能計算先進封裝產能緊缺,制約 GPU 產品出貨。英偉達 A100、H100 GPU 均采用臺積電 CoWoS 先進封裝工藝。而根據科創板日報與臺灣電子時報,英偉達將原定今年 Q4 的先進封裝 CoWoS 產能,改為 Q2-Q4 平均分配生產,訂單生產時間較原計劃大大提前。目前,臺積電 CoWoS封測產能供不應求,部分訂單已外溢日月光、矽品與 Amkor、聯電等。以 CoWoS 為代表的先進封裝技術產能緊缺,已成為制約 GPU 生產的關鍵環節。
-
amd
+關注
關注
25文章
5479瀏覽量
134304 -
gpu
+關注
關注
28文章
4754瀏覽量
129069 -
AI芯片
+關注
關注
17文章
1894瀏覽量
35103
原文標題:全球GPU呈現“一超一強”競爭格局
文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論