?商用高性能計算處理器市場主要被NVIDIA、AMD和Intel3家公司長期占據,在面向E級計算 的 高 性 能 處 理 器 中,AMD 最 新 的Instinct MI250X處理器雙精度浮點運算能力已經高達95.7TFlops,NVIDIA和Intel最新發布的高性能處理器峰值性能也均達到了數十 TFlops。 ?
本文主要分析和探討國際上面向 E 級計算的先進高性能處理器的核心運算架構,包括 Fujitsu A64FX、NVIDIA H100、AMD MI250X 和 Intel PonteVecchio 4款高性能處理器,著重關注運算資源組織結構、數據和指令級并行方式、領域專用加速結構 DSA、支持數據類型和算力等方面,并總結和展望主流高性能處理器的運算架構研究發展現狀和趨勢,以期為國內自主研發面向后 E 級計算的高性能處理器提供技術參考和借鑒。
1、Fujitsu A64FX
Fujitsu A64FX 是由富士通(Fujitsu)在2018年發布的,主要用于構建日本原計劃研發的首臺 E級計算機 “后 京”(POST-K)[6],后 改 名 為 “富 岳”(Fugaku)并于2020年6月發布。目前,“富岳”超算在全球高性能計算機 TOP500榜單中排名第2,集成的 A64FX處理器芯片數量高達158976片,全機峰值性能為0.537212EFlops,Linpack實測性能為0.44201EFlops,效率為82.28%。
A64FX處理器結構框圖如圖1所示,分成4個處理核心存儲組 CMG(CPU MemoryGroup),每個 CMG 包含13個同構核心、L2Cache和存儲控制器,其中12個核心為計算核心,1個為輔助核心,用于運行操作系統和I/O 操作,全片共52個核心。每個 CMG 集成8GB 容量的 HBM2存儲器,全片總容量為32GB,總帶寬為 1024GB/s。
片上還集成了 PCIe3.016x接口和富士通特有的TofuD互連網絡接口與路由器,這些外接口與4個CMG 通過片上網絡 NoC(NetworkonChip)實現互連和通信。
A64FX 處理器采用臺積電7nm 工藝和 CoWoS封裝實現,集成了87.86億晶體管,最高運行頻率為2.2GHz,峰值性能為3.3792TFlops,功耗為200W。
2、NVIDIA H100
NVIDIA 在 HPC 和 人 工 智 能 AI商用處理器市場占比非常高,一直是圖形處理器 GPU領域的佼佼者。TOP500最新榜單排行前20的超算系統中有11臺采用了 NVIDIA 的 GPU 實現。目前這些超算算力主要由前兩代 GPU 產品 V100和A100提供。
NVIDIA 于2022年3月發布了面向 HPC 和AI的最新款高性能處理器 H100GPU。該處理器采用 新 一 代 HOPPER 架 構,基 于 上 一 代 GPUA100的 Ampere架構主要進行了如下擴展:
(1)集成第4代張量核心(TensorCore);
(2)新增動態規劃算法加速指令 DPX;
(3)流多處理器 SM內 CUDA核 數 量 翻 倍;
(4)與GPC相對應,強化線程塊簇特征;
(5)新增 TMA引 擎,增 強 異 步 數 據 傳 輸 功 能;
(6)定 制Transformer引 擎,以 加 速 Transformer 模 型 訓練;
(7)更新換代 HBM3、PCIe5.0和第4代 NVLink等存儲和外接口。
H100的結 構 框 圖如 圖 2 所 示,全 片 實 際(非 GH100架構滿配)集成了132個 SM,每2個SM 構成一個 TPC(TextureProcessingCluster),9個或8個 TPC構成一個 GPC,全片共8個 GPC。 ?
每個SM 包含128個 FP32(單精度浮點)CUDA核和 4 個 TensorCore,全片共 16896 個 CUDA核,528個 TensorCore。 ?
H100GPU 片上集成了50MB的L2Cache,5個16GB容量的 HBM3,存儲總容量為80GB,總訪存帶 寬 為 3 TB/s。此 外,片 上 還 集 成 了 PCIe 5.0 16x和第 4 代 NVLink 外接口,支 持 與 CPU或 GPU 高速互連。 ?
H100GPU 采 用 臺 積 電 為 NVIDIA 定 制 的4N 工藝和 CoWOS封裝實現,全片集成了800億個晶體管,運行頻率為1.776GHz(根據雙精度浮點峰值性能和全片集成運算部件數量推算得到),峰值性能為 60.0TFlops,TDP功耗為700 W。
3、AMD MI250X
為進一步加強在 HPC領域的影響力,AMD將旗下通用 GPUGP拆分成 RDNA(RadeonDNA)和 CDNA(ComputeDNA)架構,前者主要面向實時游戲和圖形處理,后者主要面向 HPC應用。 ?
CDNA 架構目前已經發展到第2代 MI200,代表高性能處理器是 MI250X發布于2021年11月,并用于構建美國E級超算“前線”(Frontier)?!扒?線”超 算 發 布 于 2022 年 5 月 30日,在全球高性能計算機 TOP500榜單中排名第1,集成的 MI250X 處理器芯片數量高達36992片,全機峰值性能為1.68565EFlops,Linpack實測性能為1.102EFlops,效率為65.38%。
MI250X處理器采用 AMD 特有的先進3D封裝技 術 集 成 2 個 MI200 GCD(GraphicsComputeDie),2個 GCD 間通過無盡互連IF(Infinit Fabric)接口直連實現高帶寬通信。MI250X 處理y器中單個 GCD(非 MI200滿配)結構框圖如圖3所示,包含4個計算引擎 CE(ComputeEngine),每個 CE內含27或28個計算單元 CU(ComputeUnit)。
MI250X 處 理 器 全 片 2 個 GCD 共 220 個CU;集成了16 MB 的 L2Cache;8個16GB 容量的 HBM2E,總容量為128GB、總帶寬為3.2TB/s;8路IFLink或者6路IFLink加PCIe4.0接口(2路IF接口可重構配置成 PCIE4.0接口),支持GPU 和 CPU 多種可擴展高速互連。
MI250X處理器采用臺積電 N6工藝實現,全片集成了 582 億個晶體管,運行頻率最高為 1.7GHz,峰值性能為 95.7TFlops,是首個峰值性能接近 100 TFlops的 高 性 能 處 理 器,TDP 功 耗 為560 W。
4、Intel PonteVecchio
Intel一直致力于重新贏得 HPC 領域的高性能處理器領導者地位,其精心打造的面向 E 級計算的高性能處理器 PonteVecchio于2021年8月在Intel體系結構日上發布,2023年1季度已上市。PonteVecchio處理器將用于構建2臺美國 E級計 算 機 “極 光”(Aurora)和 “酋 長 巖”(ElCaptain),并為其提供主要算力,預計“極光”的超算峰值性能為1.0EFlops、“酋長巖”的超算峰值性能為2.0EFlops。
PonteVecchio處理器采用 X HPC架構實現,結構框圖如圖4所示。
PonteVecchio處理器通過多種先進封裝集成2個同構的 Stack,Stack 間通過高速直連接口互連;全片共8個 Slice,每個 Slice包含16個 X 核心,總計128個 X 核心;全片集成了144 MB的共享 L2Cache;8個 HBM2E,總帶寬超過5TB/s;16路 X Link,支持多 CPU 間高速直連,總帶寬超過2TB/s;此外還集成了 PCIe5.0接口。
PonteVecchio處理器采用 5 種先進工藝實現,包括臺積電5nm、7nm 和Intel 7nm 等,全片多 達 47 個 Tile (Die),通 過 Foveros和 EMIB等多種先進封裝技術集成。全片集成了超過1000億個晶體管,運行頻率為1.373GHz(根據單精度浮點峰值性能和全片集成運算部件數量推算得到),峰值性能超過45.0TFlops(雙精度浮點與單精度浮點相同),功耗暫無官方數據。
5、小結
4款面向 E級計算的高性能處理器參數與對比統計信息如表1所示,4款處理器均采用臺積電7nm 或更先進工藝,集成密度高、晶體管數目龐大,通過先進封裝集成高帶寬存儲器 HBM 提供TB/s級訪存帶寬,并采用商用大容量存儲顆粒。
工作頻 率 方 面,A64FX 的 較 高,達 到 了 2.2GHz,H100 和 MI250X 的 均 在 1.7 GHz 左 右,PonteVecchio的最低為1.373GHz; ?
峰值性能方面,A64FX 是唯一峰值性能低于10.0TFlops的處理器,其他3款的均超過45.0TFlops,MI250X的甚 至 高 達 95.7 TFlops; ?
功 耗 方 面,H100 和MI250X的均超過 500 W,PonteVecchio的無官方數據,預計也會超過500W。 ?
先進封裝技術方面,均采用了2.5D 或3D 封裝,MI250X 還通過 EFB封裝集成了2個 GCD,而 PonteVecchio采用 Foveros+EMIB 封裝集成超過47個 Die,并通過多種先進工藝分別實現了計算 Die、存儲 Die和互連 Die。? ?
審核編輯:劉清
評論
查看更多