很多年前,我們曾開過一個玩笑,認為未來的計算引擎看起來更像是 GPU 卡,而不是我們當時所知道的服務器那樣。該信念的核心原則之一是,考慮到有多少 HPC 和 AI 應用程序受內存帶寬(而不是計算容量甚至內存容量)的約束,某種形式的極其接近、非常高帶寬的內存將適用于所有方式計算芯片:包括但不限于GPU、CPU、FPGA、矢量引擎等等。 事實證明,這在很大程度上是正確的,至少在另一種存儲被發明之前是這樣。
如果 FPGA——更準確地說,我們稱之為 FPGA 的混合計算和網絡復合體,即使它們不僅僅是可編程邏輯塊——要競爭計算工作,它就必須擁有某種形式的高帶寬主存儲器與它緊密結合。這就是賽靈思談論其高端 Versal HBM 器件的原因,該器件自 2018 年以來,一直在賽靈思路線圖中有所暗示,并將在大約 9 個月后上市。
Virtex UltraScale+ 高級產品線經理 Mike Thompson Xilinx 告訴The Next Platform. 這比預期晚了大約 6 個月——很難說許多供應商路線圖上 X 軸的變幻莫測,因為它們離 Y 軸更遠,但請自行估計:
Xilinx 與其他幾家設備制造商一起開辟了高帶寬主存儲器的道路,這不是作為一項科學實驗,而是因為網絡、航空航天和國防、電信和金融服務行業中的許多延遲敏感的工作負載根本無法通過使用標準 DRAM 或什至嵌入在 FPGA 邏輯塊中的非??斓?SRAM完成。 高帶寬內存最初有兩種用于數據中心計算引擎的形式,但市場已經圍繞其中一種發力。 來自英特爾和美光科技的稱為混合內存立方體 (HMC) 的 MCDRAM 變體部署在英特爾“Knights Landing”至強融核設備上,這些設備本身可以用作計算引擎,也可以用作普通 CPU 的加速器。Xeon Phi 可以通過 16 GB 的 HMC 內存向芯片上高度矢量化的 Atom 內核提供略高于 400 GB/秒的內存帶寬,這在當時非常重要。
這種 HMC 變體還用于富士通的 Sparc64-IXfx 處理器,該處理器針對超級計算機,具有 32 GB 的容量,并在其四個內存庫中提供 480 GB/秒的帶寬。 但是隨著富士通為世界上最強大的機器“Fugaku”設計基于 A64FX Arm 的處理器后,富士通轉而使用更常見的堆疊并行 DRAM 的第二代高帶寬內存 (HBM2) 變體,這是最初由 AMD 和內存制造商三星和 SK 海力士創建,并首次用于“Fiji”一代 Radeon 顯卡。大約同期,英特爾推出帶有 MCDRAM 的 Xeon Phi 芯片的同時。
富士通在芯片上放置了四個通道,可提供 32 GB 的容量和非??捎^的 1 TB/秒的帶寬——比 CPU 插槽提供的帶寬高出一個數量級左右。 鑒于需要比集成 SRAM 提供更高帶寬和更大容量,賽靈思在其上一代 Virtex UltraScale+ FPGA 上放置了 16 GB HBM2 內存,提供 460 GB/秒的帶寬。正如您所看到的,這大約是當時的 flops-heavy CPU 計算引擎提供的性能的一半,您將再次看到這種模式。
速度與工作負載的需求和客戶需要的價格點相平衡。那些購買強大 FPGA 的人同樣需要高速 SerDes 進行信號傳輸,因此他們必須權衡網絡和內存,以保持在對用例有意義的熱范圍內。 Nvidia 已將 HBM容量和帶寬發揮到極致,因為它在其 GPU 加速器上提供了三代 HBM2 內存,當前的“Ampere”設備具有最大 80 GB 的容量,產生了令人印象深刻的 2 TB/秒的帶寬。而這種對速度和容量的需求是由貪婪的人工智能工作負載驅動的,這些工作負載有爆炸式的數據集需要“咀嚼”。
在混合 CPU-GPU 系統上運行的 HPC 代碼可以使用比許多 AI 代碼更小的內存占用,這是幸運的,但如果內存可用,情況就不會如此。所有應用程序和數據集最終都會擴展到消耗所有容量和帶寬。 當涉及到 HBM 內存時,一些設備適合這兩種極端情況的中間。NEC四年前推出的“Aurora”矢量加速器擁有 48 GB 的 HBM2 內存和 1.2 TB/秒的帶寬,擊敗了當時 Nvidia 的“Volta”一代 GPU 加速器。但今年推出的更新版 Ampere 只是在 HBM2 容量和帶寬方面擊敗了其他一切。英特爾剛剛宣布,其未來的“Sapphire Rapids” 至強處理器SP,現在預計,明年將有一個變體,支持HBM2內存,當然,英特爾的 HPC GPU 加速器也將擁有 HBM2 內存堆棧。我們不知道英特爾的 CPU 和 GPU 在 HBM2 頻譜上的最終位置,但如果英特爾真的認真對待競爭,它可能介于 CPU 的極端和 GPU 的極端之間。
Xilinx 即將推出的 Versal HBM 器件也采取了中間路線,其原因與 Virtex UltraScale+ 器件在 2016 年 11 月發布時所做的相同。但賽靈思還加入了其他 HBM 創新,在每單位容量和帶寬上比其他創新更進一步減少延遲。 Versal HBM 設備基于我們在 2020 年 3 月詳細介紹的 Versal Premium 而設計。Versal Premium 復合體有四個超級邏輯區域,或賽靈思所稱的 SLR,其中一個 SLR 被替換為兩組 8 堆棧的 HBM2e 存儲器。每個堆棧最多有 16 GB,總共 32 GB,跨 SKU 的內存有 8 GB、16 GB 和 32 GB,具有不同的計算量和互連量。
緊鄰交換的 HBM 存儲器的 SLR 嵌入了一個 HBM 控制器和一個 HBM 開關——兩者都是由賽靈思設計的——Thompson 說這些開關相對較小。這個 HBM 開關是一個關鍵的區別。 “HBM 面臨的一個挑戰是您可以從任何內存端口訪問每個內存位置,我們在該設備上有 32 個內存端口,”Thompson 解釋說?!笆袌錾系钠渌a品也沒有內置開關,這意味著他們必須花費大量的軟邏輯來創建自己的開關,這會占用這些設備中的大部分邏輯,并且介于 4瓦和 5 瓦的功率。對于使用 HBM 的其他設備,沒有交換機會導致大量開銷和額外延遲,因為內存映射最終會比應有的更煩人?!?還有一部分 FPGA 邏輯與 SerDes 和許多其他加速器一起被硬編碼在晶體管中以提高效率。Versal HBM 框圖如下所示:
與 Versal Premium 設備一樣,Versal HBM 設備具有一些基于 Arm 內核的標量處理引擎、一些實現 FPGA 功能及其內部和各種存儲器的可編程邏輯,以及為機器學習、成像進行混合精度數學運算的 DSP 引擎和信號處理應用。與之相連的是 HBM 內存和大量硬編碼 I/O 控制器和 SerDes,它們使數據以閃電般的速度進出這些芯片。
FPGA 客戶需要在此類設備上使用 HBM 存儲器的原因之一是,它具有如此多的不同 I/O,加起來如此之多的總帶寬。PCI-Express 5.0 控制器支持 DMA、CCIX 和 CXL 協議以實現內存延遲,總帶寬為 1.5 Tb/秒;芯片到芯片 Interlaken 互連具有集成的前向糾錯 (FEC) 加速器,可提供 600 Gb/秒的總帶寬。加密引擎也像 PCI-Express 和 Interlaken 控制器一樣采用硬編碼,支持 128 位和 256 位的 AES-GCM 以及 MACsec 和 IPsec 協議,并提供 1.2 Tb/秒的聚合帶寬,并且可以進行加密400 Gb/秒以匹配 400 Gb/秒以太網端口的線路速率。
硬編碼以太網控制器可以驅動 400 Gb/秒端口(帶有 58 Gb/秒 PAM4 信號)和 800 Gb/秒端口(帶有 112 Gb/秒 PAM4 信號)以及任何低至 10 Gb/秒的以太網步驟使用傳統的 32 Gb/秒 NRZ 信令; 總而言之,該芯片的以太網總帶寬為 2.4 Tb/秒。
這個 Versal HBM 設備是 I/O 上的帶寬野獸,對于某些應用程序,這意味著它需要成為內存帶寬野獸來平衡它。Versal HBM 設備比它將取代的 Virtex UltraScale+ HBM 設備更像野獸,并在 HBM 內存容量和帶寬之外的許多不同指標上證明了這一點。這是通過架構變化和從 16 納米工藝到 7 納米的轉變(感謝晶圓廠合作伙伴臺灣半導體制造公司)實現的。
Thompson 表示,Versal HBM 設備具有相當于 14 個 FPGA 的邏輯,而 HBM 具有相當于 32 個 DDR5-6400 DRAM 模塊的帶寬。 Xilinx 估計,與四個相同容量的 DDR5-6400 模塊相比,該器件具有 8 倍的內存帶寬和 63% 的功耗:
那么,Versal HBM 器件與之前的 Xilinx 器件和 Intel Agilex 器件以及 Intel 和 AMD CPU 相比如何?好吧,在以 350 億美元收購 Xilinx 的過程中,您可以忘記將 AMD Epyc CPU 與AMD 進行任何比較。
Thompson 也沒有與英特爾 ACAP 等效設備進行任何比較。但他確實帶來了一些圖表,將兩路英特爾“冰湖”至強 SP 系統與 Virtex HBM 和 Versal HBM 設備進行對比,如下所示:
在上圖左側的臨床記錄推薦引擎測試中,僅使用 CPU 的系統需要幾秒到幾分鐘才能運行,但舊的 Virtex HBM 設備能夠容納兩倍大的數據庫,因為它的速度是它可以將數據流式傳輸到設備中,并且在提出治療建議方面的速度提高了 100 倍。
Versal HBM 設備擁有兩倍大的數據庫,并且以兩倍的速度導出建議。右側的實時欺詐檢測基準也具有相同的相對性能。 Thompson 說,這是考慮如何使用 Versal HBM 設備的另一種方式。
假設您想構建一個內置機器學習智能的下一代 800 Gb/秒防火墻。如果您想使用只能驅動 400 Gb/秒端口的 Marvell Octeon 網絡處理器 SoC,您將需要其中的兩個,而且他們沒有機器學習。因此,您將需要兩個 Virtex UltraScale+ FPGA 來將該功能添加到 Octeons 對中。還需要十幾個 DDR4 DRAM 模塊才能提供 250 GB/秒的內存吞吐量。像這樣:
據推測,Versal HBM 系統不僅在設備更少、吞吐量更大和功耗更低方面表現更好,而且購買成本也更低。我們不知道,因為 Xilinx 沒有給出定價。如果沒有,它肯定必須提供更好的性價比和更好的每瓦特性能,否則玩這個游戲根本沒有意義。
編輯:黃飛
評論
查看更多