在人工智能領域,英偉達作為行業領軍者,推出了兩種主要的GPU版本供AI服務器選擇——NVLink版(實為SXM版)與PCIe版。這兩者有何本質區別?又該如何根據應用場景做出最佳選擇呢?讓我們深入探討一下。
** NVLink版的服務器**
SXM架構,全稱Socketed Multi-Chip Module,是英偉達專為實現GPU間超高速互連而研發的一種高帶寬插座式解決方案。這一獨特的設計使得GPU能夠無縫對接于英偉達自家的DGX和HGX系統。這些系統針對每一代英偉達GPU(包括最新款的H800、H100、A800、A100以及之前的P100、V100等型號)配備了特定的SXM插座,確保GPU與系統之間實現最高效率的連接。舉例來說,一張展示8塊A100 SXM卡在浪潮NF5488A5 HGX系統上并行工作的圖片,直觀展示了這種強大的整合能力。
在HGX系統主板上,8個GPU通過NVLink技術進行了緊密耦合,構建出前所未有的高帶寬互聯網絡。具體來說,每一個H100 GPU會連接至4個NVLink交換芯片,從而實現GPU之間的驚人傳輸速度——高達900 GB/s的NVLink帶寬。此外,每個H100 SXM GPU還通過PCIe接口與CPU相連,確保任意GPU產生的數據都能快速傳送到CPU進行處理。
進一步強化這種高性能互聯的是NVSwitch芯片,它把DGX和HGX系統板上的所有SXM版GPU串聯在一起,形成了一個高效的GPU數據交換網絡。未削減功能的A100 GPU可達到600GB/s的NVLink帶寬,而H100更是提升至900GB/s,即便是針對特定市場優化過的A800、H800也能保持400GB/s的高速互連性能。
談及DGX和HGX的不同之處,NVIDIA DGX可視為出廠預裝且高度可擴展的完整服務器解決方案,其在同等體積內的性能表現堪稱業界翹楚。多臺NVIDIA DGX H800可通過NVSwitch系統輕松組合,形成包含32個乃至64個節點的超級集群SuperPod,足以應對超大規模模型訓練的嚴苛需求。而HGX則屬于原始設備制造商(OEM)定制整機方案。
** PCIe版的服務器**
相比于SXM版GPU的全域互聯,PCIe版GPU的互聯方式更為傳統和受限。在這種架構下,GPU僅僅通過NVLink Bridge與相鄰的GPU實現直接連接,如圖所示,GPU 1僅能直接連接至GPU 2,而非直接相連的GPU(如GPU 1與GPU 8)間的通信則必須通過較慢的PCIe通道來實現,這過程中還需要借助CPU的協助。目前最先進的PCIe標準提供的最大帶寬僅為128GB/s,遠不及NVLink的超高帶寬。
然而,盡管在GPU間互聯帶寬上PCIe版稍遜一籌,但單就GPU卡本身的計算性能而言,PCIe版與SXM版并無顯著差異。對于那些并不極端依賴于GPU間高速互連的應用場景,如中小型模型訓練、推理應用部署等,GPU間互聯帶寬的高低并不會顯著影響整體性能。
對比A100 PCIe與A100 SXM各項參數的圖表顯示兩者的計算核心性能并無太大差別。
** 該如何選擇?**
PCIe版GPU的優勢主要體現在其出色的靈活性和適應性。對于工作負載較小、追求GPU數量配置靈活性的用戶,PCIe版GPU無疑是個絕佳選擇。例如,某些GPU服務器僅需配備4張或者更少的GPU卡,此時采用PCIe版即可方便地實現服務器的小型化,可輕松嵌入1U或2U服務器機箱,同時降低了對數據中心機架空間的要求。
此外,在推理應用部署環境中,我們經常通過虛擬化技術將資源拆分和細粒度分配,實現CPU與GPU的一對一匹配。在這個場景下,PCIe版GPU因其較低的能耗(約300W/GPU)和普遍兼容性而受到青睞。而相比之下,SXM版GPU在HGX架構中的功率消耗可能達到500W/GPU,雖然犧牲了一些能效比,卻換取了頂級的互聯性能優勢。
綜上所述,NVLink版(SXM版)GPU與PCIe版GPU各自服務于不同的市場需求。對于對GPU間互連帶寬有著極高需求的大規模AI模型訓練任務,SXM版GPU憑借其無可匹敵的NVLink帶寬和極致性能,成為了理想的計算平臺。而對于那些重視靈活性、節約成本、注重適度性能和廣泛兼容性的用戶,則可以選擇PCIe版GPU,它尤其適合輕量級工作負載、有限GPU資源分配以及各類推理應用部署場景。
企業在選購英偉達AI服務器時,務必充分考慮當前業務需求、未來發展規劃以及成本效益,合理評估兩種GPU 服務器版本的優劣,以便找到最適合自身需求的解決方案。最終的目標是在保證計算效能的同時,最大化投資回報率,并為未來的拓展留足空間。
審核編輯:劉清
-
NVIDIA
+關注
關注
14文章
4986瀏覽量
103046 -
PCIe
+關注
關注
15文章
1239瀏覽量
82648 -
交換芯片
+關注
關注
0文章
81瀏覽量
11015 -
英偉達
+關注
關注
22文章
3776瀏覽量
91081 -
GPU芯片
+關注
關注
1文章
303瀏覽量
5812
原文標題:英偉達AI服務器NVLink版與PCIe版的差異與選擇
文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論