InfiniBand(直譯為“無限帶寬”技術,縮寫為IB)是一個用于高性能計算的計算機網絡通信標準,是世界領先的超級計算機的互連首選。基于NVIDIA InfiniBand的端到端網絡可實現極低的延遲,以及高數據吞吐量和傳輸速率。
InfiniBand網絡主要用于高性能計算(HPC)場景,通過高速的InfiniBand技術,將業(yè)務負載由單機運行轉化為基于多機協作的高性能計算集群。采用了InfiniBand網絡技術,使得高性能集群的性能得以進一步地釋放和優(yōu)化。
作為未來算力的基本單元,高性能的數據中心也越來越多地采用InfiniBand網絡方案,尤其是在超算中心中應用最為廣泛。
本文中出現的與NVIDIA產品相關的圖片或視頻(完整或部分)的版權均歸NVIDIA Corporation所有。
01
NVIDIA Quantum-2 InfiniBand平臺:400Gb/s NDR InfiniBand網絡互連
NVIDIA所提供的InfiniBand系列產品主要包括網卡、DPU、交換機以及LinkX線纜和光模塊,速率從100Gb/s EDR到200Gb/s HDR再到最新的400Gb/s NDR。NVIDIA最新發(fā)布的Quantum-2 InfiniBand平臺繼續(xù)創(chuàng)造高性能網絡的更高紀錄,包括NVIDIA Quantum-2交換機、ConnectX-7網卡、BlueField-3 DPU、LinkX線纜和光模塊,一同構成了面向新一代高性能計算、人工智能、機器學習、大數據、云計算、Web 3.0和存儲平臺的完整400Gb/s NDR InfiniBand網絡互連基礎設施。
NDR InfiniBand憑借其最高的數據吞吐量、極低的延遲和智能的網絡計算加速引擎,可為要求最苛刻的計算和數據應用提供世界領先的性能和可擴展性。
NVIDIA Quantum-2 InfiniBand平臺不但能夠實現GPU Direct RDMA對AI業(yè)務至關重要的技術。其中BlueField-3 DPU增加了DPA 引擎(Data-Path Accelerator)來對特定流量進行編程和加速。ConnectX-7 VPI系列IB網卡對各種通信模型基于網絡的計算進行了專門優(yōu)化,提高了All reduce 和 All-to-All等通信時的通信效率。憑借單端口每秒400Gbps的高吞吐量,NVIDIA Quantum-2 InfiniBand將端口速率提高一倍,網絡物理端口數量增加1.5倍。Quantum-2平臺的系統(tǒng)容量提升至上代產品的5倍,支持的數據中心的規(guī)模提升了6.5倍,而數據中心網絡的能耗則降低了36%。
NVIDIA Quantum-2的盒式交換機,芯片采用7nm工藝,包含570億個晶體管,配有64個400Gbps端口,通過Split線纜以提供多達128個200Gbps端口。交換機的雙向總吞吐量為51.2Tb/s,具有超過每秒665億數據包的標志性包轉發(fā)能力。同時,Quantum-2平臺提供不同端口數的模塊化交換機系統(tǒng),可以支持多達2048個,系統(tǒng)容量超出上一代5倍。基于NVIDIA Quantum-2交換機ASIC的盒式交換機和模塊化交換機系統(tǒng)提供了全面的InfiniBand交換互連接解決方案,支持各種InfiniBand網絡拓撲,包括Fat Tree、DragonFly+、多維 Torus等。
NVIDIA Quantum-2平臺在主機端提供兩個網絡選項,ConnectX-7網卡和BlueField-3 DPU。ConnectX-7基于7nm工藝,包含80億個晶體管,其數據傳輸速率是上一代的兩倍,通過RDMA、GPU Direct Storage、GPU Direct RDMA和網絡計算加速應用,充分發(fā)揮網絡的能力。BlueField-3采用7nm工藝,包含220億個晶體管,提供16個64位ARM CPU,基于數據IO的業(yè)務部署,提供加速、卸載和隔離的能力,優(yōu)化了數據中心基礎設施的架構。
為了打造完整的端到端400Gb/s InfiniBand 基礎架構,NVIDIA Quantum-2還提供了LinkX解決方案,為用戶提供一系列不同類型的400Gb/s DAC線纜(高速銅纜)、AOC線纜(有源光纜)以及光模塊產品,以構建復雜的基礎設施,可以為選擇的拓撲結構提供最大的靈活性,針對不同的連接場景,提供全套的線纜模塊方案。
NVIDIA LinkX擁有完善的產品體系,可提供不同的方案組合(光模塊、DAC/AOC直連以及分支高速線纜),速率包括EDR(100G)、HDR(200G)和NDR(400G),外形尺寸涵蓋QSFP28、QSFP56以及OSFP。
LinkX產品在NVIDIA“端到端”網絡系統(tǒng)中發(fā)揮了最佳的效果和獨特的功能,除了滿足InfiniBand貿易協會 (IBTA) 標準外,LinkX產品在出廠之前完成了100% 真實業(yè)務測試,確保線纜模塊的品質,從底層支持InfiniBand網絡實現高性能。NVIDIA LinkX產品的低誤碼率、低延時、低功耗和高可靠性等特點可以與NVIDIA交換機和網卡產品完美適配,在具有嚴格要求的超級計算機和超大規(guī)模系統(tǒng)中提供了最優(yōu)的傳輸效率。
02
構建InfiniBand網絡出現的常見問題
目前市面上有部分客戶在構建InfiniBand網絡時使用了第三方的光模塊、高速線纜等連接件產品,然而卻在實際應用中出現了大量的問題,主要表現為:
1、網絡鏈路不穩(wěn)定:出現鏈路震蕩現象
2、傳輸延時高:在推理、訓練等業(yè)務負載下,大大延長訓練周期
3、功耗高:產品發(fā)熱異常,嚴重時甚至可能損壞設備
4、產品質量良莠不齊:經常出現大批量無法使用的情況
納多德NADDOD——作為NVIDIA網絡產品Elite Partner (精英級別合作伙伴),致力于為客戶提供高品質高性能光網絡解決方案,在為客戶搭建高性能網絡方案的過程中,收到不少因使用第三方InfiniBand連接件而出現售后問題的反饋,導致用戶網絡延遲甚至中斷,額外增加了客戶處理售后問題所花費的時間成本。
結合大量真實案例中出現的情況,納多德NADDOD建議在InfiniBand網絡中使用的連接件(DAC/AOC線纜、光模塊),一定要選用NVIDIA LinkX原廠線纜,以最大程度地保證連接件與設備之間的適配性,以及保障網絡的穩(wěn)定傳輸與高可靠性。
審核編輯 黃昊宇
-
NVIDIA
+關注
關注
14文章
4986瀏覽量
103047 -
InfiniBand
+關注
關注
1文章
29瀏覽量
9197 -
英偉達
+關注
關注
22文章
3776瀏覽量
91082
發(fā)布評論請先 登錄
相關推薦
評論