InfiniBand(IB)是由InfiniBand貿易協會(IBTA)建立的先進計算機網絡通信標準。它在高性能計算(HPC)中的廣泛采用歸功于它能夠為網絡傳輸提供卓越的吞吐量、帶寬和低延遲。
InfiniBand是計算系統內部和外部的關鍵數據連接。無論是通過直接鏈路還是通過網絡交換機進行互連,InfiniBand都有助于實現服務器到存儲和存儲到存儲數據傳輸的高性能網絡。InfiniBand網絡可擴展性允許通過交換網絡進行水平擴展,以滿足多樣化的網絡需求。隨著科學計算、人工智能(AI)和云數據中心的快速發展,InfiniBand在端到端高性能網絡的HPC超級計算應用中越來越受到青睞。
InfiniBand在超級計算機和HPC數據中心中的普及
2015年6月,InfiniBand在全球最強大的超級計算機500強名單中占據了驚人的51.8%,同比增長了15.8%。
在2022年6月的Top500榜單中,InfiniBand網絡再次占據了超級計算機互連設備的領先地位。與之前的榜單相比,InfiniBand網絡展現了在數量和性能方面的優勢。主要趨勢包括:
基于InfiniBand的超級計算機以189個系統數量遙遙領先。
基于InfiniBand的超級計算機以59臺設備數量在前100個系統中占據主導地位。
英偉達(NVIDIA)GPU和網絡產品,尤其是邁絡思(Mellanox)HDR Quantum QM87xx交換機和BlueField DPU,在超過三分之二的超級計算機中占據了主導互連的地位。
除了傳統的HPC應用之外,InfiniBand網絡還廣泛用于企業級數據中心和公有云。例如,領先的企業超級計算機英偉達(NVIDIA)Selene和Microsoft的Azure公有云利用InfiniBand網絡提供卓越的業務性能。
在2023年11月的最新Top500榜單中,InfiniBand保持著領先位置,突顯了其持續增長的趨勢。InfiniBand在Top500排行榜中備受關注,主要是因為它具有卓越的性能優勢。
InfiniBand網絡的優勢
InfiniBand技術被認為是面向未來的高性能計算(HPC)標準,在超級計算機、存儲甚至LAN網絡的HPC連接方面享有很高的聲譽。InfiniBand技術擁有眾多優勢,包括簡化管理、高帶寬、完全CPU卸載、超低延遲、集群可擴展性和靈活性、服務質量(QoS)、SHARP支持等。
輕松的網絡管理
InfiniBand代表了專為軟件定義網絡(SDN)打造的開創性網絡架構,并由子網管理器進行監督。子網管理器負責配置本地子網,確保網絡無縫運行。為了管理流量,所有通道適配器和交換機都必須實現與子網管理器協作的子網管理代理(SMA)。在建立或切斷鏈接時,每個子網至少需要一個子網管理器進行初始設置和重新配置。仲裁機制用于指定主子網管理器,其他子網管理器在備用模式下運行。在備用模式下,每個子網管理器都會保留備份拓撲信息并驗證子網的運行狀態。如果主子網管理器發生故障,備用子網管理器將接管控制權,從而保證子網管理不間斷。
更高的帶寬
自從InfiniBand問世以來,其網絡數據速率一直超過以太網,主要是因為它在高性能計算中的服務器互連中得到了廣泛應用,滿足了對更高帶寬的需求。在2014年早期,流行的InfiniBand速率是40Gb/s QDR和56Gb/s FDR。目前,更高的InfiniBand速率,例如100Gb/s EDR和200Gb/s HDR,已被全球眾多超級計算機廣泛采用。最新的OpenAI工具ChatGPT的推出促使企業考慮在其高性能計算(HPC)系統中部署具有400Gb/s NDR數據速率的先進InfiniBand網絡產品,包括InfiniBand NDR交換機和光纜。
每種InfiniBand速率類型的縮寫如下:
SDR-單數據速率,8Gbps。
DDR-雙倍數據速率,10Gbps/16Gbps。
QDR-四倍數據速率,40Gbps/32Gbps。
FDR-十四倍數據率,56Gbps。
EDR-增強型數據速率,100Gbps。
HDR-高動態范圍,200Gbps。
NDR-下一代數據速率,400Gbps。
XDR-極致數據速率,800Gbps。
高效的CPU卸載
CPU卸載是增強計算性能的一項關鍵技術,而InfiniBand網絡架構通過以下方式以最少的CPU資源促進數據傳輸:
整個傳輸層協議棧的硬件卸載。
內核繞行,零拷貝。
RDMA(遠程直接內存訪問),一種將數據從一臺服務器的內存直接寫入另一臺服務器的內存的過程,無需CPU參與。
利用GPUDirect技術是另一種選擇,它允許直接訪問GPU內存中的數據,并加速數據從GPU內存傳輸到其他節點。此功能可提高人工智能(AI)、深度學習訓練、機器學習等計算應用程序的性能。
低延遲
InfiniBand和以太網之間的延遲對比可以分為兩個主要組成部分。首先,在交換機層面上,以太網交換機在網絡傳輸模型中作為第2層設備運行,通常采用MAC表查找尋址和存儲轉發機制(某些產品可能采用InfiniBand的直通技術)。以太網交換機中,IP、MPLS、QinQ和其他處理等復雜服務會導致處理持續時間延長,延遲測量結果通常以微秒為單位(直通支持可能超過200ns)。相比之下,InfiniBand交換機簡化了第2層處理,僅依靠16位LID轉發路徑信息。此外,采用直通技術可將轉發延遲顯著降低到100ns以下,已經超過以太網交換機的速率。
如前所述,在網卡(NIC)層面,RDMA技術消除了網卡遍歷CPU進行消息轉發的需要。這種加速盡可能地減少了封裝和解封裝期間消息處理的延遲。通常,InfiniBand網卡的發送和接收延遲(寫入、發送)為600ns,而使用以太網的基于以太網TCP UDP應用程序的發送和接收延遲通常徘徊在10us左右。這導致InfiniBand和以太網之間的延遲差距超過10倍。
可擴展性和靈活性
InfiniBand網絡的一個重要優勢在于其能夠在單個子網中部署多達48,000個節點,形成一個龐大的第二層網絡。此外,InfiniBand網絡避開了ARP等廣播機制,從而避免了廣播風暴和相關的額外帶寬浪費。多個InfiniBand子網的連接可通過路由器和交換機實現,展示了該技術在支持各種網絡拓撲方面的多功能性。
對于較小規模的情況,建議使用2層胖樹拓撲結構,而對于較大規模的情況,可以選擇3層胖樹網絡拓撲結構。在特定規模之上,可以采用經濟高效的Dragonfly拓撲結構來進一步提升可擴展性。
服務質量(QoS)支持
在管理InfiniBand網絡時,如果各種應用程序共存于同一子網上,且具有不同的優先級要求,那么提供服務質量(QoS)就成為一個關鍵因素。QoS表示為不同的應用程序、用戶或數據流提供不同優先級服務的能力。在InfiniBand環境中,可以將高優先級應用程序分配給特定的端口隊列,從而確保這些隊列中的消息得到優先處理。
InfiniBand通過實施虛擬通道(VL)實現QoS。虛擬通道是共享公共物理鏈路的離散邏輯通信鏈路。每個VL能夠支持多達15個標準虛擬通道以及一個指定為VL15的管理通道。這種方法可以根據優先級對流量進行有效隔離,從而允許在InfiniBand網絡內優先傳輸高優先級應用程序。
穩定性和彈性
在理想情況下,網絡運行穩定且沒有故障。然而,現實情況中長期運行的網絡偶爾會出現故障。為了解決這些挑戰并確保快速恢復,InfiniBand采用了一種稱為自我修復網絡的機制,這是一種集成到InfiniBand交換機中的硬件功能。
NVIDIA Mellanox InfiniBand解決方案包括InfiniBand交換機、網卡和邁絡思(Mellanox)線纜等硬件組件,利用自我修復網絡實現從鏈路故障中快速恢復。這種基于硬件的功能能夠在驚人的1ms內恢復鏈路故障,比正常恢復時間快了5000倍。
優化的負載均衡
提高網絡利用率是高性能數據中心的一項關鍵要求。在InfiniBand網絡中,一種有效的實現方法是負載均衡。
負載均衡是一種路由策略,可以在多個可用端口之間分配流量。其中自適應路由是一個關鍵特性,可以確保流量在交換機端口之間均勻分布。這個特性在交換機上得到硬件支持,并由自適應路由管理器進行管理。
當自適應路由處于活動狀態時,交換機上的隊列管理器將監控所有組出口端口上的流量,均衡每個隊列上的負載,并將流量引導至未充分利用的端口。自適應路由可動態平衡負載,防止網絡擁塞并優化網絡帶寬利用率。
網絡計算技術-SHARP
InfiniBand交換機還具有SHARP網絡計算技術,該技術代表可擴展的分層聚合和縮減協議。SHARP是集成到交換機硬件中的軟件,是一個集中管理的軟件包。
通過將聚合通信任務從CPU和GPU卸載到交換機,SHARP可以優化這些通信。它可以防止節點之間的冗余數據傳輸,從而減少必須遍歷網絡的數據量。因此,SHARP顯著提高了加速計算的性能,尤其是在AI和機器學習等MPI應用中。
多樣化的網絡拓撲
InfiniBand支持各種網絡拓撲,如胖樹、Torus、Dragonfly+、Hypercube和HyperX,滿足網絡擴展、降低總擁有成本(TCO)、最小化延遲和延長傳輸距離等不同需求。
InfiniBand利用其無與倫比的技術優勢,顯著簡化了高性能網絡架構,減輕了多級架構層次結構帶來的延遲。此功能為無縫升級關鍵計算節點的訪問帶寬提供了強大的支持。InfiniBand網絡因其高帶寬、低延遲以及與以太網的兼容性,越來越多地在各種場景中得到應用。
InfiniBand HDR產品解決方案簡介
隨著客戶端需求的不斷增長,100Gb/s EDR正逐漸退出市場。目前NDR的數據速率被認為過高,而HDR憑借其提供HDR100(100G)和HDR200(200G)的靈活性獲得廣泛采用。
InfiniBand HDR交換機
英偉達(NVIDIA)提供兩種類型的InfiniBand HDR交換機。第一種是HDR CS8500模塊化機箱交換機,這是一款29U交換機,提供多達800個HDR 200Gb/s端口。每個200G端口支持拆分為2X100G,最多支持1600個HDR100(100Gb/s)端口。第二種是QM87xx系列固定交換機,1U面板集成了40個200G QSFP56端口。這些端口可以拆分為多達80個HDR 100G端口,以連接到100G HDR網卡。同時,每個端口還向后支持EDR速率以連接100G EDR網卡卡。需要注意的是,單個200G HDR端口只能降速到100G連接EDR網卡,不能拆分成2X100G連接兩個EDR網卡。
200G HDR QM87xx交換機有兩種型號:MQM8700-HS2F和MQM8790-HS2F。這兩種型號之間的唯一區別在于管理方法。QM8700交換機具有支持帶外管理的管理端口,而QM8790交換機需要英偉達(NVIDIA)UFMR平臺進行管理。
對于QM8700和QM8790,每種交換機都提供兩種氣流選項。其中,MQM8790-HS2F交換機具有P2C(電源到線纜)氣流,可通過風扇模塊上的藍色標記來識別。如果忘記了顏色標記,也可以通過將手放在開關的進氣口和出風口前面來確定氣流方向。MQM8790-HS2R交換機采用C2P(線纜到電源)氣流,風扇模塊上有紅色標記。QM87xx系列交換機型號詳情如下:
CQM8700和QM8790交換機通常用于兩種連接應用。一種與200G HDR網卡連接,從而實現使用200G到200GAOC/DAC線纜的直接連接。另一種常見的應用是連接100G HDR網卡,需要使用200G轉2X100G線纜將交換機的物理200G(4X50G)QSFP56端口拆分為兩個虛擬100G(2X50G)端口。拆分后,端口符號從x/y轉換為x/Y/z,其中“x/Y”表示拆分前端口的原始符號,“z”表示單通道端口的編號(1,2),每個子物理端口被視為一個單獨的端口。
InfiniBand HDR網卡(NIC)
與HDR交換機相比,HDR網卡(NIC)種類繁多。關于速率,有兩種選擇:HDR100和HDR。
HDR100網卡支持100Gb/s的傳輸速率,兩個HDR100端口可以使用200G HDR轉2X100G HDR100線纜連接到HDR交換機。與100G EDR網卡相比,HDR100網卡的100G端口可以同時支持4X25G NRZ傳輸和2X50G PAM4傳輸。
200G HDR網卡支持200G的傳輸速率,可以使用200G直連線纜直接連接到交換機。
除了兩種接口數據速率外,每種速率的網卡都可以根據業務需求選擇單端口、雙端口和PCIe類型。常用的IB HDR網卡型號如下:
HDR InfiniBand網絡架構簡單明了,同時提供了多種硬件選項。對于100Gb/s速率,有100G EDR和100G HDR100解決方案。200Gb/s速率包括HDR和200G NDR200選項。各種應用中使用的交換機、網卡和附件存在顯著差異。InfiniBand高性能HDR和EDR交換機、智能網卡、納多德(NADDOD)/邁絡思(Mellanox)/思科(Cisco)/惠普(HPE)光纜&高速線纜&光模塊產品組合解決方案,為數據中心、高性能計算、邊緣計算、人工智能等應用場景提供更具優勢和價值的光網絡產品和綜合解決方案。這大大增強了客戶的業務加速能力,成本低且性能優異。
InfiniBand與以太網、光纖通道和Omni-Path有什么區別
InfiniBand與以太網
與眾不同的技術:InfiniBand和以太網是數據傳輸的關鍵通信技術,每種技術都適用于不同的應用。
歷史速率:InfiniBand的歷史數據傳輸速率從InfiniBand SDR 10Gb/s開始,超過了千兆以太網的初始速率。
當前主導地位:InfiniBand已經發展成為主導地位,網絡速率達到了100G EDR或200G HDR,并且正在朝著更快的速率發展,比如400G NDR和800G XDR。
嚴格的延遲要求:InfiniBand遵守嚴格的延遲要求,接近零延遲。
理想應用:InfiniBand在需要快速和精確數據處理的應用中表現出色,在超級計算中得到廣泛應用,適用于大容量數據分析、機器學習、深度學習訓練、推理、對話式AI、預測和預測等任務。
以太網的作用:盡管速率相對較慢,以太網以其高可靠性而聞名,非常適合需要穩定可靠數據傳輸的局域網應用。
速率和可靠性的差異:這些技術之間的主要差異在于它們的速率和可靠性。在高性能計算網絡中,InfiniBand優先用于需要快速數據傳輸的應用程序,而以太網的可靠性使其更適合在LAN網絡中進行一致的數據傳輸。
InfiniBand與光纖通道
存儲區域網絡(SAN)中的光纖通道:光纖通道主要用于存儲區域網絡(SAN),專門用于數據中心環境中的服務器、存儲設備或客戶端節點之間的高速數據傳輸。
安全通道技術:光纖通道采用專用的安全通道技術,確保快速可靠的數據傳輸。
存儲解決方案的多功能性:光纖通道是一種可靠且可擴展的技術,廣泛用于企業存儲解決方案。
區分數據傳輸類型:InfiniBand和光纖通道之間的主要區別在于它們通常支持的數據傳輸類型。
更好選擇:在局域網環境中,以太網被用于客戶端和服務器之間的連接,而光纖通道在存儲區域網絡(SAN)中的存儲應用方面表現出色。與此同時,InfiniBand作為一種創新技術,用于連接CPU和內存組件,支持集群和與I/O控制器的連接。
InfiniBand與Omni-Path
數據中心網絡的演變:盡管英偉達(NVIDIA)推出了InfiniBand 400G NDR解決方案,但一些用戶仍在繼續使用100G EDR解決方案。Omni-Path和InfiniBand都是以100Gb/s速率運行的高性能數據中心網絡的常見選擇。
網絡結構區別:雖然這兩種技術提供相似的性能,但Omni-Path和InfiniBand的網絡結構有很大不同。舉例來說,使用InfiniBand的400節點集群只需要15臺英偉達(NVIDIA)Quantum 8000系列交換機和特定線纜,而Omni-Path需要24臺交換機和大量有源光纜。
InfiniBand EDR解決方案的優勢:與Omni-Path相比,InfiniBand EDR解決方案在設備成本、運營和維護成本以及總體功耗方面具有顯著優勢。這使得InfiniBand成為更環保的選擇。
審核編輯:黃飛
-
以太網
+關注
關注
40文章
5424瀏覽量
171702 -
cpu
+關注
關注
68文章
10863瀏覽量
211751 -
交換機
+關注
關注
21文章
2640瀏覽量
99638 -
超級計算機
+關注
關注
2文章
462瀏覽量
41947 -
InfiniBand
+關注
關注
1文章
29瀏覽量
9197
原文標題:探索InfiniBand網絡、HDR和IB在超算中應用的意義
文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論