通常,在在AI智算系統中,一個模型從生產到應用,一般包括離線訓練和推理部署兩大階段;本文選自“智算中心網絡架構白皮書(2023)”“智能計算中心規劃建設指南”,常用的對IB和ROCE V2高性能網絡進行全面的分析對比。
智算網絡的選型和建設階段的典型問題包括:
1. 智算網絡是復用當前的TCP/IP通用網絡的基礎設施,還是新建一張專用的高性能網絡?
2. 智算網絡技術方案采用 InfiniBand 還是 RoCE ?
3. 智算網絡如何進行運維和管理?
4. 智算網絡是否具備多租戶隔離能力以實現對內和對外的運營?
離線訓練,就是產生模型的過程。用戶需要根據自己的任務場景,準備好訓練模型所需要的數據集以及神經網絡算法。模型訓練開始后,先讀取數據,然后送入模型進行前向計算,并計算與真實值的誤差。然后執行反向計算得到參數梯度,最后更新參數。訓練過程會進行多輪的數據迭代。訓練完成之后,保存訓練好的模型,然后將模型做上線部署,接受用戶的真實輸入,通過前向計算,完成推理。因此,無論是訓練還是推理,核心都是數據計算。為了加速計算效率,一般都是通過 GPU 等異構加速芯片來進行訓練和推理。
隨著以 GPT3.0 為代表的大模型展現出令人驚艷的能力后,智算業務往海量參數的大模型方向發展已經成為一個主流技術演進路徑。以自然語言處理(NLP)為例,模型參數已經達到了千億級別。計算機視覺(CV) 、廣告推薦、智能風控等領域的模型參數規模也在不斷的擴大,正在往百億和千億規模參數的方向發展。
在自動駕駛場景中,每車每日會產生 T 級別數據,每次訓練的數據達到 PB 級別。大規模數據處理和大規模仿真任務的特點十分顯著,需要使用智算集群來提升數據處理與模型訓練的效率。
大模型訓練中大規模的參數對算力和顯存都提出了更高的要求。以GPT3為例,千億參數需要2TB顯存,當前的單卡顯存容量不夠。即便出現了大容量的顯存,如果用單卡訓練的話也需要32年。為了縮短訓練時間,通常采用分布式訓練技術,對模型和數據進行切分,采用多機多卡的方式將訓練時長縮短到周或天的級別。
分布式訓練就是通過多臺節點構建出一個計算能力和顯存能力超大的集群,來應對大模型訓練中算力墻和存儲墻這兩個主要挑戰。而聯接這個超級集群的高性能網絡直接決定了智算節點間的通信效率,進而影響整個智算集群的吞吐量和性能。要讓整個智算集群獲得高的吞吐量,高性能網絡需要具備低時延、大帶寬、長期穩定性、大規模擴展性和可運維幾個關鍵能力。
分布式訓練系統的整體算力并不是簡單的隨著智算節點的增加而線性增長,而是存在加速比,且加速比小于 1。存在加速比的主要原因是:在分布式場景下,單次的計算時間包含了單卡的計算時間疊加卡間通信時間。因此,降低卡間通信時間,是分布式訓練中提升加速比的關鍵,需要重點考慮和設計。
降低多機多卡間端到端通信時延的關鍵技術是 RDMA 技術。RDMA 可以繞過操作系統內核,讓一臺主機可以直接訪問另外一臺主機的內存。
實 現 RDMA 的 方 式 有 InfiniBand、RoCEv1、RoCEv2、i WARP 四 種。其 中 RoCEv1 技 術 當 前 已 經 被 淘 汰,iWARP 使用較少。當前 RDMA 技術主要采用的方案為 InfiniBand 和 RoCEv2 兩種。
在 InfiniBand 和 RoCEv2 方案中,因為繞過了內核協議棧,相較于傳統 TCP/IP 網絡,時延性能會有數十倍的改善。在同集群內部一跳可達的場景下,InfiniBand 和 RoCEv2 與傳統 IP 網絡的端到端時延在實驗室的測試數據顯示,繞過內核協議棧后,應用層的端到端時延可以從 50us(TCP/IP),降低到 5us(RoCE)或 2us(InfiniBand)。
在完成計算任務后,智算集群內部的計算節點需要將計算結果快速地同步給其他節點,以便進行下一輪計算。在結果同步完成前,計算任務處于等待狀態,不會進入下一輪計算。如果帶寬不夠大,梯度傳輸就會變慢,造成卡間通信時長變長,進而影響加速比。
要滿足智算網絡的低時延、大帶寬、穩定運行、大規模以及可運維的需求,目前業界比較常用的網絡方案是 InfiniBand方案和 RoCEv2 方案。
一、InfiniBand網絡介紹
InfiniBand網絡的關鍵組成包括Subnet Manager(SM)、InfiniBand 網卡、InfiniBand交換機和InfiniBand連接線纜。
支持 InfiniBand 網卡的廠家以 NVIDIA 為主。下圖是當前常見的 InfiniBand 網卡。InfiniBand 網卡在速率方面保持著快速的發展。200Gbps 的 HDR 已經實現了規模化的商用部署,400Gbps 的 NDR的網卡也已經開始商用部署。
在InfiniBand交換機中,SB7800 為 100Gbps 端口交換機(36*100G),屬于 NVIDIA 比較早的一代產品。Quantum-1 系列為 200Gbps 端口交換機(40*200G),是當前市場采用較多的產品。
在 2021 年,NVIDIA 推出了 400Gbps 的 Quantum-2 系列交換機(64*400G)。交換機上有 32 個 800G OSFP(Octal Small Form Factor Pluggable)口,需要通過線纜轉接出 64 個 400G QSFP。
InfiniBand 交換機上不運行任何路由協議。整個網絡的轉發表是由集中式的子網管理器(Subnet Manager,簡稱 SM)進行計算并統一下發的。除了轉發表以外,SM 還負責管理 InfiniBand 子網的 Partition、QoS 等配置。InfiniBand 網絡需要專用的線纜和光模塊做交換機間的互聯以及交換機和網卡的互聯。
InfiniBand 網絡方案特點
(1)原生無損網絡
InfiniBand 網絡采用基于 credit 信令機制來從根本上避免緩沖區溢出丟包。只有在確認對方有額度能接收對應數量的報文后,發送端才會啟動報文發送。InfiniBand 網絡中的每一條鏈路都有一個預置緩沖區。發送端一次性發送數據不會超過接收端可用的預置緩沖區大小,而接收端完成轉發后會騰空緩沖區,并且持續向發送端返回當前可用的預置緩沖區大小。依靠這一鏈路級的流控機制,可以確保發送端絕不會發送過量,網絡中不會產生緩沖區溢出丟包。
(2)萬卡擴展能力
InfiniBand 的 Adaptive Routing 基于逐包的動態路由,在超大規模組網的情況下保證網絡最優利用。InfiniBand 網絡在業界有較多的萬卡規模超大 GPU 集群的案例,包括百度智能云,微軟云等。
目前市場上主要的 InfiniBand 網絡方案及配套設備供應商有以下幾家。其中,市場占有率最高的是 NVIDIA,其市場份額大于 7 成。
NVIDIA:NVIDIA是InfiniBand技術的主要供應商之一,提供各種InfiniBand適配器、交換機和其他相關產品。
Intel Corporation:Intel是另一個重要的InfiniBand供應商,提供各種InfiniBand網絡產品和解決方案。
Cisco Systems:Cisco是一家知名的網絡設備制造商,也提供InfiniBand交換機和其他相關產品。
Hewlett Packard Enterprise:HPE是一家大型IT公司,提供各種InfiniBand網絡解決方案和產品,包括適配器、交換機和服務器等。
2、RoCEv2 網絡介紹
InfiniBand 網絡在一定程度上是一個由 SM(Subnet Manager,子網管理器)進行集中管理的網絡。而 RoCEv2 網絡則是一個純分布式的網絡,由支持 RoCEv2 的網卡和交換機組成,一般情況下是兩層架構。
支持 RoCE 網卡的廠家比較多,主流廠商為 NVIDIA、Intel、Broadcom。數據中心服務器網卡主要以 PCIe 卡為主。RDMA 網卡的端口 PHY 速率一般是 50Gbps 起,當前商用的網卡單端口速率已達 400Gbps。
當前大部分數據中心交換機都支持 RDMA 流控技術,和 RoCE 網卡配合,實現端到端的 RDMA 通信。國內的主流數據中心交換機廠商包括華為、新華三等。
高性 能 交 換 機的核心 是 轉發 芯片。當前 市場上的商用轉發 芯片用的比 較 多的是博通的 Tomahawk 系列芯片。其中Tomahawk3 系列的芯片在當前交換機上使用的比較多,市場上支持 Tomahawk4 系列的芯片的交換機也逐漸增多。
RoCEv2 承載在以太網上,所以傳統以太網的光纖和光模塊都可以用。
RoCEv2 網絡方案特點
RoCE 方案相對于 InfiniBand 方案的特點是通用性較強和價格相對較低。除用于構建高性能 RDMA 網絡外,還可以在傳統的以太網絡中使用。但在交換機上的 Headroom、PFC、ECN 相關參數的配置是比較復雜的。在萬卡這種超大規模場景下,整個網絡的吞吐性能較 InfiniBand 網絡要弱一些。
支持 RoCE 的交換機廠商較多,市場占有率排名靠前的包括新華三、華為等。支持 RoCE 的網卡當前市場占有率比較高的是 NVIDIA 的 ConnectX 系列的網卡。
3、InfiniBand 和 RoCEv2網絡方案對比
從技術角度看,InfiniBand 使用了較多的技術來提升網絡轉發性能,降低故障恢復時間,提升擴展能力,降低運維復雜度。
具體到實際業務場景上看,RoCEv2 是足夠好的方案,而 InfiniBand 是特別好的方案。
業務性能方面:由于 InfiniBand 的端到端時延小于 RoCEv2,所以基于 InfiniBand 構建的網絡在應用層業務性能方面占優。但 RoCEv2 的性能也能滿足絕大部分智算場景的業務性能要求。
業務規模方面: InfiniBand 能支持單集群萬卡 GPU 規模,且保證整體性能不下降,并且在業界有比較多的商用實踐案例。RoCEv2 網絡能在單集群支持千卡規模且整體網絡性能也無太大的降低。
業務運維方面: InfiniBand 較 RoCEv2 更成熟,包括多租戶隔離能力,運維診斷能力等。
業務成本方面: InfiniBand 的成本要高于 RoCEv2,主要是 InfiniBand 交換機的成本要比以太交換機高一些。
業務供應商方面: InfiniBand 的供應商主要以 NVIDIA 為主,RoCEv2 的供應商較多。
責任編輯:彭菁
-
gpu
+關注
關注
28文章
4740瀏覽量
128949 -
顯存
+關注
關注
0文章
108瀏覽量
13659 -
模型
+關注
關注
1文章
3243瀏覽量
48840 -
網絡架構
+關注
關注
1文章
93瀏覽量
12590 -
智算中心
+關注
關注
0文章
68瀏覽量
1712
原文標題:智算中心網絡架構選型及對比
文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論