小说阅读网免费小说,将夜猫腻小说,欢乐颂

通常，在在AI智算系統中，一個模型從生產到應用，一般包括離線訓練和推理部署兩大階段；本文選自“智算中心網絡架構白皮書（2023）”“智能計算中心規劃建設指南”，常用的對IB和ROCE V2高性能網絡進行全面的分析對比。

智算網絡的選型和建設階段的典型問題包括：

1. 智算網絡是復用當前的TCP/IP通用網絡的基礎設施，還是新建一張專用的高性能網絡？

2. 智算網絡技術方案采用 InfiniBand 還是 RoCE ？

3. 智算網絡如何進行運維和管理？

4. 智算網絡是否具備多租戶隔離能力以實現對內和對外的運營？

離線訓練，就是產生模型的過程。用戶需要根據自己的任務場景，準備好訓練模型所需要的數據集以及神經網絡算法。模型訓練開始后，先讀取數據，然后送入模型進行前向計算，并計算與真實值的誤差。然后執行反向計算得到參數梯度，最后更新參數。訓練過程會進行多輪的數據迭代。訓練完成之后，保存訓練好的模型，然后將模型做上線部署，接受用戶的真實輸入，通過前向計算，完成推理。因此，無論是訓練還是推理，核心都是數據計算。為了加速計算效率，一般都是通過 GPU 等異構加速芯片來進行訓練和推理。

隨著以 GPT3.0 為代表的大模型展現出令人驚艷的能力后，智算業務往海量參數的大模型方向發展已經成為一個主流技術演進路徑。以自然語言處理（NLP）為例，模型參數已經達到了千億級別。計算機視覺（CV）、廣告推薦、智能風控等領域的模型參數規模也在不斷的擴大，正在往百億和千億規模參數的方向發展。

在自動駕駛場景中，每車每日會產生 T 級別數據，每次訓練的數據達到 PB 級別。大規模數據處理和大規模仿真任務的特點十分顯著，需要使用智算集群來提升數據處理與模型訓練的效率。

大模型訓練中大規模的參數對算力和顯存都提出了更高的要求。以GPT3為例，千億參數需要2TB顯存，當前的單卡顯存容量不夠。即便出現了大容量的顯存，如果用單卡訓練的話也需要32年。為了縮短訓練時間，通常采用分布式訓練技術，對模型和數據進行切分，采用多機多卡的方式將訓練時長縮短到周或天的級別。

分布式訓練就是通過多臺節點構建出一個計算能力和顯存能力超大的集群，來應對大模型訓練中算力墻和存儲墻這兩個主要挑戰。而聯接這個超級集群的高性能網絡直接決定了智算節點間的通信效率，進而影響整個智算集群的吞吐量和性能。要讓整個智算集群獲得高的吞吐量，高性能網絡需要具備低時延、大帶寬、長期穩定性、大規模擴展性和可運維幾個關鍵能力。

分布式訓練系統的整體算力并不是簡單的隨著智算節點的增加而線性增長，而是存在加速比，且加速比小于 1。存在加速比的主要原因是：在分布式場景下，單次的計算時間包含了單卡的計算時間疊加卡間通信時間。因此，降低卡間通信時間，是分布式訓練中提升加速比的關鍵，需要重點考慮和設計。

降低多機多卡間端到端通信時延的關鍵技術是 RDMA 技術。RDMA 可以繞過操作系統內核，讓一臺主機可以直接訪問另外一臺主機的內存。

實現 RDMA 的方式有 InfiniBand、RoCEv1、RoCEv2、i WARP 四種。其中 RoCEv1 技術當前已經被淘汰，iWARP 使用較少。當前 RDMA 技術主要采用的方案為 InfiniBand 和 RoCEv2 兩種。

在 InfiniBand 和 RoCEv2 方案中，因為繞過了內核協議棧，相較于傳統 TCP/IP 網絡，時延性能會有數十倍的改善。在同集群內部一跳可達的場景下，InfiniBand 和 RoCEv2 與傳統 IP 網絡的端到端時延在實驗室的測試數據顯示，繞過內核協議棧后，應用層的端到端時延可以從 50us（TCP/IP），降低到 5us（RoCE）或 2us（InfiniBand）。

在完成計算任務后，智算集群內部的計算節點需要將計算結果快速地同步給其他節點，以便進行下一輪計算。在結果同步完成前，計算任務處于等待狀態，不會進入下一輪計算。如果帶寬不夠大，梯度傳輸就會變慢，造成卡間通信時長變長，進而影響加速比。

要滿足智算網絡的低時延、大帶寬、穩定運行、大規模以及可運維的需求，目前業界比較常用的網絡方案是 InfiniBand方案和 RoCEv2 方案。

一、InfiniBand網絡介紹

InfiniBand網絡的關鍵組成包括Subnet Manager（SM）、InfiniBand 網卡、InfiniBand交換機和InfiniBand連接線纜。

支持 InfiniBand 網卡的廠家以 NVIDIA 為主。下圖是當前常見的 InfiniBand 網卡。InfiniBand 網卡在速率方面保持著快速的發展。200Gbps 的 HDR 已經實現了規模化的商用部署，400Gbps 的 NDR的網卡也已經開始商用部署。

在InfiniBand交換機中，SB7800 為 100Gbps 端口交換機（36*100G），屬于 NVIDIA 比較早的一代產品。Quantum-1 系列為 200Gbps 端口交換機（40*200G），是當前市場采用較多的產品。

在 2021 年，NVIDIA 推出了 400Gbps 的 Quantum-2 系列交換機（64*400G）。交換機上有 32 個 800G OSFP（Octal Small Form Factor Pluggable）口，需要通過線纜轉接出 64 個 400G QSFP。

InfiniBand 交換機上不運行任何路由協議。整個網絡的轉發表是由集中式的子網管理器（Subnet Manager，簡稱 SM）進行計算并統一下發的。除了轉發表以外，SM 還負責管理 InfiniBand 子網的 Partition、QoS 等配置。InfiniBand 網絡需要專用的線纜和光模塊做交換機間的互聯以及交換機和網卡的互聯。

InfiniBand 網絡方案特點

（1）原生無損網絡

InfiniBand 網絡采用基于 credit 信令機制來從根本上避免緩沖區溢出丟包。只有在確認對方有額度能接收對應數量的報文后，發送端才會啟動報文發送。InfiniBand 網絡中的每一條鏈路都有一個預置緩沖區。發送端一次性發送數據不會超過接收端可用的預置緩沖區大小，而接收端完成轉發后會騰空緩沖區，并且持續向發送端返回當前可用的預置緩沖區大小。依靠這一鏈路級的流控機制，可以確保發送端絕不會發送過量，網絡中不會產生緩沖區溢出丟包。

（2）萬卡擴展能力

InfiniBand 的 Adaptive Routing 基于逐包的動態路由，在超大規模組網的情況下保證網絡最優利用。InfiniBand 網絡在業界有較多的萬卡規模超大 GPU 集群的案例，包括百度智能云，微軟云等。

目前市場上主要的 InfiniBand 網絡方案及配套設備供應商有以下幾家。其中，市場占有率最高的是 NVIDIA，其市場份額大于 7 成。

NVIDIA：NVIDIA是InfiniBand技術的主要供應商之一，提供各種InfiniBand適配器、交換機和其他相關產品。

Intel Corporation：Intel是另一個重要的InfiniBand供應商，提供各種InfiniBand網絡產品和解決方案。

Cisco Systems：Cisco是一家知名的網絡設備制造商，也提供InfiniBand交換機和其他相關產品。

Hewlett Packard Enterprise：HPE是一家大型IT公司，提供各種InfiniBand網絡解決方案和產品，包括適配器、交換機和服務器等。

2、RoCEv2 網絡介紹

InfiniBand 網絡在一定程度上是一個由 SM（Subnet Manager，子網管理器）進行集中管理的網絡。而 RoCEv2 網絡則是一個純分布式的網絡，由支持 RoCEv2 的網卡和交換機組成，一般情況下是兩層架構。

支持 RoCE 網卡的廠家比較多，主流廠商為 NVIDIA、Intel、Broadcom。數據中心服務器網卡主要以 PCIe 卡為主。RDMA 網卡的端口 PHY 速率一般是 50Gbps 起，當前商用的網卡單端口速率已達 400Gbps。

當前大部分數據中心交換機都支持 RDMA 流控技術，和 RoCE 網卡配合，實現端到端的 RDMA 通信。國內的主流數據中心交換機廠商包括華為、新華三等。

高性能交換機的核心是轉發芯片。當前市場上的商用轉發芯片用的比較多的是博通的 Tomahawk 系列芯片。其中Tomahawk3 系列的芯片在當前交換機上使用的比較多，市場上支持 Tomahawk4 系列的芯片的交換機也逐漸增多。

RoCEv2 承載在以太網上，所以傳統以太網的光纖和光模塊都可以用。

RoCEv2 網絡方案特點

RoCE 方案相對于 InfiniBand 方案的特點是通用性較強和價格相對較低。除用于構建高性能 RDMA 網絡外，還可以在傳統的以太網絡中使用。但在交換機上的 Headroom、PFC、ECN 相關參數的配置是比較復雜的。在萬卡這種超大規模場景下，整個網絡的吞吐性能較 InfiniBand 網絡要弱一些。

支持 RoCE 的交換機廠商較多，市場占有率排名靠前的包括新華三、華為等。支持 RoCE 的網卡當前市場占有率比較高的是 NVIDIA 的 ConnectX 系列的網卡。

3、InfiniBand 和 RoCEv2網絡方案對比

從技術角度看，InfiniBand 使用了較多的技術來提升網絡轉發性能，降低故障恢復時間，提升擴展能力，降低運維復雜度。

具體到實際業務場景上看，RoCEv2 是足夠好的方案，而 InfiniBand 是特別好的方案。

業務性能方面：由于 InfiniBand 的端到端時延小于 RoCEv2，所以基于 InfiniBand 構建的網絡在應用層業務性能方面占優。但 RoCEv2 的性能也能滿足絕大部分智算場景的業務性能要求。

業務規模方面： InfiniBand 能支持單集群萬卡 GPU 規模，且保證整體性能不下降，并且在業界有比較多的商用實踐案例。RoCEv2 網絡能在單集群支持千卡規模且整體網絡性能也無太大的降低。

業務運維方面： InfiniBand 較 RoCEv2 更成熟，包括多租戶隔離能力，運維診斷能力等。

業務成本方面： InfiniBand 的成本要高于 RoCEv2，主要是 InfiniBand 交換機的成本要比以太交換機高一些。

業務供應商方面： InfiniBand 的供應商主要以 NVIDIA 為主，RoCEv2 的供應商較多。

責任編輯：彭菁

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

gpu

gpu

+關注

關注
28

文章
4740

瀏覽量
128949
顯存

顯存

+關注

關注
0

文章
108

瀏覽量
13659
模型

模型

+關注

關注
1

文章
3243

瀏覽量
48840
網絡架構

網絡架構

+關注

關注
1

文章
93

瀏覽量
12590
智算中心

智算中心

+關注

關注
0

文章
68

瀏覽量
1712

原文標題：智算中心網絡架構選型及對比

文章出處：【微信號：AI_Architect，微信公眾號：智能計算芯世界】歡迎添加關注！文章轉載請注明出處。

TVS管的選型原則

發表于 01-03 16:04

ESD選型原則

優恩半導體ESD選型原則

發表于 08-19 15:33

元器件選型基本原則

一、元器件選型基本原則：　　a）普遍性原則：所選的元器件要是被廣泛使用驗證過的，盡量少使用冷門、偏門芯片，減少開發風險。　　b）高性價比原則：在功能、性能、使用率都相近的情況下，盡量選

發表于 04-26 15:42

元器件的選型原則分享

原則：盡量選擇以前老產品用過的元器件。　g、資源節約原則：盡量用上元器件的全部功能和管腳。芯片的選型過程是對各個維度考量的折衷。

發表于 10-29 08:46

元器件如何選型，選型原則分享

一、元器件選型基本原則a、普遍性原則：所選的元器件要是被廣泛使用驗證過的，盡量少使用冷門、偏門芯片，減少開發風險。　b、高性價比原則：在功能、性能、使用率都相近的情況下，盡量選擇價格比

發表于 10-30 09:34

MOS設計選型的基本原則

6個MOS設計選型的基本原則

發表于 03-18 07:04

伺服電機選型有哪些原則？

發表于 09-27 07:58

伺服電機的選型原則

發表于 03-04 17:56 ?7次下載

步進電機選型原則你都知道嗎_步進電機選型誤區盤點

本文主要介紹步進電機選型原則及選型的誤區盤點，首先介紹的是選型的原則，其次介紹了步進電機選擇的要素及選型

發表于 04-25 15:22 ?4346次閱讀

算力網絡的架構

算力網絡的核心特征，是它通過算力，實現了對算力資源、網絡資源的全面接管，可以讓網絡實時感知用戶的

發表于 08-17 09:32 ?5361次閱讀

電子元器件選型參數與原則

電子元器件選型教程之電子元器件選型參數與原則（超實用） “萬丈高樓平地起”，打好基礎是做好一件事的關鍵。對于一塊主板來說，從設計到每一個元器件的選取都是決定產品的重要步驟。整理了一些電子元器件的

發表于 08-21 11:18 ?5570次閱讀

百度智算峰會精彩回顧：應用驅動的數據中心計算架構演進

在今日舉行的“2022 百度云智峰會·智算峰會”上， NVIDIA 解決方案工程中心高級技術經理路川分享了以“ 應用驅動的數據中心計算架構演進 ”為題的演講，探討 GPU 數據

發表于 12-27 21:15 ?767次閱讀

算力網絡的概念及整體架構

算力服務層基于分布式微服務架構，支持應用解構成原子化功能組件并組成算法庫，由 API Gateway統一調度，實現原子化算法按需實例化。算力平臺層將算力資源抽象描述形成算力能力

發表于 05-25 16:47 ?3次下載

智算中心網絡架構設計及組網實踐案例

智算服務器可以滿配 8 張 GPU 卡，并預留 8 個 PCIe 網卡插槽。在多機組建 GPU 集群時，兩個 GPU 跨機互通的突發帶寬有可能會大于 50Gbps。因此，一般會給每個 GPU 關聯一個至少 100Gbps 的網絡端口。

發表于 10-20 11:13 ?6489次閱讀

貼片電感選型原則

電子發燒友網站提供《貼片電感選型原則.docx》資料免費下載

發表于 12-28 09:15 ?6次下載

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

智算中心網絡架構選型原則

評論

TVS管的選型原則

ESD選型原則

元器件選型基本原則

元器件的選型原則分享

元器件如何選型，選型原則分享

MOS設計選型的基本原則

伺服電機選型有哪些原則？

伺服電機的選型原則

步進電機選型原則你都知道嗎_步進電機選型誤區盤點

算力網絡的架構

電子元器件選型參數與原則

百度智算峰會精彩回顧：應用驅動的數據中心計算架構演進

算力網絡的概念及整體架構

智算中心網絡架構設計及組網實踐案例

貼片電感選型原則