今日和文檔君一起學習技術名詞:
全調度以太網技術(Global Scheduling Ethernet,GSE)——基于報文容器PKTC轉發和負載均衡,并實現全局調度。
什么是全調度以太網GSE?
GSE(Global Scheduling Ethernet),即全調度以太網技術。GSE是由中國移動聯合產業合作伙伴共同提出的一種以太網技術架構,是在現有以太網的基礎上進行了優化和創新,以滿足智算中心高性能網絡技術,旨在突破傳統以太網的技術瓶頸,打造無阻塞、高帶寬、低時延的新型智算中心網絡。
為什么需要GSE?
在AI訓練中,我們常用RDMA協議來高速傳輸數據。但RDMA對丟包非常敏感,哪怕只丟了一點點數據包,網絡的有效傳輸速度就會大幅下降。
而AI大模型訓練需要多個計算設備一起工作,它們之間需要頻繁通信和同步,這對網絡的要求就特別高?,F在AI模型越來越大,智算中心的網絡性能就得更強才行,需要無阻塞、“0”丟包、低延遲。
傳統的以太網在大規模、高速度的數據傳輸時,容易出現網絡擁塞等問題。這就像是一條高速公路,車一多就容易堵。
智算中心的網絡中數據流雖然不多,但每個流的數據量都很大,傳統的負載均衡方式就容易出問題,導致數據包丟失,動態時延增大等問題,從而影響AI訓練的效率。
GSE技術就像是給去往某個目的地的多條高速公路裝上了智能導航系統,它能主動控制車流選擇最優路徑,避免堵車,更高效地轉發數據包。這樣一來,丟包就少了,網絡延遲也低了,整體傳輸速度就更高了,AI訓練效率也就提升了。
GSE技術特點
1. 從“流”分發轉變為“報文”分發。傳統ECMP 負載均衡會導致鏈路負載不均以及哈希極化,可能引起擁塞和丟包。
GSE設備會將數據包進行邏輯分組,組裝成長度較長的“定長”容器,并基于報文容器轉發和動態負載均衡,實現單條流在多路徑上均勻地負載分擔,提升有效帶寬。
如果把報文當作貨物,報文容器就好像載貨能力一樣的貨車,每輛貨車拉著同樣重量的貨物(數量可以不一樣),大量貨車被均勻地調度到去往同個目的地的多條高速路上,可以最大程度利用道路資源。
2. 從被動擁塞控制到主動流控,引入“授權請求”和“全局調度機制”,通過構建基于全局動態調度隊列(DGSQ)的擁塞控制機制,本設備發送流量速率由最終的設備出口、途經的設備統一進行全網端到端授權,確保了流量負載不超過網絡的承載能力,有效避免了網絡擁塞而丟包。
這就好像貨車在出發前先詢問了目的地的庫房是否具備接收能力,根據目的地的收貨能力以及沿途路況來決定發出多少貨物,確保貨物能準確送達并接收。
由于AI大模型訓練時任意一輪計算的結束均依賴最后一個結果的返回,降低網絡長尾時延可有效提升訓練完成時間。
交換網絡整體轉發時延和轉發路徑上中間節點的擁塞情況正相關,消除中間節點的擁塞就可消除長尾時延。GSE技術實現了精細化調度和和高負載均衡,可有效降低長尾時延,提升訓練效率。
GSE支持GSE-N2N和GSE-E2E兩大技術場景,GSE-N2N通過網絡設備實現全部GSE功能,支持計算與網絡設備的解耦;GSE-E2E將部分GSE能力延伸至服務器網卡,借助端網協同實現高性能集群互聯。QGSE vs RoCEv2 vs InfiniBand
GSE | RoCEv2 | InfiniBand | |
網絡設備 | GSE交換機 | 以太交換機 | IB交換機 |
性能 | 組網性能相較傳統RoCEv2可提升40%已上 | 經過調優可接近IB | 優 |
兼容性 | 優,基于以太網改造,有開放標準 | 優,增強以太網 | 封閉,不兼容以太網 |
產業生態 | 中國移動攜手國內智算生態企業共同發布產品及標準。 | 多種芯片方案,大量網絡設備廠家 | Nvidia為主等少量海外廠商 |
易用性 | 無需復雜的網絡參數配置 | 需要調節各種網絡參數,較復雜,自動化部署正在完善中 | 集中式管理機制,由子網管理器負責整個網絡轉發表的計算與分發等工作 |
成熟度 | 新技術,持續完善中 | 成熟,還在持續演進完善 | 成熟 |
注:RoCEv2(RDMA over Converged Ethernet,融合以太網承載RDMA)
GSE有哪些應用場景?
GSE主要面向無損、高帶寬、低時延等高性能網絡需求業務場景,如AI大模型訓練的智算中心網絡。
GSE業界應用進展
在2023年9月的中國網絡大會上,中國移動研究院攜手合作伙伴發布業界首款“全調度以太網(GSE)”樣機。
在2023年11月21日的開放數據中心委員會(ODCC)冬季全會會議上,正式成立全調度以太網(GSE)技術特設組并召開第一次工作組會議。
在2024年9月27日的中國算力大會上,中國移動攜手國內智算生態企業共同發布了全調度以太網(GSE)全套技術標準及首套商用產品。
2024.11,中國移動聯合云豹智能共同研發首顆GSE DPU芯片--“智算琢光”。
2024.12,中國移動聯合中興共同研發首顆可完整支持GSE功能的大容量高性能交換芯片
-
以太網
+關注
關注
40文章
5449瀏覽量
172171 -
AI
+關注
關注
87文章
31262瀏覽量
269623 -
容器
+關注
關注
0文章
498瀏覽量
22086 -
負載均衡
+關注
關注
0文章
113瀏覽量
12373
原文標題:【秒懂承載】熱點技術名詞 -“全調度以太網GSE”
文章出處:【微信號:ztedoc,微信公眾號:中興文檔】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論