小说阅读网站,琅琊榜海宴小说,小说改编的网页游戏

ChatGPT 的爆火掀起了 AI 大模型狂飆熱潮，隨著國內外原來越多的 AI 大模型應用落地，AI 算力需求快速增加。在算力的背后，網絡起到至關重要的作用——網絡性能決定 GPU 集群算力，網絡可用性決定 GPU 集群算力穩定性。因此，高性能與高可用的網絡對 AI 大模型的構建尤為重要。

6 月 26 日，騰訊云舉辦《面向 AI 大模型的高性能網絡》溝通會，首次對外完整披露自研星脈高性能計算網絡，并梳理了騰訊的網絡架構演進歷程。會后，騰訊云副總裁王亞晨、騰訊云數據中心網絡總監李翔接受了 InfoQ 在內的媒體采訪，進一步分享面向 AI 大模型的高性能網絡是如何構建的。

據了解，星脈網絡具備業界最高的 3.2T 通信帶寬，可提升 40% 的 GPU 利用率、節省 30%~60% 的模型訓練成本，進而能為 AI 大模型帶來 10 倍通信性能提升。基于騰訊云新一代算力集群，可支持 10 萬卡的超大計算規模。

王亞晨表示：“星脈網絡是為大模型而生。它所提供的大帶寬、高利用率以及零丟包的高性能網絡服務，將助力算力瓶頸的突破，進一步釋放 AI 潛能，全面提升企業大模型的訓練效率，在云上加速大模型技術的迭代升級和落地應用。”

AI 大模型時代需要什么樣的網絡？大帶寬、高利用率、無損

AI 大模型訓練需要海量算力的支撐，而這些算力無法由單臺服務器提供，需要由大量的服務器作為節點，通過高速網絡組成集群，服務器之間互聯互通，相互協作完成任務。有數據顯示，GPT-3.5 的訓練使用了微軟專門建設的 AI 計算系統，由 1 萬個 V100 GPU 組成的高性能網絡集群，總算力消耗約 3640 PF-days (假如每秒計算一千萬億次，需要計算 3640 天)。

如此大規模、長時間的 GPU 集群訓練任務，僅僅是單次計算迭代內梯度同步需要的通信量就達到了百 GB 量級，此外還有各種并行模式、加速框架引入的通信需求。如果網絡的帶寬不夠大、延時長，不僅會讓算力邊際遞減，還增加了大模型訓練的時間成本。因此，大帶寬、高利用率、無損的高性能網絡至關重要。

王亞晨表示，大模型運算實際上是一個通信過程，一部分 GPU 進行運算，運算完成后還需要與其他 GPU 之間交互數據。通信帶寬越大，數據傳輸越快，GPU 利用率越高，等待時間就會越少。此外，大模型訓練對時延和丟包要求也比較高。“假設有很多 GPU 運算同一個任務，因為有木桶效應存在，一定要等花費時間最長的 GPU 運算完之后，才能完成一個運算任務。AI 對于時延的敏感度比 CPU 高很多，所以一定要把木桶效應消除，把時延控制在非常短的水平，讓 GPU 的效率更高。此外，和帶寬、時延相比，丟包對 GPU 效率的影響更加明顯，一旦丟包就需要重傳，重新進行 GPU 的訓練。”

王亞晨認為，大集群不等于大算力。集群訓練會引入額外的通信開銷，導致 N 個 GPU 算力達不到單個 GPU 算力的 N 倍。這也意味著，一味地增加 GPU 卡或計算節點，并不能線性地提升算力收益。“GPU 利用率的合理水平大概是在 60% 左右。”王亞晨說道。

要想通過集群發揮出更強的算力，計算節點需協同工作并共享計算結果，需要優化服務器之間的通信、拓撲、模型并行、流水并行等底層問題。高速、低延遲的網絡連接可以縮短兩個節點之間同步梯度信息的時間，使得整個訓練過程變得更快。同時，降低不必要的計算資源消耗，使計算節點能夠專注于運行訓練任務。

AI 大模型驅動 DCN 網絡代際演進

據介紹，騰訊網絡主要提供的功能是“連接”，一是連接用戶到機器的流量，二是連接機器到機器的流量。目前，騰訊的網絡架構主要分三大部分：

ECN 架構，表示不同類型的客戶通過多種網絡方式接入云上虛擬網絡，這一塊主要是外聯架構，主要包括終端用戶、企業用戶、物聯網用戶分別通過運營商專線、企業專線、邊緣網關接入騰訊數據中心。

DCI 網絡，主要是數據中心之間的互聯，實現一個城市多數據中心或者多個城市的數據中心進行互聯，底層會用到光纖傳輸。

DCN，主要是數據中心的網絡，這部分的任務是實現數據中心里面超過 10 萬或者幾十萬服務器進行無阻塞的連接。

騰訊通過 ECN、DCI、DCN 等網絡，把用戶和業務服務器連接起來，并且把數百萬臺服務器連接起來。

王亞晨表示，AI 大模型的發展驅動了 DCN 網絡代際演進。

在移動互聯網時代，騰訊的業務以 to C 為主，數據中心網絡服務器規模并不大，當時主要解決的是數據中心、服務器之間的互聯，以及運營商之間的互聯。所以那時數據中心流量特征很明顯，基本都是外部訪問的流量，對網絡的時延和丟包要求也不高。

隨著移動互聯網以及云的快速發展，數據中心網絡流量模型發生了變化，除了有從運營商訪問過來的南北向流量，也有數據中心之間互訪的東西向流量，對網絡的時延要求也是從前的 10 倍。為了降低設備故障對網絡的影響，騰訊采用多平面設計，并引入了控制器的概念，把轉發面和控制面進行分離。用定制的設備、多平面以及 SDN 的路由器控制，將故障的解決時間控制在一分鐘之內。

在 AI 大模型時代，數據中心網絡流量模型進一步發生變化。“到了 AI 大模型時代，我們發現東西向流量比以前大了很多，尤其是 AI 在訓練的時候，幾乎沒有什么南北向流量。我們預計如果大模型逐漸成熟，明年大模型數據中心流量南北向流量可能會有所增長，因為推理需求會上來。但就現在而言，東西向流量需求非常大，我們 DCN 網絡設計會把南北向流量和東西向流量分開，以前是耦合在一張網絡里，基礎網絡都是一套交換機，只是分不同層。但到了 GPU 時代，我們需要專門為 GPU 構建一層高性能網絡。”王亞晨說道。

基于此，騰訊打造出了高性能網絡星脈：具備業界最高的 3.2T 通信帶寬，能提升 40% 的 GPU 利用率，節省 30%~60% 的模型訓練成本，為 AI 大模型帶來 10 倍通信性能提升。基于騰訊云新一代算力集群 HCC，可支持 10 萬卡的超大計算規模。

高性能網絡星脈是如何設計的？

據李翔介紹，騰訊網絡大概由大大小小幾十個組件組成，數據中心網絡是其中最大、歷史最悠久的一個。在 PC 和移動互聯網時代，數據中心網絡主要解決的是規模問題。而進入算力時代，業務對算力網絡有了更高的要求。

“舉個例子，如果說過去兩個階段數據中心網絡是‘村村通’，解決大規模部署和廣覆蓋的問題，那么在算力時代，數據中心網絡就是全自動化、無擁塞的高速公路。”李翔表示，AI 大模型對互聯有比較高的要求，幾千張 GPU 協同計算，如果出現任何一個丟包阻塞，那么全部都要降速，這種降速 1 分鐘就有幾十萬的損失。

基于此，騰訊云開始搭建算力集群。4 月 14 日，騰訊云正式發布面向大模型訓練的新一代 HCC（High-Perf ormance Computing Cluster）高性能計算集群。網絡層面，計算節點間存在海量的數據交互需求，隨著集群規模擴大，通信性能會直接影響訓練效率。騰訊自研的星脈網絡，為新一代集群帶來了業界最高的 3.2T 的超高通信帶寬。

據介紹，騰訊對大模型集群網絡做了以下幾大優化：

（1）采用高性能 RDMA 網絡

RDMA（GPU 之間直接通信），是一種高性能、低延遲的網絡通信技術，主要用于數據中心高性能計算，允許計算節點之間直接通過 GPU 進行數據傳輸，無需操作系統內核和 CPU 的參與。這種數據傳輸方法可以顯著提高吞吐量并降低延遲，從而使計算節點之間的通信更加高效。

過往的數據中心 VPC 網絡，在源服務器與目標服務器之間傳輸時，需要經過多層協議棧的處理，過往數據每一層都會產生延遲，而騰訊自研的星脈 RDMA 網絡，可以讓 GPU 之間直接進行數據通信。

打個比方，就像之前貨物在運輸途中需要多次分揀和打包，現在通過高速傳送帶、不經過中間環節，貨物直接送到目的地

同時，由于星脈 RDMA 直接在 GPU 中傳輸數據，CPU 資源得以節省，從而提高計算節點的整體性能和效率。

（2）自研網絡協議（TiTa）

在網絡協議上，騰訊云通過自研 TiTa 協議，讓數據交換不擁塞、時延低，使星脈網絡可以實現 90% 負載 0 丟包。

網絡協議是在計算節點之間傳輸數據的規則和標準，主要關注數據傳輸的控制方式，能改善網絡連接性能、通信效率和延遲問題。

為了滿足大型模型訓練中的超低時延、無損和超大帶寬要求，傳統的網絡協議由于其固有的設計與性能限制，無法滿足這些需求，還需要對“交通規則”進行優化。

星脈網絡采用的自研端網協同協議 TiTa，可提供更高的網絡通信性能，特別是在滿足大規模參數模型訓練的需求方面。TiTa 協議內嵌擁塞控制算法，以實時監控網絡狀態并進行通信優化，使得數據傳輸更加流暢且延遲降低。

（3）定制化高性能集合通信庫 TCCL

通信庫在訓練過程中負責管理計算節點間的數據通信。面對定制設計的高性能組網架構，業界開源的 GPU 集合通信庫（比如 NCCL）并不能將網絡的通信性能發揮到極致，從而影響大模型訓練的集群效率。

為解決星脈網絡的適配問題，騰訊云還為星脈定制了高性能集合通信庫 TCCL（Tencent Collective Communication Library），相對業界開源集合通信庫，可以提升 40% 左右的通信性能。

并在網卡設備管理、全局網絡路由、拓撲感知親和性調度、網絡故障自動告警等方面融入了定制設計的解決方案。

（4）多軌道網絡架構

星脈網絡對通信流量做了基于多軌道的流量親和性規劃，使得集群通信效率達 80% 以上。

多軌道流量聚合架構將不同服務器上位于相同位置的網卡，都歸屬于同一 ToR switch；不同位置的網卡，歸屬于不同的 ToR switch。由于每個服務器有 8 張計算平面網卡，這樣整個計算網絡平面從物理上劃分為 8 個獨立并行的軌道平面。

在多軌道網絡架構中，AI 訓練產生的通信需求（AllReduce、All-to-All 等）可以用多個軌道并行傳輸加速，并且大部分流量都聚合在軌道內傳輸（只經過一級 ToR switch），小部分流量才會跨軌道傳輸（需要經過二級 switch），大幅減輕了大規模下的網絡通信壓力。

（5）異構網絡自適應通信

大規模 AI 訓練集群架構中，GPU 之間的通信實際上由多種形式的網絡來承載的：機間網絡（網卡 + 交換機）與機內網絡（NVLink/NVSwitch 網絡、PCIe 總線網絡）。

星脈網絡將機間、機內兩種網絡同時利用起來，達成異構網絡之間的聯合通信優化，使大規模 All-to-All 通信在業務典型 message size 下的傳輸性能提升達 30%。

（6）自研全棧網絡運營系統

為確保星脈網絡的高可用性，騰訊云還自研了端到端全棧網絡運營系統，先是實現了端網部署一體化以及一鍵故障定位，提升高性能網絡的易用性，進而通過精細化監控與自愈手段，提升可用性，為極致性能的星脈網絡提供全方位運營保障。

具體應用成效方面，大模型訓練系統的整體部署時間可以從 19 天縮減至 4.5 天，保證基礎配置 100% 準確，并讓系統故障的排查時間由天級降低至每分鐘級，故障的自愈時間縮短到秒級。

寫在最后

AI 大模型時代給網絡帶來了新的機遇與挑戰。隨著 GPU 算力的持續提升，GPU 集群網絡架構也需要不斷迭代升級。

王亞晨表示，未來，星脈網絡將圍繞算力網卡、高效轉發、在網計算、高速互聯四大方向持續迭代。“這四個迭代方向也與我們面臨的痛點相關，目前我們重點發力算力網卡和高效轉發這兩大方向。其中，算力網卡需要與交換機做配合，實現更優的、類似主動預測控制的機制，讓網絡更不容易擁塞；高效轉發方面，之后可能會變成定長包的轉發機制，這樣也能保證整體效率。”

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

gpu

gpu

+關注

關注
28

文章
4768

瀏覽量
129214
服務器

服務器

+關注

關注
12

文章
9295

瀏覽量
85856
大模型

大模型

+關注

關注
2

文章
2538

瀏覽量
3010
AI大模型

AI大模型

+關注

關注
0

文章
320

瀏覽量
337

原文標題：AI 大模型狂飆的背后：高性能計算網絡是如何“織”成的？

文章出處：【微信號：AI前線，微信公眾號：AI前線】歡迎添加關注！文章轉載請注明出處。

訓練AI大模型需要什么樣的gpu

訓練AI大模型需要選擇具有強大計算能力、足夠顯存、高效帶寬、良好散熱和能效比以及良好兼容性和擴展性的GPU。在選擇時，需要根據具體需求進行權衡和選擇。

發表于 12-03 10:10 ?178次閱讀

智算中心網絡交換機需要什么樣的緩存架構

?在交換機上，緩存就是數據交換的緩沖區，被交換機用來協調不同網絡設備之間的速度匹配問題，突發數據可以存儲在緩沖區內，直到被慢速設備處理為止。數據中心交換機應用在HPC/AI大模型訓練、分布式存儲等

發表于 11-14 16:53 ?532次閱讀

智算中心<b class='flag-5'>網絡</b>交換機<b class='flag-5'>需要什么樣</b>的緩存架構

名單公布！【書籍評測活動NO.49】大模型啟示錄：一本AI應用百科全書

一次大模型變革中，完全不缺態度，只缺認知與落地的經驗。在過去的兩年中，我們看到了全球太多的巨頭和普通中小企業，進入All in AI的投資周期。有的已經開始落地到具體的生產流程，例如企業內部客服、優化

發表于 10-28 15:34

AI大模型與深度學習的關系

AI大模型與深度學習之間存在著密不可分的關系，它們互為促進，相輔相成。以下是對兩者關系的介紹：一、深度學習是AI大模型的基礎技術支撐：深度學習是一種機器學習的方法，通過多層神經

發表于 10-23 15:25 ?1089次閱讀

ai模型訓練需要什么配置

AI模型訓練是一個復雜且資源密集的過程，它依賴于高性能的硬件配置來確保訓練的效率和效果。一、處理器（CPU） CPU是計算機的核心部件，負責處理各種計算任務。在AI模型訓練中，CPU

發表于 10-17 18:10 ?1699次閱讀

【「大模型時代的基礎架構」閱讀體驗】+ 未知領域的感受

國慶前就收到《大模型時代的基礎架構》一書，感謝電子發燒友論壇。歡度國慶之余，今天才靜下心來體驗此書，書不厚，200余頁，彩色圖例，印刷精美！當初申請此書，主要是看到副標題“大模型算力中心建設指南

發表于 10-08 10:40

大模型時代的算力需求

現在AI已進入大模型時代，各企業都爭相部署大模型，但如何保證大模型的算力，以及相關的穩定性和性能，是一個極為重要的問題，帶著這個極為重要的問

發表于 08-20 09:04

ai大模型和ai框架的關系是什么

AI大模型和AI框架是人工智能領域中兩個重要的概念，它們之間的關系密切且復雜。 AI大模型的定義和特點

發表于 07-16 10:07 ?4.4w次閱讀

AI智能眼鏡都需要什么芯片

國內的廠家又該如何跟上這一潮流趨勢？那咱們國內廠商的AI智能眼鏡究竟需要什么樣的芯片來支撐它的運行呢？如果你對以上問題感興趣的話就來聽我嘮嘮吧。接下來介紹設計AI智

發表于 07-11 08:17 ?1523次閱讀

ai開發需要什么配置

AI開發是一個復雜的過程，涉及到多個方面的配置。硬件配置 AI開發需要高性能的硬件支持，主要包括以下幾個方面： 1.1 CPU AI開發需要

發表于 07-02 09:54 ?1400次閱讀

科技云報道：“老三樣”不管用了，網絡安全要靠啥？

新時代需要新方法

發表于 04-18 16:01 ?294次閱讀

生成式 AI 進入模型驅動時代

人意識到，需要針對特定的應用對模型進行更廣泛的訓練。因此，只要說到“生成式AI”這個詞，我們很自然地就會聯想到要使用經過訓練的模型。但是，生成式AI

發表于 04-13 08:12 ?567次閱讀

解鎖AI時代的利器——訊飛AI鼠標AM30助你在AI時代脫穎

飛AI鼠標AM30就是你在AI時代的利器，它憑借其出色的功能和特點，助你在激烈的競爭中脫穎而出。訊飛AI鼠標AM30搭載了星火認知大模型

發表于 03-25 13:37 ?602次閱讀

AI時代怎么樣不被淘汰？訊飛AI鼠標助力你在AI時代成長

AI時代怎么樣不被淘汰？訊飛AI鼠標助力你在AI時代成長隨著人工智能的發展，

發表于 03-23 11:41 ?740次閱讀

防止AI大模型被黑客病毒入侵控制（原創）聆思大模型AI開發套件評測4

在訓練一只聰明的AI小動物解決實際問題，通過構建神經網絡模型并進行推理，讓電腦也能像人一樣根據輸入信息做出決策。在上述示例中，我創建了一個簡單的深度學習

發表于 03-19 11:18