在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI大模型網絡如何搭建

鮮棗課堂 ? 來源:鮮棗課堂 ? 2023-06-27 11:28 ? 次閱讀

2023年,以ChatGPT為代表的AIGC大模型全面崛起,成為了整個社會關注的焦點。 大模型表現出了強悍的自然語言理解能力,刷新了人們對AI的認知,也掀起了新一輪的“算力軍備競賽”。 大家都知道,AIGC大模型的入局門檻是很高的。玩AI的三大必備要素——算力、算法和數據,每一個都意味著巨大的投入。 以算力為例。ChatGPT的技術底座,是基于微調后的GPT3.5大模型,參數量多達1750億個。為了完成這個大模型的訓練,微軟專門建設了一個AI超算系統,投入了1萬個V100 GPU,總算力消耗約3640 PF-days(即假如每秒計算一千萬億次,需要計算3640天)。 業內頭部廠商近期推出的大模型,參數量規模更是達到萬億級別,需要的GPU更多,消耗的算力更大。 這些數量龐大的GPU,一定需要通過算力集群的方式,協同完成計算任務。這就意味著,需要一張超高性能、超強可靠的網絡,才能把海量GPU聯接起來,形成超級計算集群。 那么,問題來了,這張網絡,到底該如何搭建呢?


高性能網絡的挑戰 想要建設一張承載AIGC大模型的網絡,需要考慮的因素非常多。 首先,是網絡規模。 剛才我們也提到,AI訓練都是10000個GPU起步,也有的達到十萬級。從架構上,目標網絡就必須hold得住這么多的計算節點。而且,在節點增加的同時,集群算力盡量線性提升,不能引入過高的通信開銷,損失算力。 其次,是網絡帶寬。 超高性能的GPU,加上千億、萬億參數的訓練規模,使得計算節點之間的通信量,達到了百GB量級。再加上各種并行模式、加速框架的引入,節點之間的通道帶寬需求會更高。 傳統數據中心通用的100Gbps帶寬接入,根本滿足不了這個需求。我們的目標網絡,接入帶寬必須升級到800Gbps、1.6Tbps,甚至更高。 第三,流量調控。 傳統的網絡架構,在應對AI大模型訓練產生的數據流時,存在缺陷。所以,目標網絡需要在架構上做文章,更好地控制數據流路徑,讓節點和通道的流量更均衡,避免發生擁塞。 第四,協議升級。 網絡協議是網絡工作的行為準則。它的好壞,直接決定了網絡的性能、效率和延遲。 傳統數據中心的TCP/IP協議,早已已無法滿足高性能網絡的大帶寬、低時延需求。性能更強的IB(InfiniBand)協議、RDMA協議,已然成為主流。有實力的廠家,還會基于自家硬件設備,自研更高效的協議。 第五,運維簡化。 這就不用多說了。超大規模的網絡,如果還是采用傳統運維,不僅效率跟不上,還會導致更長的故障恢復周期,損失算力,損失資金。 目前,行業里的“大模頭”們,都會根據自己技術和資金實力,選擇商用網絡組網,或者自研網絡協議。 大家心里很清楚,想要贏得這場比賽,除了算力芯片足夠強之外,網絡的性能表現是至關重要的。網絡越強,集群的算力提升就越大,完成模型訓練的時間就越短,成本也就越低。


星脈網絡,鵝廠的算力集群殺手锏 對于AI大模型這場熱潮,騰訊當然不會缺席。他們推出了業界領先的高性能計算網絡架構——星脈。 騰訊深耕互聯網行業20多年,從QQ到微信,他們的超大規模業務承載能力,可以說是行業頂尖的。在網絡技術的理解和駕馭能力上,也是世界領先水平。而星脈,則是他們多年技術研究的精髓,是真正的殺手锏。 根據實測,星脈實現了AI大模型通信性能的10倍提升、GPU利用率提升40%、通信時延降低40%。 基于全自研的網絡硬件平臺,星脈可以實現網絡建設成本降低30%,模型訓練成本節省30%~60%。 d3c3f47e-1419-11ee-962d-dac502259ad0.png 星脈網絡的算力效率,遠高于業界主流值 ? 接下來,我們不妨深入解讀一下,星脈到底采用了哪些黑科技。在前面所提到的幾項挑戰上,騰訊團隊又是如何應對的。 ?

網絡規模

在組網架構上,星脈網絡采用無阻塞胖樹(Fat-Tree)拓撲,分為Block-Pod-Cluster三級。 d3e95bd8-1419-11ee-962d-dac502259ad0.png 星脈網絡的架構 ? Block是最小單元,包括256個GPU。 ? Pod是典型集群規模,包括16~64個Block,也就是4096~16384個GPU。 ? 多個Block可以組成Cluster。1個Cluster最大支持16個Pod,也就是65536~262144個GPU。 ? 26萬個GPU,這個規模完全能夠滿足目前的訓練需求。 ?

網絡帶寬

騰訊星脈網絡為每個計算節點提供了3.2T的超高通信帶寬。 單個服務器(帶有8個GPU)就是一個計算節點。每個服務器有8塊RoCE網卡。每塊網卡的接口速率是400Gbps。 RoCE,是RDMA over Converged Ethernet(基于聚合以太網的RDMA)。RDMA(遠程直接GPU通信訪問)我們以前介紹過很多次。它允許計算節點之間直接通過內存進行數據傳輸,無需操作系統內核和CPU的參與,能夠大幅減小CPU負荷,降低延遲,提高吞吐量。 d4010b48-1419-11ee-962d-dac502259ad0.png ? 大帶寬帶來的優勢是非常顯著的。對于AllReduce和All-to-All這兩種典型通信模式,在不同集群規模下,1.6Tbps超帶寬都會帶來10倍以上的通信性能提升(相比100Gbps帶寬)。 ? 以AllReduce模式、64 GPU規模為例,采用1.6Tbps超帶寬網絡,將使得AllReduce的耗時大幅縮短14倍,通信占比從35%減少到3.7%,最終使得單次迭代的訓練耗時減少32%。從集群算力的角度來看,相當于用同樣的計算資源,系統算力卻提升48%。 ?

流量調控

為了提升集群的通信效率,星脈網絡對通信流量路徑進行了優化,引入了“多軌道流量聚合架構”。 該架構將不同服務器上位于相同位置的網卡,都歸屬于同一個ToR switch(機柜頂部的匯聚交換機)。整個計算網絡平面,從物理上被劃分為8個獨立并行的軌道平面。 d415d3e8-1419-11ee-962d-dac502259ad0.png ? 在工作時,GPU之間的數據,可以用多個軌道并行傳輸加速。并且,大部分流量,都聚合在軌道平面內傳輸(只經過一級 ToR switch)。只有小部分流量,會跨軌道平面傳輸(需要經過二級 switch)。這大幅減輕了網絡壓力。 ? 星脈網絡還采用了“異構網絡自適應通信技術。 在集群中,GPU之間的通信包括機間網絡(網卡+交換機)與機內網絡( NVLink/NVSwitch 網絡、PCIe 總線網絡)。 星脈網絡將機間、機內兩種網絡同時利用起來,實現了異構網絡之間的聯合通信優化。 例如,在All-to-All通信模式時,每個GPU都會和其它服務器的不同GPU通信。 d44bee10-1419-11ee-962d-dac502259ad0.png ? 基于異構網絡自適應通信技術,不同服務器上相同位置的GPU,在同一軌道平面,仍然走機間網絡通信。 ? 但是,要去往不同位置的GPU(比如host1上的GPU1,需要向其它host上的GPU8 送數據),則先通過機內網絡,轉發到host1上的GPU8上,然后通過機間網絡,來完成通信。 ? 這樣一來,機間網絡的流量,大部分都聚合在軌道內傳輸(只經過一級 ToR switch)。機間網絡的流量大幅減少,沖擊概率也明顯下降,從而提供了整網性能。 ? 根據實測,異構網絡通信在大規模All-to-All場景下,對中小數據包的傳輸性能提升在30%左右。 ?

協議升級

星脈網絡采用的“自研端網協同協議TiTa”,可以提供更高的網絡通信性能,非常適合大規模參數模型訓練。 TiTa協議內嵌擁塞控制算法,可以實時監控網絡狀態并進行通信優化。它就好比是一個智能交通管理系統,可以讓網絡上的數據傳輸更加通暢。 d462af2e-1419-11ee-962d-dac502259ad0.png TiTa協議的處理方式 ? 面對定制設計的高性能組網架構,業界開源的GPU集合通信庫(例如NCCL)并不能將網絡的通信性能發揮到極致。為此,騰訊推出了“高性能集合通信庫TCCL(Tencent Collective Communication Library)”。 TCCL就像一個智能導航系統。它在網卡設備管理、全局網絡路由、拓撲感知親和性調度、網絡故障自動告警等方面進行了深度定制,對網絡了如指掌,讓流量路徑更加合理。 例如,從GPU A到GPU B,原來需要經過9個路口。有了TCCL導航之后,只需要走4個路口,提升了效率。 根據實測,在AllReduce/AllGather/ReduceScatter等常用通信模式下,TCCL能給星脈網絡帶來40%左右的通信性能提升。

部署和運維簡化

算力集群網絡越龐大,它的部署和維護難度也就越大。 為了提升星脈網絡的可靠性,騰訊自研了一套全棧網絡運營系統,實現了“端網部署一體化”“一鍵故障定位”“業務無感秒級網絡自愈”,對網絡進行全方位保駕護航。 先看看“端網部署一體化”。 部署一直都是高性能網絡的痛點。在星脈網絡之前,根據統計,90%的高性能網絡故障問題,是因為配置錯誤導致。原因很簡單,網卡的配置套餐太多(取決于架構版本、業務類型和網卡類型),人為操作很難保證不出錯。 騰訊的解決方法,是將配置過程自動化。 他們通過API的方式,實現單臺/多臺交換機的并行部署能力。 在正式部署前,系統會自動對基礎網絡環境進行校驗,看看上級交換機的配置是否合理等。 然后,識別外部因素,自動選擇配置模板。 配置完成后,為了保證交付質量,運營平臺還會進行自動化驗收,包括一系列的性能和可靠性測試。 d47b9b1a-1419-11ee-962d-dac502259ad0.png ? 所有工作完成后,系統才會進入交付狀態。 ? 根據數據統計,基于端網一體部署能力,大模型訓練系統的整體部署時間從19天縮減到4.5天,并保證了基礎配置100%準確。 ? 再看看運維階段的“一鍵故障定位”。 星脈網絡具有端網高度協同的特點,增加了端側的運營能力。運營平臺通過數據采集模塊,獲取端側服務器和網絡側交換機的數據,聯動網管拓撲信息,可以做到快速診斷與自動化檢查。 一鍵故障定位,可以快速定界問題方向,精準推送到對應團隊的運營人員(網絡or業務),減少溝通成本,劃分責任界限。而且,它還有利于快速定位問題根因,并給出解決方案。 最后,是“業務無感秒級網絡自愈”。 在網絡運行的過程中,故障是無法避免的。 為了將故障自愈時間縮短到極致,騰訊推出了秒級故障自愈產品——“HASH DODGING”。 這是一種基于Hash偏移算法的網絡相對路徑控制方法。即,終端僅需修改數據包頭特定字段(如IP頭TOS字段)的值,即可使得修改后的包傳輸路徑與修改前路徑無公共節點。 在網絡數據平面發生故障(如靜默丟包、路由黑洞)時,該方案可以幫助TCP快速繞過故障點,不會產生對標準拓撲及特定源端口號的依賴。 d4a572d2-1419-11ee-962d-dac502259ad0.png 單路徑傳輸協議下,使用本方案,實現確定性換路 ? ? 結語 以上,就是對騰訊星脈高性能計算網絡的關鍵技術分析。 這些關鍵技術,揭示了高性能網絡的發展思路和演進方向。隨著AI大模型的深入發展,人類對AI算力的需求會不斷增加。 日前,騰訊云發布的新一代HCC高性能計算集群,正是基于星脈高性能網絡打造,算力性能較前代提升3倍,為AI大模型訓練構筑可靠的高性能網絡底座。 未來已來,這場圍繞算力和連接力的角逐已經開始。更多的精彩還在后面,讓我們拭目以待吧!

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 網絡
    +關注

    關注

    14

    文章

    7571

    瀏覽量

    88897
  • AI
    AI
    +關注

    關注

    87

    文章

    30998

    瀏覽量

    269329
  • TCP
    TCP
    +關注

    關注

    8

    文章

    1362

    瀏覽量

    79113

原文標題:死磕AI大模型網絡,鵝廠出招了!

文章出處:【微信號:鮮棗課堂,微信公眾號:鮮棗課堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    防止AI模型被黑客病毒入侵控制(原創)聆思大模型AI開發套件評測4

    在訓練一只聰明的AI小動物解決實際問題,通過構建神經網絡模型并進行推理,讓電腦也能像人一樣根據輸入信息做出決策。 在上述示例中,我創建了一個簡單的深度學習模型,該
    發表于 03-19 11:18

    用TINA如何搭建仿真模型

    使用TINA仿真單極運放的環路,仿真模型知道怎么搭建,現在要仿真由兩級TL082搭建的兩級運放的環路穩定性,請教,用TINA如何搭建仿真模型
    發表于 08-15 08:10

    AI模型可以設計電路嗎?

    AI模型
    電子發燒友網官方
    發布于 :2024年01月02日 15:09:29

    AI模型怎么解決芯片過剩?

    AI模型
    電子發燒友網官方
    發布于 :2024年01月02日 15:42:05

    Firefly支持AI引擎Tengine,性能提升,輕松搭建AI計算框架

    的計算圖表示。ARM專用AI引擎 Tengine支持了Firefly平臺,可以輕松搭建AI計算框架,性能大幅度提升,助力AI開發。在Firefly-RK3399平臺上,安裝Tengin
    發表于 08-13 15:58

    AI學習】第3篇--人工神經網絡

    `本篇主要介紹:人工神經網絡的起源、簡單神經網絡模型、更多神經網絡模型、機器學習的步驟:訓練與預測、訓練的兩階段:正向推演與反向傳播、以Te
    發表于 11-05 17:48

    AI概論:來來來,成為AI的良師益友》高煥堂老師帶你學AI

    模型、更多神經網絡模型、機器學習的步驟:訓練與預測、訓練的兩階段:正向推演與反向傳播、以TensoRFlow + Excel表達訓練流程以及AI普及化教育之路。 7.【
    發表于 11-05 17:55

    使用STM32CubeMX和X-CUBE-AI生成代碼

    神經網絡模型部署到MCU 之 環境搭建教程前提工作:已經搭建好了神經網絡模型(tensorflo
    發表于 11-01 06:17

    輕量化神經網絡的相關資料下載

    視覺任務中,并取得了巨大成功。然而,由于存儲空間和功耗的限制,神經網絡模型在嵌入式設備上的存儲與計算仍然是一個巨大的挑戰。前面幾篇介紹了如何在嵌入式AI芯片上部署神經網絡:【嵌入式
    發表于 12-14 07:35

    介紹在STM32cubeIDE上部署AI模型的系列教程

    介紹在STM32cubeIDE上部署AI模型的系列教程,開發板型號STM32H747I-disco,值得一看。MCUAI原文鏈接:【嵌入式AI開發】篇四|部署篇:STM32cubeIDE上部署神經
    發表于 12-14 09:05

    神經網絡模型部署到MCU 之 環境搭建教程

    神經網絡模型部署到MCU 之 環境搭建教程前提工作:已經搭建好了神經網絡模型(tensorflo
    發表于 10-26 18:36 ?5次下載
    神經<b class='flag-5'>網絡</b><b class='flag-5'>模型</b>部署到MCU 之 環境<b class='flag-5'>搭建</b>教程

    simulink搭建的摩擦模型

    永磁同步電機simulink模型搭建 1、總搭建模型2、各搭建模塊2.1永磁電機模塊 一共六個輸出,分別是轉速,位置(角度),轉矩,三相電流。 2.2AC-DC-AC模塊2.3反饋顯示
    發表于 03-14 09:33 ?0次下載
    simulink<b class='flag-5'>搭建</b>的摩擦<b class='flag-5'>模型</b>

    卷積神經網絡模型搭建

    卷積神經網絡模型搭建 卷積神經網絡模型是一種深度學習算法。它已經成為了計算機視覺和自然語言處理等各種領域的主流算法,具有很大的應用前景。本篇
    的頭像 發表于 08-21 17:11 ?969次閱讀

    虹科分享 | 谷歌Vertex AI平臺使用Redis搭建大語言模型

    基礎模型和高性能數據層這兩個基本組件始終是創建高效、可擴展語言模型應用的關鍵,利用Redis搭建大語言模型,能夠實現高效可擴展的語義搜索、檢索增強生成、LLM 緩存機制、LLM記憶和持
    的頭像 發表于 09-18 11:26 ?658次閱讀
    虹科分享 | 谷歌Vertex <b class='flag-5'>AI</b>平臺使用Redis<b class='flag-5'>搭建</b>大語言<b class='flag-5'>模型</b>

    小米加速布局AI模型搭建GPU萬卡集群

    近日,有消息稱小米正在緊鑼密鼓地搭建自己的GPU萬卡集群,旨在加大對AI模型的投入力度。據悉,小米的大模型團隊在成立之初就已經擁有了6500張GPU資源,而現在他們正在進一步擴大這一
    的頭像 發表于 12-28 14:25 ?198次閱讀
    主站蜘蛛池模板: 最新色网站| 欧美精品啪啪| 最黄毛片| 国产精品久久久久久久成人午夜 | 亚州怡红院| 天天操天天爽天天射| 殴美一级| 97天天操| 日本欧美一区二区三区视频| xxxx性×xx| 天天怕夜夜怕狠狠怕| 日韩视频高清| 黄色视屏免费看| 123综合网在线| 奇米狠狠操| 黄色欧美| 麻生希痴汉电车avop130| 五月情婷婷| 男人天堂伊人| 国产精品 色| 天天插天天狠| 日本sese| www.亚洲日本| 日本在线黄| 国产黄色精品| 欧美深夜福利| 在厨房乱子伦在线观看| 一个人看aaaa免费中文| 欧美三级小视频| luxu259在线中文字幕| 九九热在线视频观看 | 亚洲黄色录像| 国产精品亚洲精品日韩动图| 亚洲天堂bt| 四虎在线网址| 国产色视频一区| 前后灌满白浆护士| 亚洲一区欧美日韩| 天天爱天天色| 国产高清在线| 国产在线理论片免费播放|