從內容生成、游戲開發、到自動化助手、機器人控制……AIGC這項"黑科技",正在更多領域發揮著作用,并逐漸向行業滲透。例如,在數字政府場景,通過融合AIGC和數字人技術,可以提供個性化的政務服務和咨詢,優化政府與公民的互動方式,提升政務服務的質量和效率。目前,AIGC主要聚焦在大模型訓練、MaaS模型服務、AIGC推理三大應用場景,其中大模型訓練是各新興企業競相爭逐的主要場景。
"沒有好網絡,別玩大模型。" 要建設大規模訓練模型集群,除了需要GPU服務器、網卡等基礎組件,也需要解決網絡搭建的問題。網絡對于大模型集群的算力釋放和可靠運行至關重要,如何構建符合大模型集群計算要求的網絡系統,是推進AIGC發展的關鍵之一。
AIGC大模型訓練 對網絡系統的"三超"要求
在大模型訓練過程中,有三種流量模型,分別是張量并行、流水線并行、數據并行。人們熟知的ChatGPT3,采用128臺A100服務器,共計1024個A100卡訓練,這樣單服務器節點需要4個100G網絡通道;而ChatGPT4、ChatGPT5等其它大模型,對于網絡的需求會更高。浪潮網絡認為大模型訓練對于網絡的要求可用"三超"網絡來概括,即:超大規模、超高帶寬、超強可靠,以保障網絡穩定、可靠運行,為大模型訓練提供強有力的支持。
而要解決"三超"網絡的挑戰,就需要著重思考如何建設符合大規模訓練的組網方案。從組網架構上看,當前AIGC組網一般多采用胖樹架構,具有高帶寬、低延遲的特性,以及較好的可拓展性。而在組網協議上,當前業界主流的是基于IB、及RoCE兩種無損網絡技術,兩種技術都可以很好的滿足大規模訓練高帶寬、低延遲的要求。IB的延遲足夠低,而RoCE在開放性、性價比、及易維護性幾方面更勝一籌。
浪潮網絡融合趨勢與驅動 打造基于RoCE的智能無損網絡解決方案
浪潮網絡作為云邊協同智慧網絡引領者,密切關注市場發展及變化,推出了基于RoCE的智能無損網絡解決方案,助力AIGC"三超"網絡的打造,其具備如下優勢:
一是多協議、多場景的融合。在大規模集群中,往往存在通用計算集群、AI/HPC集群、存儲等多種場景,傳統方案是部署以太網、IB、FC等多套網絡及多種協議,各協議之間互不兼容,大大增加了管理和維護的難度。而浪潮網絡基于RoCE的智能無損網絡解決方案,可以適配通用計算、AI/HPC、存儲等多種場景,并實現以太/IB/FC三網融合。這樣從維護多張網絡到維護一張網絡,大大降低了整體建設和維護成本。
二是智能彈性、動態調整。在大規模集群訓練中,要求整個集群可以快速部署與交付,在節約訓練時間的同時,盡可能減少宕機等故障的發生。在浪潮網絡基于RoCE的智能無損網絡解決方案中,通過數字化網絡引擎IDE可以實現集群網絡的自動化部署,加速業務上線。并實時監控設備與鏈路的負載和健康狀態,如CRC錯包,端口帶寬百分比、隊列緩存,CNP及Pause反壓幀等,完成故障的快速定位及智能分析,實現基于業務的網絡跟蹤。此外,還可以提供北向標準API接口,能夠與上層計算平臺進行對接,實現算網聯動,更好的釋放集群算力。
此前,浪潮網絡基于RoCE的智能無損網絡解決方案,已在教科研客戶項目中得以應用,方案可充分滿足通用計算集群、GPU加速集群、異構計算集群、分布式存儲集群、全閃存存儲集群等多場景,對于網絡的高帶寬、低延遲連接需求,幫助客戶構建滿足AIGC發展的整體網絡架構。
未來,浪潮網絡將持續優化基于RoCE的智能無損網絡產品方案能力,同時深入研究基于UEC的網絡并創新引領支持UEC的產品,幫助客戶成功。
審核編輯:湯梓紅
-
浪潮
+關注
關注
1文章
460瀏覽量
23864 -
AIGC
+關注
關注
1文章
362瀏覽量
1543 -
大模型
+關注
關注
2文章
2450瀏覽量
2707
發布評論請先 登錄
相關推薦
評論