隨著AI預(yù)訓(xùn)練大模型的價(jià)值不斷顯現(xiàn),且模型規(guī)模愈發(fā)龐大。產(chǎn)學(xué)各界已經(jīng)形成了這樣一個(gè)共識(shí):AI時(shí)代,算力就是生產(chǎn)力。
這一認(rèn)知雖然正確,卻并不全面。數(shù)字化系統(tǒng)有存、算、網(wǎng)三大支柱,AI技術(shù)也是如此。如果拋開存儲(chǔ)和網(wǎng)絡(luò)談算力,那么大模型只能獨(dú)木難支。尤其是與大模型適配的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,一直以來(lái)都沒(méi)有得到有效的重視。
面對(duì)動(dòng)輒“萬(wàn)卡集訓(xùn)”“萬(wàn)里部署”“萬(wàn)億參數(shù)”的AI大模型,網(wǎng)絡(luò)運(yùn)力是整個(gè)智能化體系中不容忽視的一環(huán)。其面臨的挑戰(zhàn)非常突出,也正在等待可以破局的答案。
(華為數(shù)據(jù)通信產(chǎn)品線總裁 王雷)
9月20日,華為全聯(lián)接大會(huì)2023期間舉辦了“星河AI網(wǎng)絡(luò),加速行業(yè)智能化”為主題的數(shù)通峰會(huì)。各界代表共同探討了AI網(wǎng)絡(luò)技術(shù)的變革與發(fā)展趨勢(shì)。會(huì)上,華為數(shù)據(jù)通信產(chǎn)品線總裁王雷正式發(fā)布星河AI網(wǎng)絡(luò)解決方案。他表示,大模型讓AI更聰明,但訓(xùn)練一個(gè)大模型的成本非常高,同時(shí)還要考慮AI人才的成本。因此,在行業(yè)智能化階段,集中建設(shè)大算力集群,面向社會(huì)提供智算云服務(wù),才能真正讓人工智能深入千行萬(wàn)業(yè)。華為發(fā)布新一代星河AI網(wǎng)絡(luò)解決方案,面向智能時(shí)代,打造超高吞吐、長(zhǎng)穩(wěn)可靠、彈性高并發(fā)的新型網(wǎng)絡(luò)基礎(chǔ)設(shè)施,助力AI普惠,加速行業(yè)智能化。
借此機(jī)會(huì),我們一起了解大模型崛起,給智算數(shù)據(jù)中心帶來(lái)的網(wǎng)絡(luò)挑戰(zhàn),以及華為星河AI網(wǎng)絡(luò)為什么是這些問(wèn)題的最優(yōu)解。
如果說(shuō),一個(gè)模型、一條數(shù)據(jù)、一個(gè)計(jì)算單元,都是AI時(shí)代的一道星光。那么只有把它們高效穩(wěn)定地聯(lián)接起來(lái),才能組成智能世界的燦爛星河。
大模型爆發(fā),隱藏的網(wǎng)絡(luò)激流
我們知道,AI模型分為訓(xùn)練和推理部署兩個(gè)階段。伴隨著預(yù)訓(xùn)練大模型的興起,這兩個(gè)階段也分別發(fā)生了巨大的AI網(wǎng)絡(luò)挑戰(zhàn)。
首先是在大模型的訓(xùn)練階段。伴隨著模型規(guī)模與數(shù)據(jù)參數(shù)愈發(fā)龐大,大模型訓(xùn)練開始需要千卡甚至萬(wàn)卡規(guī)模的計(jì)算集群來(lái)完成。這也意味著大模型訓(xùn)練必然發(fā)生在具備AI算力的數(shù)據(jù)中心當(dāng)中。
在目前階段,智算數(shù)據(jù)中心的成本是非常高昂的。根據(jù)行業(yè)數(shù)據(jù),每建設(shè)100P算力的集群,成本就要達(dá)到4億人民幣。以某國(guó)際知名大模型為例,其訓(xùn)練過(guò)程中每天的算力花費(fèi)就要達(dá)到70萬(wàn)美元。
如果數(shù)據(jù)中心網(wǎng)絡(luò)的聯(lián)接能力不暢,造成大量算力資源折損在網(wǎng)絡(luò)傳輸過(guò)程中,那么給數(shù)據(jù)中心與AI模型帶來(lái)的損失是難以估量的。相反,如果同等算力規(guī)模下,集群訓(xùn)練效率更高,那么數(shù)據(jù)中心將獲得巨大商機(jī)。而負(fù)載率等網(wǎng)絡(luò)因素,直接決定了AI模型的訓(xùn)練效率。另一方面,由于AI算力集群的規(guī)模不斷擴(kuò)大,其復(fù)雜度也在相應(yīng)增長(zhǎng),于是其故障發(fā)生概率也在提升。打造長(zhǎng)穩(wěn)可靠的集群網(wǎng)絡(luò),是數(shù)據(jù)中心提升投入產(chǎn)出比的重要支點(diǎn)。
在數(shù)據(jù)中心之外,AI模型的推理部署場(chǎng)景中,同樣也可以看到AI網(wǎng)絡(luò)的價(jià)值體現(xiàn)。大模型的推理部署主要依靠云服務(wù),而云服務(wù)商必須在算力資源有限的情況下,盡量服務(wù)更大的客戶,以此實(shí)現(xiàn)大模型的商業(yè)價(jià)值最大化。如此一來(lái),用戶越多整個(gè)云網(wǎng)結(jié)構(gòu)就會(huì)越復(fù)雜。如何能夠提供長(zhǎng)期穩(wěn)定的網(wǎng)絡(luò)服務(wù),成為了云計(jì)算服務(wù)商新的挑戰(zhàn)。
除此之外,在AI推理部署的最后一公里,政企用戶面臨著網(wǎng)絡(luò)質(zhì)量提升的需求。在真實(shí)場(chǎng)景下,1%的鏈路丟包會(huì)導(dǎo)致TCP性能下降50倍,也就是100Mbps的寬帶,實(shí)際能力不足2Mbps。因此,提升應(yīng)用場(chǎng)景本身的網(wǎng)絡(luò)能力,才可以保證AI算力順暢流動(dòng),實(shí)現(xiàn)真正的普惠AI。
由此不難看出,在AI大模型的誕生、傳輸、應(yīng)用全流程中,每個(gè)環(huán)節(jié)都面臨著網(wǎng)絡(luò)升級(jí)的挑戰(zhàn)與需求。大模型時(shí)代的運(yùn)力難題,亟待破局解題。
從星光到星河,智能時(shí)代的網(wǎng)絡(luò)破局思路
大模型崛起帶來(lái)的網(wǎng)絡(luò)難題是一個(gè)多環(huán)節(jié)、全流程的挑戰(zhàn)。因此,對(duì)應(yīng)的破局思路也必須是一個(gè)系統(tǒng)性工程。
華為提出,面向智算云服務(wù)的新型網(wǎng)絡(luò)基礎(chǔ)設(shè)施,需要支持 “訓(xùn)練高效能”“算力不停歇”“普惠AI服務(wù)”。這三項(xiàng)能力,對(duì)應(yīng)了AI大模型從訓(xùn)練到推理部署的全場(chǎng)景。不僅著眼于單一需求滿足,單一技術(shù)的升級(jí),而是全面推進(jìn)AI網(wǎng)絡(luò)迭代,正是華為數(shù)據(jù)通信帶給行業(yè)獨(dú)特的破局思路。
具體而言,AI時(shí)代的網(wǎng)絡(luò)基礎(chǔ)設(shè)施需要包含如下能力:
首先,在訓(xùn)練場(chǎng)景網(wǎng)絡(luò)需要最大化發(fā)揮出AI計(jì)算集群的價(jià)值。通過(guò)打造具備超大規(guī)模聯(lián)接能力的網(wǎng)絡(luò),實(shí)現(xiàn)AI大模型的訓(xùn)練高效能。
其次,為了保障AI任務(wù)的穩(wěn)定可持續(xù),需要打造長(zhǎng)穩(wěn)可靠的網(wǎng)絡(luò)能力,保障月級(jí)訓(xùn)練不中斷,同時(shí)要有秒級(jí)的穩(wěn)定定界、定位和回復(fù),盡可能降低訓(xùn)練中斷時(shí)常。這就是算力不停歇的能力建設(shè)。
再次,AI推理部署過(guò)程中,要求網(wǎng)絡(luò)具有彈性高并發(fā)的特質(zhì),可以智能編排海量用戶流,提供最佳的AI落地體驗(yàn),同時(shí)可以對(duì)抗網(wǎng)絡(luò)劣化沖擊,保障不同區(qū)域間AI算力順暢流動(dòng),這也就實(shí)現(xiàn)了“普惠AI服務(wù)”的能力建設(shè)。
秉承這樣的破局思路,華為最終帶來(lái)了星河AI網(wǎng)絡(luò)解決方案。它把散落的AI星光,基于強(qiáng)大運(yùn)力聯(lián)成一片星河。
星河AI網(wǎng)絡(luò),給大模型紀(jì)元一個(gè)運(yùn)力答案
華為全聯(lián)接大會(huì)2023的期間,華為分享了對(duì)以大算力、大存力、大運(yùn)力加速AI大模型打造的發(fā)展愿景。新一代華為星河AI網(wǎng)絡(luò)解決方案,就可以說(shuō)是面向智能時(shí)代,華為為大模型帶來(lái)的運(yùn)力答案。
對(duì)于智能數(shù)據(jù)中心來(lái)說(shuō),華為星河AI網(wǎng)絡(luò)是以網(wǎng)強(qiáng)算的最優(yōu)解。
其所具備的超高吞吐網(wǎng)絡(luò)特質(zhì),可以面向智算中心的AI集群提供提升網(wǎng)絡(luò)負(fù)載率,強(qiáng)化訓(xùn)練效率的重要價(jià)值。具體來(lái)說(shuō),星河AI網(wǎng)絡(luò)智算交換機(jī)具有業(yè)界最高密400GE和800GE端口能力,僅2層交換網(wǎng)絡(luò)就可以實(shí)現(xiàn)1萬(wàn)8000卡的無(wú)收斂集群組網(wǎng),從而支持超萬(wàn)億參數(shù)的大模型訓(xùn)練。組網(wǎng)層次一旦減少,就意味著數(shù)據(jù)中心能夠節(jié)省了大量的光模塊成本,同時(shí)提高對(duì)網(wǎng)絡(luò)風(fēng)險(xiǎn)的可預(yù)測(cè)性,獲得更加穩(wěn)定的大模型訓(xùn)練能力。
星河AI網(wǎng)絡(luò)可以支持網(wǎng)絡(luò)級(jí)負(fù)載均衡NSLB,能夠?qū)⒇?fù)載率從50%提升到98%,相當(dāng)于實(shí)現(xiàn)AI集群超頻運(yùn)行,繼而將訓(xùn)練效率提升20%,達(dá)成高效能訓(xùn)練的預(yù)期。
對(duì)于云服務(wù)廠商來(lái)說(shuō),星河AI網(wǎng)絡(luò)可以提供穩(wěn)定可靠的算力保障。
其能夠在DCI算間互聯(lián)場(chǎng)景,提供多路徑智能調(diào)度等技術(shù),自動(dòng)識(shí)別、主動(dòng)適應(yīng)業(yè)務(wù)高峰流量的沖擊,可以從百萬(wàn)數(shù)據(jù)流中識(shí)別大小流,合理分配到10萬(wàn)路徑,從而實(shí)現(xiàn)網(wǎng)絡(luò)0擁塞,彈性保障高并發(fā)的智算云服務(wù)。
對(duì)于政企用戶來(lái)說(shuō),星河AI網(wǎng)絡(luò)可以應(yīng)對(duì)網(wǎng)絡(luò)劣化問(wèn)題,保障普惠化的AI算力。
其能夠在DCA入算場(chǎng)景支持彈性抗劣化能力,采用Fillp技術(shù)優(yōu)化TCP協(xié)議,可以在1%丟包率的情況下將帶寬負(fù)載率從10%提升至60%,從而保障從都市圈到偏遠(yuǎn)地區(qū)的算力順暢流動(dòng),加速AI服務(wù)的普惠應(yīng)用。
如此一來(lái),大模型從訓(xùn)練到部署各個(gè)環(huán)節(jié)的網(wǎng)絡(luò)需求都被打通。從智算中心到千行萬(wàn)業(yè),都有了以網(wǎng)強(qiáng)算的發(fā)展支點(diǎn)。
一個(gè)屬于智能化的時(shí)代,一個(gè)由大模型開啟的科技新紀(jì)元?jiǎng)倓傞_始。星河AI網(wǎng)絡(luò),給智能時(shí)代寫下了一個(gè)關(guān)于運(yùn)力的答案。
-
AI
+關(guān)注
關(guān)注
87文章
31155瀏覽量
269494 -
運(yùn)力計(jì)算
+關(guān)注
關(guān)注
0文章
3瀏覽量
1691 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1281瀏覽量
24353 -
算力
+關(guān)注
關(guān)注
1文章
995瀏覽量
14866 -
大模型
+關(guān)注
關(guān)注
2文章
2491瀏覽量
2871
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論