8月25日,在青島舉行的全國高性能計(jì)算學(xué)術(shù)年會大會(CCF HPC China 2023)上,2023華為高性能計(jì)算解決方案分論壇同步舉辦。來自武漢超算中心的運(yùn)營負(fù)責(zé)人陳斌分享了“武漢超算全棧國產(chǎn)HPC解決方案方法與運(yùn)營”。
武漢超算運(yùn)營負(fù)責(zé)人 陳斌 現(xiàn)場分享
數(shù)字經(jīng)濟(jì)時代,算力就是生產(chǎn)力。
提及武漢和湖北,總離不開“樞紐”二字,湖北地處中國南北連接中心,素有“九省通衢”之稱,武漢又是位于長江黃金水道的中心城市。得益于獨(dú)特的地理區(qū)位優(yōu)勢,湖北正努力從區(qū)位交通樞紐躍升數(shù)字經(jīng)濟(jì)樞紐,而其中的關(guān)鍵正是算力。
《湖北數(shù)字經(jīng)濟(jì)強(qiáng)省三年行動計(jì)劃(2022-2024年)》提出打造新型基礎(chǔ)設(shè)施中部樞紐節(jié)點(diǎn)的發(fā)展目標(biāo),建設(shè)全國一體化算力網(wǎng)絡(luò)國家樞紐中部節(jié)點(diǎn)成為重要行動。毫無疑問,算力已成為推動數(shù)字經(jīng)濟(jì)發(fā)展的核心力量。
超級計(jì)算,該配什么樣的超級網(wǎng)絡(luò)?
兩年前,武漢超算中心啟動建設(shè),作為國內(nèi)最大的集裝箱超算中心,整體規(guī)劃設(shè)計(jì)算力為200P,首期算力達(dá)到50P。武漢超算中心與緊鄰的武漢人工智能計(jì)算中心投運(yùn)形成合力,助力武漢成為國內(nèi)為數(shù)不多的擁有超算和智算雙中心城市的同時,也在助力湖北打造成為國家算力網(wǎng)絡(luò)中部樞紐目標(biāo)中發(fā)揮著重要的推動作用。
值得一說的是,無論是HPC還是AI計(jì)算,算力的極致釋放離不開高吞吐、低延遲的網(wǎng)絡(luò)加持,就像一輛汽車從一城快速駛向另一城,除了自身具備高性能的發(fā)動機(jī)等特性外,還離不開更高效、更高質(zhì)量的網(wǎng)絡(luò)進(jìn)行高速互聯(lián)。
過去數(shù)年,InfiniBand網(wǎng)絡(luò)在HPC系統(tǒng)中占據(jù)了絕對領(lǐng)先份額,原因無他,通過引入RDMA協(xié)議,InfiniBand網(wǎng)絡(luò)大大降低了數(shù)據(jù)傳輸時延,成為高性能網(wǎng)絡(luò)的代表。不過,其也有著明顯的弊端,不同于TCP/IP協(xié)議棧,Infiniband擁有自己的網(wǎng)絡(luò)層和傳輸層協(xié)議,所以體系相對封閉,并且運(yùn)維復(fù)雜、價格昂貴。
為了釋放極致算力,武漢超算中心在建設(shè)實(shí)踐中則選擇了開放的RoCE(RDMA over Converged Ethernet)路線,基于華為超融合以太網(wǎng)絡(luò)解決方案構(gòu)建面向HPC和AI計(jì)算的智能無損高性能計(jì)算網(wǎng)絡(luò),不僅滿足高性能計(jì)算需求,同時提升了投資回報率。
釋放極致算力,湖北超算攜手華為
構(gòu)建智能無損高性能計(jì)算網(wǎng)絡(luò)
高性能計(jì)算實(shí)現(xiàn)的前提是計(jì)算、存儲、網(wǎng)絡(luò)端到端的高性能,任何一方成為系統(tǒng)性能的短木板,都將導(dǎo)致整體系統(tǒng)性能發(fā)揮面臨瓶頸。
武漢超算中心之所以選擇華為超融合以太解決方案,首要原因是看到了其實(shí)現(xiàn)網(wǎng)絡(luò)高性能的三個核心指標(biāo):0丟包、低時延、高吞吐。華為智能無損高性能計(jì)算網(wǎng)絡(luò)實(shí)現(xiàn)從“盡力而為”連通型網(wǎng)絡(luò)向“提供確定性SLA保障”性能型網(wǎng)絡(luò)演進(jìn),將網(wǎng)絡(luò)高性能提升至新的高度,從而100%釋放算力。
實(shí)現(xiàn)這一核心能力的背后,源于華為獨(dú)創(chuàng)的iLossless智能無損算法,華為智能無損高性能計(jì)算網(wǎng)絡(luò)通過流量控制技術(shù)、擁塞控制技術(shù)、流量調(diào)度技術(shù)和應(yīng)用加速等技術(shù)的結(jié)合,解決發(fā)送端與接收端的速率匹配問題、網(wǎng)絡(luò)擁塞時對流量的速率控制問題、業(yè)務(wù)流量與網(wǎng)絡(luò)鏈路的負(fù)載均衡性等問題,從而讓0丟包、低時延、高吞吐成為可能,并通過對超算網(wǎng)絡(luò)的流量模型進(jìn)行分析,進(jìn)而支持各種計(jì)算密集型和數(shù)據(jù)密集型應(yīng)用的高效運(yùn)行。
無論是預(yù)防PFC死鎖的發(fā)生、緩解/解除擁塞、進(jìn)行負(fù)載分擔(dān)/網(wǎng)絡(luò)均衡,還是差異化SLA動態(tài)優(yōu)化保障,一個真正的智能無損高性能計(jì)算網(wǎng)絡(luò)就此形成,這也為武漢超算中心帶來了顯著價值。
一是滿足了網(wǎng)絡(luò)高性能的建設(shè)訴求。武漢超算中心在項(xiàng)目部署前通過對96節(jié)點(diǎn)集群規(guī)模進(jìn)行全面的對比測試,在MPI、Benchmark和HPC典型應(yīng)用測試中,華為智能無損高性能計(jì)算網(wǎng)絡(luò)性能與InfiniBand網(wǎng)絡(luò)整體基本持平,局部小幅領(lǐng)先,完全滿足業(yè)務(wù)的高性能需求。
二是顯著降低了網(wǎng)絡(luò)的建設(shè)、運(yùn)維成本。基于標(biāo)準(zhǔn)的以太網(wǎng)架構(gòu),華為超融合以太網(wǎng)絡(luò)解決方案帶來了一張統(tǒng)一融合的網(wǎng)絡(luò)。通過將通用計(jì)算、存儲和高性能計(jì)算統(tǒng)一承載在0丟包以太網(wǎng)技術(shù)棧上,打破傳統(tǒng)分散架構(gòu)限制,實(shí)現(xiàn)從三張網(wǎng)到一張網(wǎng)的融合部署。從而降低了網(wǎng)絡(luò)的建設(shè)成本,而不必再進(jìn)行計(jì)算和存儲網(wǎng)絡(luò)的獨(dú)立建設(shè),同時降低了運(yùn)維成本,支持SDN云網(wǎng)自動化,提升了運(yùn)維效率。
整體看來,武漢超算中心為釋放極致算力,打造了一張性能、兼容性、成本效益和靈活性兼具的高性能網(wǎng)絡(luò)。目前,超融合以太網(wǎng)絡(luò)解決方案正在成為越來越多政企構(gòu)建HPC和AI極致算力的選擇。
多云異構(gòu)算力演進(jìn),
無損以太網(wǎng)絡(luò)迎來廣闊發(fā)展空間
《湖北省加快發(fā)展算力與大數(shù)據(jù)產(chǎn)業(yè)三年行動方案(2023—2025年)》提出,力爭到2025年成為國家算力網(wǎng)絡(luò)中部樞紐,建成全國算力與大數(shù)據(jù)創(chuàng)新發(fā)展的核心區(qū)。基于超融合以太解決方案打造領(lǐng)先的超算和人工智能計(jì)算中心,攜手華為構(gòu)建面向HPC和AI計(jì)算的智能無損高性能計(jì)算網(wǎng)絡(luò),湖北正全力向算力、存力、運(yùn)力的全國第一梯隊(duì)邁近,由“九省通衢”邁向“數(shù)字通衢”。
面向未來,數(shù)據(jù)中心正快速朝著多云異構(gòu)算力演進(jìn),隨著HPC和AI應(yīng)用的不斷發(fā)展,網(wǎng)絡(luò)帶寬吞吐的需求也越來越大,以太網(wǎng)絡(luò)正從100GE向200GE、400GE和800GE等更高速率發(fā)展。在可預(yù)見的將來,低時延、高吞吐的無損以太全球生態(tài)將會更加成熟,為多元算力提供強(qiáng)大的網(wǎng)絡(luò)底座,超融合以太網(wǎng)絡(luò)解決方案也將迎來更廣闊的發(fā)展空間。
點(diǎn)擊“閱讀原文”,了解更多華為數(shù)據(jù)通信資訊!
原文標(biāo)題:CCF HPC China 2023 | 武漢超算:超級算力背后的“超級網(wǎng)絡(luò)”
文章出處:【微信公眾號:華為數(shù)據(jù)通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
華為
+關(guān)注
關(guān)注
216文章
34438瀏覽量
251759
原文標(biāo)題:CCF HPC China 2023 | 武漢超算:超級算力背后的“超級網(wǎng)絡(luò)”
文章出處:【微信號:Huawei_Fixed,微信公眾號:華為數(shù)據(jù)通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論