華為超融合數據中心網絡支撐科研完成算力飛躍,大大提升了作業效率。有了智能無損高性能計算網絡的加持,北大學子能夠更從容地面對Deadline,助力科研更上一層樓。
“趕實驗工期,臨時要緊急跑個任務,計算資源排隊時間太長怎么辦?” “下周就是Deadline了,突然發現實驗數據有問題,重新模擬運行要100多個小時,有沒有更快的方法啊?” “這個實驗對我特別重要,馬上要來不及了,師兄師姐能不能讓我先跑一遍?” 曾經,讓科研人最頭疼的不只是分子運動、DNA構成和風洞實驗,也不只是繁瑣的模型制作和模擬實驗,還有跟實驗室的師兄師姐搶計算資源,漫長的排隊和長時間的運行等待。 為了提升高性能計算的效率,降低科研成本,北京大學(以下簡稱“北大”)高性能計算校級公共平臺組織了一次廠家“考核”,意在選出智能時代最優的高性能計算網絡,華為智能無損高性能計算網絡因計算結果最優拔得頭籌。
成績斐然的計算中心
1963年北大擁有第一臺計算機時,就在全國高校中率先成立了計算中心。2001年學校匯集多個領域的專家成立了北大科學與工程計算中心,搭建了一個具有多學科交叉性質的研究平臺,服務全校教學科研,取得良好效益。2018年高性能計算校級公共平臺揭牌啟用,“未名一號”、“未名教學一號”和“未名生科一號”三套集群陸續投入運行,公共平臺的計算總核心數達31,732個,峰值計算能力為3.65pflops。平臺為數學、力學、物理學、化學、生物學、地球科學等學科提供了高性能計算環境,可謂“上知天文,下知地理”。
眾口能調,科研支撐
高性能計算平臺是一所大學重要的科研支撐條件,用于提高科學研究水平、推動工程技術創新。截至2023年5月12日,北大高性能平臺共有師生用戶5070人,分布在全校96個院系單位。已知支撐科研課題超545項,總金額達31.36億元,科研論文1400多篇,并支撐了2020年戈登貝爾獎的發布。該獲獎項目通過機器學習將分子動力學模擬極限提升到1億原子的驚人數量,被認為是當今計算科學領域中最令人興奮的重大進展。
使用需求高漲,改造迫在眉睫
隨著平臺使用人數的增加,用戶的作業量逐漸超過了平臺能力,網絡基礎設施的流量吞吐量和復雜性都大大增加。以“未名生科一號”為例,節點的占用率長期處于95%以上居高不下,作業運行時間最高達109小時,排隊時間最高550小時,系統及網絡改造迫在眉睫。
圖?“未名一號”運行狀態
針對排隊和作業時間過長的問題,各廠商先后提出IB(Infiniband)、RoCEv1、RoCEv2等無損網絡技術。通過嚴格測試,北京大學高性能計算校級公共平臺選擇采用華為超融合數據中心網絡CloudFabric 3.0解決方案,基于智能無損高性能計算網絡搭建高性能計算集群,100%釋放算力,縮短作業運行時間和排隊時間。
華為智能無損高性能計算網絡
助力北大提升科研效率
此次測試主要關注TCP/IP、IB和RoCEv2分別在高性能計算基準測試工具Linpack、地球系統模式CESM以及分子動力學軟件VASP等應用場景中的測評結果。
實驗結果發現,在VASP測試中,華為智能無損高性能計算網絡100GE RoCEv2優于IB;在Linpack和CESM測試中,華為智能無損高性能計算網絡100GE RoCEv2與IB性能表現基本一致,也證實了在真實應用場景下華為智能無損高性能計算網絡可以代替IB。
華為智能無損高性能計算網絡解決方案獨家實現以太網0丟包,與傳統以太網相比,可實現服務器規模不變,算力翻番;可提供業界最高密768*400GE交換機CloudEngine 16800,可構建10E級的超大規模算力集群;獨家實現網算一體,網絡協助計算,經第三方權威測試機構Tolly認證,任務完成時間(JCT)對比IB 縮短 17%。
北大高性能計算校級平臺擁有國內領先的超算集群,全系統Linpack效率常年位居前列,對網絡性能、可靠性和先進性要求都非常高。此次測試結果加深超算行業技術圈對華為超融合數據中心網絡全無損以太的充分認可。未來,華為智能無損高性能計算網絡將更廣泛地應用于教育、科研等領域,為國家科學計算、工程技術創新、高精尖科研添磚加瓦。
-
華為
+關注
關注
216文章
34470瀏覽量
251955
原文標題:百大案例 | 北京大學:華為智能無損高性能計算網絡,助力科研乘風破浪
文章出處:【微信號:Huawei_Fixed,微信公眾號:華為數據通信】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論