高性能計算(HPC)和人工智能已經將超級計算機推向了廣泛的商業應用領域,成為其主要的數據處理引擎,助力于研究探索、科學發現和產品開發等。
這些系統可以進行復雜的模擬,開啟通過軟件編寫軟件的人工智能新時代。
超級計算能力的領先意味著科學和創新能力的領先,這也是為什么許多政府、研究機構和企業愿意投資構建更快、更強大的超級計算平臺的原因。
追求超級計算系統最高的性能來達到最佳的效率,傳統意義上與現代云計算系統追求的安全、多租戶架構完全不一樣。
云原生超級計算平臺首次提供了一個兩全其美的方案,將峰值性能、集群效率與當代流行的基于零信任的安全隔離和多租戶等特征集于一體。
邁向這種新架構的關鍵就是 NVIDIA 的 BlueField DPU(數據處理器)。DPU 是一個集數據中心于單芯片的平臺,為每個超級計算節點注入了兩種新功能:
基礎設施的控制平面處理器 – 保護用戶訪問的安全、加速存儲訪問、加速網絡通信和對于計算節點的全生命周期編排,卸載主計算處理器的基礎設施操作,實現裸機多租戶。
通過硬件加速的方式將數據通路隔離出來,保障線速 – 實現裸機性能。
HPC 和 AI 通信框架和庫對延遲和帶寬都很敏感,它們在應用性能方面起著關鍵作用。將通信庫從主機 CPU 或 GPU 卸載到 BlueField DPU ,為通信和計算的并行處理實現了最大程度的重疊,它還減少了操作系統的抖動帶來的負面影響,顯著提高了應用性能。
云原生超級計算機架構的開發是基于開放社區而進行的,包括了商業公司、學術組織和政府機構等。這個不斷增長的社區對于開發下一代超級計算至關重要。
在本文中分享的一個例子是 MVAPICH2-DPU 通信庫,由 X-ScaleSolutions 公司設計和開發。MVAPICH2-DPU 庫實現了了對于標準 MPI(消息傳遞接口)的無阻塞集合通信的卸載。
本文將介紹這種無阻塞集合通信卸載的基本原理,以及最終用戶如何使用 MVAPICH2-DPU MPI 庫來加速科學計算應用的執行,特別是針對于大規模的的無阻塞 all-to-all 通信。
BlueField DPU
關于 BlueField DPU 的架構及其如何與主機計算平臺互連的介紹, DPU 上的 ConnectX-6 網卡可以提供 InfiniBand 網絡接口。此外,它還有一組 Arm 核, BlueField-2 DPU 包含一組 8 個 2.0 GHz 的 Arm 核, Arm 處理器集成了 16GB 的共享內存。
MVAPICH2-DPU MPI 通信庫是 MVAPICH2 MPI 通信庫的分支,該通信庫專門為在 InfiniBand 網絡中充分發揮 BlueField DPU 的潛力而進行了優化。
最新的 MVAPICH2-DPU 2021 。 06 版本具有以下功能:
基于 MVAPICH2 2.3.6 版本,符合 MPI 3.1 標準
支持 MVAPICH2 2.3.6 版本 提供的所有功能
通過這個新框架可以將無阻塞集合通信(Nonblocking Collectives)卸載到 DPU
卸載無阻塞 Alltoall (MPI 的 Ialltoall)到 DPU
100%的計算與 MPI_Ialltoall 無阻塞集合通信的重疊使用 MPI Ialltoall 無阻塞集合通信加速科學計算應用
OSU(俄亥俄州立大學)做的
Micro-Benchmark 測試用例
OSU的MVAPICH2-DPU MPI 軟件包內置了OSU MPI Micro-Benchmarks。OMB 基準測試套件包含了無阻塞集合通信操作的基準測試,這些基準測試旨在評估無阻塞 MPI 集合通信和計算之間的重疊能力。
OMB 測試包中的無阻塞集合通信測試基準可以用來評估以下指標:
重疊功能
采用無阻塞集合通信與計算步驟重疊運行時的總執行時間
為此,我們在國際高性能計算和人工智能咨詢委員會(HPC-AI Advisory Council)的一臺 32 節點的集群上運行了完整 OMB 測試這臺集群采用了32 個HDR 200Gb/s InfiniBand BlueField DPU 互連在一起,每個主機節點有兩個 16 核、2.60 GHz 的 Intel Xeon E5-2697A V4 CPU ,每個 BluefFeld-2 DPU 有 8 個2.0 GHz 的 Arm 核和 16GB 內存。
分別運行 512 個MPI 進程( 32 個節點,每個節點運行 16 個進程(PPN:Process Per Node )和 1024 個MPI 進程(32 個節點,每個節點運行 32 個 PPN)的 MPI的 Ialltoall 無阻塞集合通信的測試結果。
隨著消息(Message)大小的增加, MVAPICH2- DPU 庫表現出了計算和 MPI Ialltoall 無阻塞集合通信之間的完全(100%)重疊。相比之下,沒有 DPU 來卸載的 MVAPICH2 默認通信庫,僅僅可以在計算和 MPI Ialltoall 無阻塞集合通信之間發生很少的重疊。
當 MPI 應用程序中的計算步驟與 MPI Ialltoall 無阻塞集合通信進行重疊操作時, MVAPICH2-DPU MPI 庫在程序的總體執行時間上體現出了顯著的性能優勢。
其原因就是因為 在主機上的 Xeon CPU 核在計算時,DPU 中的 Arm 核可以同時在執行無阻塞 MPI all-to-all 通信,實現了計算和通信的高度重疊。
與標準的 MVAPICH2 MPI 庫相比, MVAPICH2-DPU MPI 庫可以提供高達 23% 的性能優勢。這個 OMB-MPI_Ialltoall 測試涵蓋了在 32 節點上不同消息大小和 不同 PPN 的場景。
加速 P3DFFT 應用程序內核
P3DFFT 是一種常見的 MPI 內核,被用于許多使用快速傅立葉變換( FFT )的終端應用。P3DFFT 的開發人員專門設計了一個 MPI 內核版本來支持無阻塞 all-to-all 集合通信和計算步驟的最大化重疊操作。
我們在HPC-AI Advisory Council的 32 節點集群上對 P3DFFT MPI 內核的增強版本通過MVAPICH2-DPU MPI 庫進行了評估。從圖 4 可以看到 MVAPICH2-DPU MPI 庫將 P3DFFT 應用內核的總體執行時間減少了 21% ,涵蓋了各種大小的網格和PPN 。
概括
NVIDIA DPU 架構提供了新的功能,可以將各種中間件的功能卸載到 DPU 上的可編程 Arm 核上。為了能利用這些功能來加速科學應用,必須重新設計 MPI 通信庫。
MVAPICH2-DPU MPI 庫是利用到 DPU 的這種功能的先行者之一。最初版本的可以卸載MPI_Ialltoall 無阻塞集合通信的MVAPICH2-DPU 通信庫,展示了計算和無阻塞 alltoall 集合通信的之間的 100% 重疊。在運行 1024 個MPI進程時,它可以將 P3DFFT 應用內核的執行時間縮短 21% 。
這項研究證明了使用 MVAPICH2-DPU MPI 通信庫的 DPU 架構具有很強的 ROI 。
隨著 DPU 架構的不斷進步,越來越多的面向其它 MPI 操作的卸載功能將隨著新的版本逐漸發布,并為加速云原生超級計算系統上的科學應用發揮重要作用。
編輯:jq
-
NVIDIA
+關注
關注
14文章
5013瀏覽量
103245
原文標題:NVIDIA DPU在HPC 集群上加速科學計算應用
文章出處:【微信號:murata-eetrend,微信公眾號:murata-eetrend】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論