欢乐颂第一季,古风,yy玄幻小说排行榜完本

高性能計算（HPC）和人工智能已經將超級計算機推向了廣泛的商業應用領域，成為其主要的數據處理引擎，助力于研究探索、科學發現和產品開發等。

這些系統可以進行復雜的模擬，開啟通過軟件編寫軟件的人工智能新時代。

超級計算能力的領先意味著科學和創新能力的領先，這也是為什么許多政府、研究機構和企業愿意投資構建更快、更強大的超級計算平臺的原因。

追求超級計算系統最高的性能來達到最佳的效率，傳統意義上與現代云計算系統追求的安全、多租戶架構完全不一樣。

云原生超級計算平臺首次提供了一個兩全其美的方案，將峰值性能、集群效率與當代流行的基于零信任的安全隔離和多租戶等特征集于一體。

邁向這種新架構的關鍵就是 NVIDIA 的 BlueField DPU（數據處理器）。DPU 是一個集數據中心于單芯片的平臺，為每個超級計算節點注入了兩種新功能：

基礎設施的控制平面處理器 – 保護用戶訪問的安全、加速存儲訪問、加速網絡通信和對于計算節點的全生命周期編排，卸載主計算處理器的基礎設施操作，實現裸機多租戶。

通過硬件加速的方式將數據通路隔離出來，保障線速 – 實現裸機性能。

HPC 和 AI 通信框架和庫對延遲和帶寬都很敏感，它們在應用性能方面起著關鍵作用。將通信庫從主機 CPU 或 GPU 卸載到 BlueField DPU ，為通信和計算的并行處理實現了最大程度的重疊，它還減少了操作系統的抖動帶來的負面影響，顯著提高了應用性能。

云原生超級計算機架構的開發是基于開放社區而進行的，包括了商業公司、學術組織和政府機構等。這個不斷增長的社區對于開發下一代超級計算至關重要。

在本文中分享的一個例子是 MVAPICH2-DPU 通信庫，由 X-ScaleSolutions 公司設計和開發。MVAPICH2-DPU 庫實現了了對于標準 MPI（消息傳遞接口）的無阻塞集合通信的卸載。

本文將介紹這種無阻塞集合通信卸載的基本原理，以及最終用戶如何使用 MVAPICH2-DPU MPI 庫來加速科學計算應用的執行，特別是針對于大規模的的無阻塞 all-to-all 通信。

BlueField DPU

關于 BlueField DPU 的架構及其如何與主機計算平臺互連的介紹， DPU 上的 ConnectX-6 網卡可以提供 InfiniBand 網絡接口。此外，它還有一組 Arm 核， BlueField-2 DPU 包含一組 8 個 2.0 GHz 的 Arm 核， Arm 處理器集成了 16GB 的共享內存。

MVAPICH2-DPU MPI 通信庫是 MVAPICH2 MPI 通信庫的分支，該通信庫專門為在 InfiniBand 網絡中充分發揮 BlueField DPU 的潛力而進行了優化。

最新的 MVAPICH2-DPU 2021 。 06 版本具有以下功能：

基于 MVAPICH2 2.3.6 版本，符合 MPI 3.1 標準

支持 MVAPICH2 2.3.6 版本提供的所有功能

通過這個新框架可以將無阻塞集合通信（Nonblocking Collectives）卸載到 DPU

卸載無阻塞 Alltoall （MPI 的 Ialltoall）到 DPU

100%的計算與 MPI_Ialltoall 無阻塞集合通信的重疊使用 MPI Ialltoall 無阻塞集合通信加速科學計算應用

OSU（俄亥俄州立大學）做的

Micro-Benchmark 測試用例

OSU的MVAPICH2-DPU MPI 軟件包內置了OSU MPI Micro-Benchmarks。OMB 基準測試套件包含了無阻塞集合通信操作的基準測試，這些基準測試旨在評估無阻塞 MPI 集合通信和計算之間的重疊能力。

OMB 測試包中的無阻塞集合通信測試基準可以用來評估以下指標：

重疊功能

采用無阻塞集合通信與計算步驟重疊運行時的總執行時間

為此，我們在國際高性能計算和人工智能咨詢委員會（HPC-AI Advisory Council）的一臺 32 節點的集群上運行了完整 OMB 測試這臺集群采用了32 個HDR 200Gb/s InfiniBand BlueField DPU 互連在一起，每個主機節點有兩個 16 核、2.60 GHz 的 Intel Xeon E5-2697A V4 CPU ，每個 BluefFeld-2 DPU 有 8 個2.0 GHz 的 Arm 核和 16GB 內存。

分別運行 512 個MPI 進程（ 32 個節點，每個節點運行 16 個進程（PPN：Process Per Node ）和 1024 個MPI 進程（32 個節點，每個節點運行 32 個 PPN）的 MPI的 Ialltoall 無阻塞集合通信的測試結果。

隨著消息（Message）大小的增加， MVAPICH2- DPU 庫表現出了計算和 MPI Ialltoall 無阻塞集合通信之間的完全（100%）重疊。相比之下，沒有 DPU 來卸載的 MVAPICH2 默認通信庫，僅僅可以在計算和 MPI Ialltoall 無阻塞集合通信之間發生很少的重疊。

當 MPI 應用程序中的計算步驟與 MPI Ialltoall 無阻塞集合通信進行重疊操作時， MVAPICH2-DPU MPI 庫在程序的總體執行時間上體現出了顯著的性能優勢。

其原因就是因為在主機上的 Xeon CPU 核在計算時，DPU 中的 Arm 核可以同時在執行無阻塞 MPI all-to-all 通信，實現了計算和通信的高度重疊。

與標準的 MVAPICH2 MPI 庫相比， MVAPICH2-DPU MPI 庫可以提供高達 23% 的性能優勢。這個 OMB-MPI_Ialltoall 測試涵蓋了在 32 節點上不同消息大小和不同 PPN 的場景。

加速 P3DFFT 應用程序內核

P3DFFT 是一種常見的 MPI 內核，被用于許多使用快速傅立葉變換（ FFT ）的終端應用。P3DFFT 的開發人員專門設計了一個 MPI 內核版本來支持無阻塞 all-to-all 集合通信和計算步驟的最大化重疊操作。

我們在HPC-AI Advisory Council的 32 節點集群上對 P3DFFT MPI 內核的增強版本通過MVAPICH2-DPU MPI 庫進行了評估。從圖 4 可以看到 MVAPICH2-DPU MPI 庫將 P3DFFT 應用內核的總體執行時間減少了 21% ，涵蓋了各種大小的網格和PPN 。

概括

NVIDIA DPU 架構提供了新的功能，可以將各種中間件的功能卸載到 DPU 上的可編程 Arm 核上。為了能利用這些功能來加速科學應用，必須重新設計 MPI 通信庫。

MVAPICH2-DPU MPI 庫是利用到 DPU 的這種功能的先行者之一。最初版本的可以卸載MPI_Ialltoall 無阻塞集合通信的MVAPICH2-DPU 通信庫，展示了計算和無阻塞 alltoall 集合通信的之間的 100% 重疊。在運行 1024 個MPI進程時，它可以將 P3DFFT 應用內核的執行時間縮短 21% 。

這項研究證明了使用 MVAPICH2-DPU MPI 通信庫的 DPU 架構具有很強的 ROI 。

隨著 DPU 架構的不斷進步，越來越多的面向其它 MPI 操作的卸載功能將隨著新的版本逐漸發布，并為加速云原生超級計算系統上的科學應用發揮重要作用。

編輯：jq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
5013

瀏覽量
103245

原文標題：NVIDIA DPU在HPC 集群上加速科學計算應用

文章出處：【微信號：murata-eetrend，微信公眾號：murata-eetrend】歡迎添加關注！文章轉載請注明出處。

在NVIDIA BlueField-3 DPU上運行WEKA客戶端的實際優勢

WEKA是可擴展軟件定義數據平臺的先驅，NVIDIA 正在與其合作，將 WEKA 先進的數據平臺解決方案與功能強大的NVIDIA BlueField DPU相結合。

發表于 01-07 09:43 ?103次閱讀

在<b class='flag-5'>NVIDIA</b> BlueField-3 <b class='flag-5'>DPU</b><b class='flag-5'>上</b>運行WEKA客戶端的實際優勢

云計算HPC軟件關鍵技術

云計算HPC軟件關鍵技術涉及系統架構、處理器技術、操作系統、計算加速、網絡技術以及軟件優化等多個方面。下面，AI部落小編帶您探討云計算

發表于 12-18 11:23 ?107次閱讀

《CST Studio Suite 2024 GPU加速計算指南》

的各個方面，包括硬件支持、操作系統支持、許可證、GPU計算的啟用、NVIDIA和AMD GPU的詳細信息以及相關的使用指南和故障排除等內容。 1. 硬件支持 - NVIDIA GPU：詳細列出了支持

發表于 12-16 14:25

云計算和HPC的關系

盡管云計算和HPC在架構、應用場景和成本效益等方面存在顯著差異，但云計算和HPC之間并非孤立存在，而是相互補充、協同發展的關系。下面，AI部落小編帶您探討云

發表于 12-14 10:35 ?126次閱讀

NVIDIA發布cuPyNumeric加速計算庫

該加速計算庫幫助科研人員無縫地擴展到強大的計算集群，并且無需修改 Python 代碼，推進科學發現。

發表于 11-21 10:05 ?275次閱讀

NVIDIA加速計算如何推動醫療健康

近日，NVIDIA 企業平臺副總裁 Bob Pette 在 AI Summit 一場演講中重點談論了 NVIDIA 加速計算如何推動醫療健康、網絡安全和制造等行業實現轉型。他表示，

發表于 11-20 09:10 ?305次閱讀

NVIDIA 以太網加速 xAI 構建的全球最大 AI 超級計算機

市的 Colossus 超級計算機集群達到了 10 萬顆 NVIDIA? Hopper? GPU 的巨大規模。該集群使用了 NVIDIA S

發表于 10-30 09:33 ?165次閱讀

<b class='flag-5'>NVIDIA</b> 以太網<b class='flag-5'>加速</b> xAI 構建的全球最大 AI 超級<b class='flag-5'>計算</b>機

科研計算HPC平臺是什么

高性能計算平臺（HPC平臺）是一個利用由成千上萬個處理器核心組成的超級計算機或計算機集群來執行復雜計算

發表于 10-21 10:43 ?193次閱讀

HPC云計算前景

高性能計算（HPC）與云計算的結合，正逐步成為推動科技創新和產業升級的重要引擎。隨著數據規模的不斷擴大和計算需求的日益復雜，HPC云

發表于 10-16 10:17 ?246次閱讀

借助NVIDIA超級計算機加速量子計算發展

科學期刊《自然》（Nature）本月早些時候發表了一項研究，通過使用 NVIDIA 驅動的超級計算機，驗證了量子計算的商業化途徑。

發表于 07-25 09:55 ?541次閱讀

基于FPGA的類腦計算平臺 —PYNQ 集群的無監督圖像識別類腦計算系統

模擬器，可為 SNN 算法開發者和神經學家提供理想滿意的類腦仿真實驗平臺。 (2)本設計提供的基于 NEST 仿真器的 FPGA 集群的硬件加速服務可以為實驗環境不理想，應用計算復雜周期長的用戶帶來

發表于 06-25 18:35

高性能計算集群的能耗優化

高性能計算（HighPerformanceComputing，HPC）是指利用大規模并行計算機集群來解決復雜的科學和工程問題的技術。高性能

發表于 05-25 08:27 ?453次閱讀

助力科學發展，NVIDIA AI加速HPC研究

科學家和研究人員正在利用 NVIDIA 技術將生成式 AI 應用于代碼生成、天氣預報、遺傳學和材料科學領域的 HPC 工作。

發表于 05-14 09:17 ?426次閱讀

使用NVIDIA Triton推理服務器來加速AI預測

這家云計算巨頭的計算機視覺和數據科學服務使用 NVIDIA Triton 推理服務器來加速 AI 預測。

發表于 02-29 14:04 ?594次閱讀

什么是HPC高性能計算

高性能計算（HighPerformanceComputing，簡稱HPC），是指利用集群、網格、超算等計算機技術，通過合理地組織計算機資源以

發表于 02-19 13:27 ?878次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

剖析NVIDIA DPU如何在HPC 集群上加速科學計算應用

評論

在NVIDIA BlueField-3 DPU上運行WEKA客戶端的實際優勢

云計算HPC軟件關鍵技術

《CST Studio Suite 2024 GPU加速計算指南》

云計算和HPC的關系

NVIDIA發布cuPyNumeric加速計算庫

NVIDIA加速計算如何推動醫療健康

NVIDIA 以太網加速 xAI 構建的全球最大 AI 超級計算機

科研計算HPC平臺是什么

HPC云計算前景

借助NVIDIA超級計算機加速量子計算發展

基于FPGA的類腦計算平臺 —PYNQ 集群的無監督圖像識別類腦計算系統

高性能計算集群的能耗優化

助力科學發展，NVIDIA AI加速HPC研究

使用NVIDIA Triton推理服務器來加速AI預測

什么是HPC高性能計算