在五項新的行業指標中,NVIDIA 贏得了其中的四項。這些指標聚焦于AI在高性能計算中的應用,是一種推動科學和行業進步的方法。
MLPerf HPC 1.0 是用于衡量高性能計算中 AI 性能的行業基準測試,而 NVIDIA 賦能的系統在該基準的五項測試中勝出四項。
MLPerf 是用于深度學習的行業基準測試,首次發布于 2018 年 5 月。上述戰績是 MLPerf 基準測試的最新結果。MLPerf HPC 解決了一種計算方式,可借助 AI 加速并增強超級計算機上的模擬。
分子動力學、天文學和氣候模擬的近期進展都使用 HPC+AI 取得了科學突破。這種趨勢可以推動科學和工業領域用戶采用E級(Exascale) AI。
基準測試衡量內容
MLPerf HPC 1.0 在 HPC 中心的三個典型工作負載中測試 AI 模型訓練。
Cosmoflow 判斷望遠鏡圖像中物體的細節。
Deepcam 測試對氣候數據中颶風和大氣河流的檢測。
Opencatalyst 跟蹤系統預測分子中原子間力的成效。
每個測試分為兩個部分。衡量系統訓練模型的速度的指標被稱為強標度。其對應的弱標度是衡量系統最大吞吐量的指標,即系統在給定時間內可以訓練多少模型。
與去年 MLPerf 0.7 那一輪的強標度最佳成績相比,NVIDIA 為 Cosmoflow 性能提升了多達 5 倍。在 deepcam 方面,則將性能提高了近 7 倍以上。
勞倫斯伯克利國家實驗室 (Lawrence Berkeley National Laboratory) 的 Perlmutter 系統使用了 5,120 個 NVIDIA A100 Tensor Core GPU 中的 2,048 個,在 opencatalyst基準中成績斐然。
在弱標度類別中,NVIDIA使用每個作業 16 個節點和 256 個同時作業來主導 deepcam。NVIDIA所有的測試都在 NVIDIA Selene(如上圖),即NVIDIA內部系統和大型工業超級計算機上運行。
最新結果顯示 NVIDIA AI 平臺及其性能領先性的另一個維度。這是 NVIDIA 第八次在 MLPerf 基準中獲得最高分,該基準涵蓋數據中心、云和網絡邊緣的 AI 訓練和推理。
龐大的生態系統
本輪八名參與者中有七名使用 NVIDIA GPU 提交了結果。
其中包括德國于利希超級計算中心、瑞士國家超算中心,以及美國的阿貢國家實驗室、勞倫斯伯克利國家實驗室、國家超級計算機應用中心和德克薩斯高級計算中心。
于利希超算中心(Jülich Supercomputing Centre)主任 Thomas Lippert 表示:“通過基準測試,我們已經證明我們的機器能夠在實踐中發揮其潛力,并有助于讓歐洲在 AI 方面保持領先。”
MLPerf 基準由 MLCommons 提供支持。后者是由阿里巴巴、Google、英特爾、Meta、NVIDIA 等牽頭的行業組織。
我們的實現方式
如此強勁的表現都得益于 NVIDIA AI 平臺的成熟發展。該平臺目前已包括完整的軟件堆棧。
在這一輪中,NVIDIA使用每個人都可以使用的工具來調整代碼,例如可以加速數據處理的 NVIDIA DALI 和能夠減少小批量延遲的 CUDA Graphs,追蹤將橫向擴展到 1,024 個或更多個 GPU。此外還應用了 NVIDIA SHARP,這是 NVIDIA MagnumIO 中的一個關鍵組件,可提供網絡計算以加速通信并將數據操作卸載到 NVIDIA Quantum InfiniBand 交換機網絡。
NVIDIA用于提交作品的所有軟件均可從 MLPerf 倉庫獲得。NVIDIA定期將此類代碼添加到 NGC 目錄。該目錄是NVIDIA預訓練 AI 模型、行業應用程序框架、GPU 應用程序和其他軟件資源的軟件中心。
責任編輯:haq
-
NVIDIA
+關注
關注
14文章
4994瀏覽量
103180 -
AI
+關注
關注
87文章
30998瀏覽量
269328
原文標題:SC21 | MLPerf 基準測試闡明為什么 AI 是 HPC 的未來
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論