在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

在MLPerf推理2.0上如何獲得人工智能模型所需的性能

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-08 15:53 ? 次閱讀

Megatron 530B 等機型正在擴大人工智能可以解決的問題范圍。然而,隨著模型的復雜性不斷增加,它們對人工智能計算平臺構成了雙重挑戰:

這些模型必須在合理的時間內進行訓練。

他們必須能夠實時進行推理工作。

我們需要的是一個多功能的人工智能平臺,它可以在各種各樣的模型上提供所需的性能,用于訓練和推理。

為了評估這種性能, MLPerf 是唯一一個行業標準人工智能基準,用于測試六個應用程序中的數據中心和邊緣平臺,測量吞吐量、延遲和能效。

在 MLPerf 推理 2.0 , NVIDIA 交付領先的結果在所有工作負載和場景,同時數據中心 GPU最新的參賽者,NVIDIA Jetson AGX ORIN SOC 平臺,為邊緣設備和機器人建造。

除了硬件,還需要大量的軟件和優化工作才能充分利用這些平臺。 MLPerf 推理 2.0 的結果展示了如何獲得處理當今日益龐大和復雜的人工智能模型所需的性能。

下面我們來看一下 MLPerf 推理 2.0 的性能,以及其中的一些優化,以及它們是如何構建的。

計算數字

圖 1 顯示了最新的參賽者 NVIDIA Jetson AGX Orin 。

pYYBAGJP6iuABxnLAACkQTDDlRA696.png

圖 1 NVIDIA Jetson AGX Orin 性能改進

MLPerf v2.0 推斷邊閉合和邊閉合冪;數據中心和邊緣、離線吞吐量和功率的 MLPerf 結果的性能/瓦特。NVIDIA Xavier AGX Xavier:1.1-110 和 1.1-111 | Jetson AGX Orin:2.0-140 和 2.0-141 。 MLPerf 名稱和徽標是商標。資料來源: http://www.mlcommons.org/en 。

圖 1 顯示 Jetson AGX Orin 的性能是上一代的 5 倍。在測試的全部使用范圍內,它平均提高了約 3.4 倍的性能。此外, Jetson AGX Orin 的能效提高了 2.3 倍。

Jetson Orin AGX 是一個 SoC ,為多個并發人工智能推理管道提供多達 275 個人工智能計算頂層,并為多個傳感器提供高速接口支持。NVIDIA Jetson AGX ORIN 開發者工具包使您能夠創建先進的機器人和邊緣 AI 應用程序,用于制造、物流、零售、服務、農業、智能城市、醫療保健和生命科學。

在數據中心領域,NVIDIA 繼續在所有應用領域提供全面的人工智能推理性能領先。

pYYBAGJP6jSAHoqvAADlUejP7Rc692.png

圖 2 NVIDIA A100 每臺加速器性能

MLPerf v2 。 0 推理關閉;使用數據中心脫機和服務器中報告的加速器計數,根據各自提交的最佳 MLPerf 結果得出每加速器性能。高通 AI 100:2.0-130 ,來自 MLPerf v.1.1 的英特爾至強 8380 提交: 1.1-023 和 1.1-024 ,英特爾至強 8380H 1.1-026 ,NVIDIA A30:2.0-090 ,NVIDIA A100 ( Arm ): 2.0-077 ,NVIDIA A100 ( x86 ): 2.0-094 。 MLPerf 名稱和徽標是商標。

NVIDIA A100 在離線和服務器場景下的所有測試中都提供了最佳的每加速器性能。

我們提交了以下配置的 A100 :

A100 SXM 搭配 x86 CPUAMD Epyc 7742 )

A100 PCIe 與 x86 CPU ( AMD Epyc 7742 )配對

A100 SXM 配 Arm CPU (NVIDIA 安培架構 Altra Q80-30 )

Microsoft Azure 也使用其 A100 實例提交,我們也在這一數據中顯示了這一點。

所有配置都提供了大致相同的推理性能,這證明了我們 Arm 軟件堆棧的就緒性,以及 A100 本地和云中的總體性能。

A100 還提供了高達 105 倍的性能,比僅 CPU 提交( RNN-T ,服務器方案)。 A30 在除一項工作外的所有工作上都表現出領導水平。與 A100 一樣,它運行了所有數據中心類別測試。

關鍵優化

提供出色的推理性能需要一種全堆棧方法,在這種方法中,優秀的硬件與優化且通用的軟件相結合。 NVIDIA TensorRT 和 NVIDIA Triton 推理服務器都在不同工作負載下提供出色的推理性能方面發揮著關鍵作用。

Jetson AGX-Orin 優化

NVIDIA Orin 新 NVIDIA 安培架構 I GPU 由 NVIDIA TensorRT 8.4 支持。對于 MLPerf 性能而言,它是 SoC 中最重要的組件。擴展了大量優化 GPU 內核的 TensorRT 庫,以支持新的體系結構。 TensorRT 生成器會自動拾取這些內核。

此外, MLPerf 網絡中使用的插件都已移植到 NVIDIA Orin 并添加到 TensorRT 8.4 中,包括 res2 插件( resnet50 )和 qkv 到上下文插件( BERT )。與帶有離散 GPU 加速器的系統不同,輸入不會從主機內存復制到設備內存,因為 SoC DRAM 由 CPU 和 iGPU 共享。

除了 iGPU , NVIDIA 還使用了兩個深度學習加速器( DLA ),以在離線情況下在 CV 網絡( resnet50 、 ssd mobilenet 、 ssd-resnet34 )上實現最高的系統性能。

NVIDIA Orin 采用了新一代 DLA 硬件。為了利用這些硬件改進, DLA 編譯器添加了以下 NVIDIA Orin 功能,這些功能在升級到 TensorRT 的未來版本時自動可用,無需修改任何應用程序源代碼。

SRAM chaining: 在本地 SRAM 中保留中間張量,以避免對 DRAM 的讀寫,從而減少延遲和平臺 DRAM 的使用。它還減少了對 GPU 推理的干擾。

卷積+池融合: INT8 卷積+偏差+縮放+重新調整可以與后續池節點融合。

卷積+元素融合: INT8 卷積+元素和可以與后續的 ReLU 節點融合。

對兩個 DLA 加速器的批量大小進行了微調,以獲得 GPU + DLA 聚合性能的適當平衡。該調整平衡了將 DLA 引擎 GPU 后備內核的調度沖突降至最低的需求,同時減少了 SoC 共享 DRAM 帶寬的整體潛在不足。

3D UNet 醫學成像

雖然大多數工作負載與 MLPerf 推斷 v1 相比基本保持不變。 1 、使用 KITS19 數據集增強了 3D UNet 醫學成像工作量。這個新的腎腫瘤圖像數據集有更大的不同大小的圖像,每個樣本需要更多的處理。

KiTS19 數據集為實現高效節能推理帶來了新的挑戰。更具體地說:

KiTS19 中使用的輸入張量的形狀從 128x192x320 到 320x448x448 不等;最大輸入張量比最小輸入張量大 8.17 倍。

推理過程中需要大于 2GB 的張量。

在特定感興趣區域( ROI )形狀( 128x128x128 )上有一個滑動窗口,具有較大的重疊系數( 50% )。

為了解決這個問題,我們開發了一種滑動窗口方法來處理這些圖像:

根據重疊因子,將每個輸入張量切成 ROI 形狀。

使用循環處理給定輸入張量的所有滑動窗口切片。

加權并規范化每個滑動窗口的推理結果。

通過滑動窗口推斷的聚合結果的 ArgMax 獲得最終分割輸出。

poYBAGJP6j2AXg8eAACExe9yWus477.png

圖 3 3D UNet 使用滑動窗口方法執行 KiTS19 腎臟腫瘤分割推斷任務

在圖 3 中,每個輸入張量被切片成具有重疊因子( 50% )的 ROI 形狀( 128x128x128 ),并輸入預訓練網絡。然后對每個滑動窗口輸出進行最佳加權,以獲取歸一化 sigma = 0.125 的高斯核特征。

推理結果根據原始輸入張量形狀進行聚合,并對這些權重因子進行歸一化。然后, ArgMax 操作會切割分割信息,標記背景、正常腎細胞和腫瘤。

該實現將分割與基本事實進行比較,并計算骰子分數以確定基準測試的準確性。您還可以直觀地檢查結果。

我們的數據中心 GPU 已經支持 INT8 精度超過 5 年,與 FP16 和 FP32 精度級別相比,這種精度在許多型號上帶來了顯著的加速,精度損失接近于零。

對于 3D UNet ,我們通過使用 TensorRT IInt8MinMaxCalibrator 校準校準集中的圖像來使用 INT8 。該實現在 FP32 參考模型中實現了 100% 的精度,從而實現了基準的高精度和低精度模式。

poYBAGJP6kqAESVZAAEQHd7KUMg866.png

圖 5 MLPerf 推理 v2 中使用的 NVIDIA 3D UNet KiTS19 實現。 0 提交

在圖 5 中,綠色框在設備( GPU )上執行,黃色框在主機( CPU )上執行。滑動窗口推理所需的一些操作被優化為融合操作。

利用 GPUDirect RDMA 和存儲,可以最小化或消除主機到設備或設備到主機的數據移動。從 DGX-A100 系統中測量一個輸入樣本(其大小接近平均輸入大小)的每項工作的延遲。切片內核和 ArgMax 內核的延遲隨輸入圖像大小成比例變化。

以下是一些具體的優化措施:

用于加權的高斯核補丁現在已預先計算并存儲在磁盤上,并在基準測試的定時部分開始之前加載到 GPU 內存中。

加權和歸一化作為融合操作進行優化,使用 27 個預計算的面片,用于 3D 輸入張量上 50% 重疊的滑動窗口。

編寫處理切片、加權和 ArgMax 的自定義 CUDA 內核,以便所有這些操作都在 GPU 中完成,無需 H2D / D2H 數據傳輸。

INT8 線性內存布局中的輸入張量使 H2D 傳輸中的數據量最小,因為 KiTS19 輸入集是單通道。

TensorRT 需要 NC / 32DHW32 格式的 INT8 輸入。我們使用一個定制的 CUDA 內核,該內核在 GPU 全局內存中的一個連續內存區域中執行對零填充的切片,并將 INT8 線性輸入張量切片重新格式化為 INT8 NC / 32DHW32 格式。

GPU 中的零填充和重新格式化張量要比其他昂貴的 H2D 傳輸速度快得多, H2D 傳輸的數據要多 32 倍。這種優化顯著提高了整體性能,并釋放了寶貴的系統資源。

TensorRT 引擎用于在每個滑動窗口切片上運行推理。因為 3D UNet 是密集的,我們發現增加批量大小會成比例地增加引擎的運行時間。

NVIDIA Triton 優化

NVIDIA 提交繼續顯示 Triton 推理服務器的多功能性。這一輪, Triton 推理服務器還支持在 AWS 推理機上運行 NVIDIA Triton 。NVIDIA Triton 使用 Python 后端運行推理優化 PyTorch 和 TensorFlow 模型。

使用NVIDIA Triton 和火炬神經元, NVIDIA 提交獲得 85% 至 100% 的推斷推理的自然推斷性能。

poYBAGJP6lKAL9rAAACX4khGPFU905.png

圖 6 。 Triton 推理服務器性能

MLPerf v1 。 1 。關閉推理;每個加速器的性能源自使用數據中心脫機中報告的加速器計數的各個提交的最佳 MLPerf 結果。顯示所有提交工作負載的幾何平均值。 CPU 基于 MLPerf 推理 1.1 中的英特爾提交數據進行比較,以比較相同 CPU 的配置,提交 1.0-16 、 1.0-17 、 1.0-19 。 NVIDIA Triton 在 CPU 上: 2.0-100 和 2.0-101 。 A2:2.0-060 和 2.0-061 。 A30:2.0-091 和 2.0-092 。 A100:2.0-094 和 2.0-096 。 MLPerf 名稱和徽標是商標。

NVIDIA Triton 現在支持 AWS 推理處理器,并提供與僅在 AWS Neuron SDK 上運行幾乎相同的性能。

它需要一個平臺

NVIDIA 推理領導力來自于打造最優秀的人工智能加速器,用于培訓和推理。但優秀的硬件只是開始。

NVIDIA TensorRT 和 Triton 推理服務器軟件在跨這一組不同的工作負載提供出色的推理性能方面發揮著關鍵作用。他們可以在 NGC ,NVIDIA 中心,以及其他 GPU 優化的軟件,用于深度學習,機器學習,和 HPC 。

NGC 容器化軟件使加速平臺的建立和運行變得更加容易,因此您可以專注于構建真正的應用程序,并加快實現價值的時間。 NGC 可以通過您首選的云提供商的市場免費獲得。

關于作者

Dave Salvator 是 NVIDIA 旗下 Tesla 集團的高級產品營銷經理,專注于超規模、深度學習和推理。

Ashwin Nanjappa 是 NVIDIA TensorRT 團隊的工程經理。他領導 MLPerf 推理計劃,展示 NVIDIA 加速器的性能和能效。他還參與改進 TensorRT DL 推理庫的性能。在加入NVIDIA 之前,他曾參與培訓和部署 CV 的 DL 模型、深度相機的 GPU 加速 ML / CV 算法,以及手機和 DVD 播放器中的多媒體庫。他擁有來自新加坡國立大學( NUS )的計算機科學博士學位,重點是 GPU 算法用于三維計算幾何。

Jinho 是NVIDIA DLSIM 團隊的高級深度學習架構師。他正在研究 NVIDIA 加速器上的深度學習工作負載的性能建模和分析,并有助于NVIDIA MLPIFF 推理實現。在加入NVIDIA 之前,他曾在英特爾和 Arm 從事服務器 CPU 和 SoC 體系結構及微體系結構方面的工作。他擁有南加州大學計算機工程博士學位,專注于計算機體系結構。

Ian 是 NVIDIA TensorRT 團隊的高級系統軟件工程師,他專注于 MLPerf 推理。在加入 TensorRT 團隊之前,他曾為 NVIDIA 自動駕駛軟件開發實時調度系統。伊恩畢業于多倫多大學工程科學專業,主修電氣和計算機工程。

Madhumitha Sridhara 是 TensorRT 團隊的高級軟件工程師,專注于使用 Triton 推理服務器的 NVIDIA MLPerf推理提交。她擁有卡內基梅隆大學計算機工程碩士學位和印度卡納塔克邦蘇拉特卡爾國家理工學院電子通信工程學士學位。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5047

    瀏覽量

    103326
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4759

    瀏覽量

    129117
  • 服務器
    +關注

    關注

    12

    文章

    9248

    瀏覽量

    85732
  • MLPerf
    +關注

    關注

    0

    文章

    35

    瀏覽量

    647
收藏 人收藏

    評論

    相關推薦

    嵌入式和人工智能究竟是什么關系?

    領域,如工業控制、智能家居、醫療設備等。 人工智能是計算機科學的一個分支,它研究如何使計算機具備像人類一樣思考、學習、推理和決策的能力。人工智能的發展歷程可以追溯到上世紀50年代,經
    發表于 11-14 16:39

    《AI for Science:人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

    人工智能在科學研究中的核心技術,包括機器學習、深度學習、神經網絡等。這些技術構成了AI for Science的基石,使得AI能夠處理和分析復雜的數據集,從而發現隱藏在數據中的模式和規律。 2. 高性能
    發表于 10-14 09:16

    《AI for Science:人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得

    ,無疑為讀者鋪設了一條探索人工智能(AI)如何深刻影響并推動科學創新的道路。閱讀這一章后,我深刻感受到了人工智能技術科學領域的廣泛應用潛力以及其帶來的革命性變化,以下是我個人的學習
    發表于 10-14 09:12

    澎峰科技高性能模型推理引擎PerfXLM解析

    自ChatGPT問世以來,大模型遍地開花,承載大模型應用的高性能推理框架也不斷推出,大有百家爭鳴之勢。在這種情況下,澎峰科技作為全球領先的智能
    的頭像 發表于 09-29 10:14 ?514次閱讀
    澎峰科技高<b class='flag-5'>性能</b>大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>引擎PerfXLM解析

    risc-v人工智能圖像處理應用前景分析

    滿足人工智能圖像處理中對于高性能、低功耗和特定功能的需求。 低功耗 : 人工智能圖像處理中,低功耗是一個重要的考量因素。RISC-V架構的設計使其
    發表于 09-28 11:00

    人工智能ai4s試讀申請

    目前人工智能在繪畫對話等大模型領域應用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題,本書對ai4s基本原理和原則,方法進行描訴,有利于總結經驗,擬按照要求準備相關體會材料。看能否有助于入門和提高ss
    發表于 09-09 15:36

    FPGA人工智能中的應用有哪些?

    FPGA(現場可編程門陣列)人工智能領域的應用非常廣泛,主要體現在以下幾個方面: 一、深度學習加速 訓練和推理過程加速:FPGA可以用來加速深度學習的訓練和推理過程。由于其高并行性和
    發表于 07-29 17:05

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型處理復雜任務
    的頭像 發表于 07-24 11:38 ?938次閱讀

    人工智能模型工業網絡安全領域的應用

    隨著人工智能技術的飛速發展,人工智能模型作為一種具有強大數據處理能力和復雜模式識別能力的深度學習模型,已經多個領域展現了其獨特的優勢和廣
    的頭像 發表于 07-10 14:07 ?829次閱讀

    人工智能模型有哪些

    人工智能(Artificial Intelligence, AI)作為21世紀最具影響力的技術之一,正以前所未有的速度改變著我們的生活、工作乃至整個社會結構。AI模型作為AI技術的核心,是實現智能
    的頭像 發表于 07-04 17:28 ?942次閱讀

    人工智能與大模型的關系與區別

    科技日新月異的今天,人工智能(AI)已成為推動社會進步的重要力量。而在人工智能的眾多分支中,大模型(Large Models)作為近年來興起的概念,以其巨大的參數數量和強大的計算能力
    的頭像 發表于 07-04 16:07 ?3908次閱讀

    模型應用之路:從提示詞到通用人工智能(AGI)

    模型人工智能領域的應用正迅速擴展,從最初的提示詞(Prompt)工程到追求通用人工智能(AGI)的宏偉目標,這一旅程充滿了挑戰與創新。本文將探索大
    的頭像 發表于 06-14 10:20 ?2290次閱讀
    大<b class='flag-5'>模型</b>應用之路:從提示詞到通用<b class='flag-5'>人工智能</b>(AGI)

    5G智能物聯網課程之Aidlux下人工智能開發(SC171開發套件V2)

    Aidlite-SDK模型推理 https://v2.docs.aidlux.com/sdk-api/aidlite-sdk/aidlite-python 人工智能 5G AIoT技術實踐入門與探索_V2 59分
    發表于 05-10 16:46

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    化能力和適應性。自然語言處理任務中,大語言模型展現出卓越的語言理解和生成能力。此外,大語言模型還能在創新和探索中發揮作用,推動科學和技術的發展。總之,大語言模型的涌現能力為其
    發表于 05-04 23:55

    嵌入式人工智能的就業方向有哪些?

    嵌入式人工智能的就業方向有哪些? 新一輪科技革命與產業變革的時代背景下,嵌入式人工智能成為國家新型基礎建設與傳統產業升級的核心驅動力。同時在此背景驅動下,眾多名企也紛紛嵌入式
    發表于 02-26 10:17
    主站蜘蛛池模板: 人人做人人干| 色在线免费视频| 日本高清视频在线www色| 性做久久久久久久免费观看| 免费公开在线视频| www黄色大片| 免费中国一级啪啪片| 四虎影院欧美| 岛国毛片在线观看| 一区二区三区福利| 51vv福利视频在线精品| 天天干夜夜噜| 77788色淫视频免费观看| 国产一区美女视频| 欧美性生活网址| 视频在线你懂的| 亚洲入口无毒网址你懂的| 亚洲一区二区三区免费在线观看 | 欧美黄色大全| 免费日本黄色网址| yy8090韩国日本三理论免费| 精品免费视在线视频观看| 天天摸天天操天天干| 欧美tube44videos| 色天天天天| 天天看天天操| 狠狠操欧美| 亚洲一区在线观看视频| 好紧好爽水真多18| 美女扒开腿让男生桶爽网站| 中文字幕精品一区影音先锋| 日本wwwhdsex69| 激情综合丝袜美女一区二区| 欧美三级在线| 日本一区二区三区视频在线观看| 欧美黑粗特黄午夜大片| 国产精选经典三级小泽玛利亚| 波多野结衣在线观看一区| 狠狠色狠狠色综合网| 黄色成人毛片| 亚洲国产午夜看片|