在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA推理平臺和全棧方法提供最佳性能

星星科技指導員 ? 來源:NVIDIA ? 作者:Dave Salvator ? 2022-04-08 16:31 ? 次閱讀

三個趨勢繼續推動著人工智能推理市場的訓練和推理:不斷增長的數據集,日益復雜和多樣化的網絡,以及實時人工智能服務。 MLPerf 推斷 0 。 7 是行業標準 AI 基準測試的最新版本,它解決了這三個趨勢,為開發人員和組織提供了有用的數據,以便為數據中心和邊緣的平臺選擇提供信息。

基準測試擴展了推薦系統、語音識別醫學成像系統。它已經升級了自然語言處理( NLP )的工作負載,以進一步挑戰測試中的系統。下表顯示了當前的一組測試。

表 1 。 MLPerf 推斷 0 。 7 工作負載。

*新工作量

此外,針對數據中心和邊緣的多個場景進行了基準測試:

圖 1 。 MLPerf 推理 0 。 7 平臺類別和場景。

NVIDIA 輕松贏得了數據中心和邊緣類別的所有測試和場景。雖然這種出色的性能大部分可以追溯到我們的 GPU 體系結構,但更多的是與我們的工程師所做的出色的優化工作有關,現在開發人員社區可以使用這些工作。

在這篇文章中,我深入研究了導致這些優秀結果的因素,包括軟件優化以提高執行效率,多實例 GPU ( MIG )使一個 A100GPU 最多可以作為七個獨立的 GPUs 運行,以及 Triton 推斷服務器 支持在數據中心規模輕松部署推理應用程序。

檢查的優化

NVIDIA GPUs 支持 int8 和 FP16 的高吞吐量精確推斷,因此您可以在默認情況下獲得出色的推斷性能,而無需任何量化工作。然而,在保持精度的同時將網絡量化到 int8 精度是最高的性能選項,可以使數學吞吐量提高 2 倍。

在本次提交的資料中,我們發現 FP16 需要滿足 BERT 的最高精度目標。對于這個工作負載,我們使用了我們的 FP16 張量核心。在其他工作負載中,我們使用 int8 精度達到了最高精度目標( DLRM 和 3D Unet 的 FP32 的 99 。 9% 以上)。此外, int8 提交的性能得益于 TensorRT 7 。 2 軟件版本中的全面加速。

許多推斷工作負載需要大量的預處理工作。 NVIDIA 開源 DALI 庫旨在加速對 GPU 的預處理并避免 CPU 瓶頸。在本文中,我們使用 DALI 實現了 RNN-T 基準的 wav 到 mel 的轉換。

NLP 推斷對具有特定序列長度(輸入中的單詞數)的輸入文本進行操作。對于批處理推理,一種方法是將所有輸入填充到相同的序列長度。但是,這會增加計算開銷。 TensorRT 7 。 2 增加了三個插件來支持 NLP 的可變序列長度處理。我們提交的 BERT 使用這些插件獲得了超過 35% 的端到端性能。

加速稀疏矩陣處理是 A100 中引入的一種新功能。稀疏化網絡確實需要重新訓練和重新校準權值才能正常工作,因此稀疏性在封閉類別中不是可用的優化,但在開放類別中是允許的。我們的開放類別 BERT 提交使用稀疏性實現了 21% 的吞吐量提高,同時保持了與封閉提交相同的準確性。

了解 MLPerf 中的 MIG

MIG 內存。 MIG 允許您選擇是將 A100 作為單個大的 GPU 操作,還是將多個較小的 GPU 作為一個單獨的大型 GPU 來運行,每個小的 GPU 可以在它們之間隔離的情況下為不同的工作負載提供服務。圖 2 顯示了將此技術用于測試的 MLPerf 結果。

圖 2 。 MIG 與完整 T4 相比的推理性能。

圖 2 比較了單個 MIG 實例與完整的 T4GPU 實例的邊緣脫機性能,因為 A100 最多可支持七個 MIG 實例。您可以看到,超過四個 MIG 測試結果得分高于完整的 T4GPU 。這對應用程序意味著,您可以加載一個包含多個網絡和應用程序的單個 A100 ,并以與 T4 相同或更好的性能運行每個網絡和應用程序。這樣可以減少部署的服務器數量,釋放機架空間,并降低能耗。此外,在單個 A100 上同時運行多個網絡有助于保持 GPU 的高利用率,因此基礎設施管理人員可以優化使用已部署的計算資源。

Triton 推斷服務器

在一個網絡經過訓練和優化之后,它就可以部署了,但這并不像打開交換機那么簡單。在一個以人工智能為動力的服務上線之前,有幾個挑戰需要解決。這包括提供適當數量的服務器來維護 sla ,并確保在 AI 基礎設施上運行的所有服務都有良好的用戶體驗。然而,“正確的數字”可能會隨著時間的推移或由于工作量需求的突然變化而改變。理想的解決方案還可以實現負載平衡,從而使基礎設施得到最佳利用,但不會出現超額訂閱。此外,一些管理者希望在單個 GPUs 上運行多個網絡。 Triton 推斷服務器解決了這些挑戰和其他問題,使基礎設施管理人員更容易部署和維護負責提供人工智能服務的服務器群。

在這一輪中,我們也使用 Triton 推理服務器提交了結果,這簡化了人工智能模型在生產中的大規模部署。這個開源推理服務軟件允許團隊從任何框架( TensorFlow 、 TensorRT 、 PyTorch 、 ONNX 運行時或自定義框架)部署經過訓練的 AI 模型。它們還可以從本地存儲、 Google 云平臺或 Amazon S3 部署在任何基于 GPU – 或 CPU 的基礎設施(云、數據中心或邊緣)上。

圖 3 。 Triton 推斷服務器與 Kubernetes 完全集成。

Triton ?聲波風廓線儀也可作為 Docker 容器提供,是為基于微服務的應用而設計的。 Triton ?聲波風廓線儀與 Kubernetes 緊密集成,實現動態負載平衡,保證所有網絡推理操作順利進行。 Triton ?聲波風廓線儀的 GPU 指標幫助 Kubernetes 將推斷工作轉移到可用的 GPU 上,并在需要時擴展到數百個 GPUs 。新的 Triton ?聲波風廓線儀 2 。 3 支持使用 KFServing 的無服務器推斷、 Python 自定義后端、用于會話式人工智能的解耦推理、支持 A100MIG 以及 Azure ML 和 DeepStream 5 。 0 集成。

圖 4 顯示了 Triton ?聲波風廓線儀與運行 A100 定制推理服務解決方案相比的總體效率,這兩種配置都使用 TensorRT 運行。

圖 4 。 Triton ?聲波風廓線儀在 MLPerf 推理 0 。 7 結果中提供了與高度定制的推理服務實現幾乎相同的性能。

Triton ?聲波風廓線儀的效率很高,在這五個網絡中提供同等或接近它的性能。為了提供這樣的性能,該團隊對 Triton ?聲波風廓線儀進行了許多優化,例如用于與應用程序進行低延遲通信的新的輕量級數據結構、用于改進動態批處理的批處理數據加載以及用于 TensorRT 后端的 CUDA 圖形以獲得更高的推理性能。這些增強功能可作為 20 。 09 Triton ?聲波風廓線儀集裝箱 的一部分提供給每個應用程序。除此之外, Triton ?聲波風廓線儀還簡化了部署,無論是在本地還是在云端。這使得所有網絡推斷都能順利進行,即使在意外的需求高峰來襲時也是如此。

加速推理應用程序

考慮到驅動人工智能推理的持續趨勢, NVIDIA 推理平臺和全棧方法提供了最佳性能、最高通用性和最佳可編程性, MLPerf 推理 0 。 7 測試性能證明了這一點?,F在,您和開發人員社區的其他成員都可以使用這些成果,主要是以開源軟件的形式。此外, TensorRT 和 Triton 推理服務器可從 NVIDIA NGC 免費獲得,以及預訓練模型、深度學習框架、行業應用框架和頭盔圖。 A100GPU 已經證明了其充分的推理能力。隨著完整的 NVIDIA 推理平臺, A100GPU 已經準備好迎接最嚴峻的人工智能挑戰。

關于作者

Dave Salvator 是 NVIDIA 旗下 Tesla 集團的高級產品營銷經理,專注于超規模、深度學習和推理。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5053

    瀏覽量

    103365
  • 人工智能
    +關注

    關注

    1792

    文章

    47514

    瀏覽量

    239229
收藏 人收藏

    評論

    相關推薦

    曙光云開啟智能時代

    近日,“可信 云中生智”曙光云戰略發布會召開。曙光云從首創“城市云”進化到實現“智能云”,打造“云智、云安、云算、云數”四位一體能力體系,深度賦能千行百業數智化轉型升級。
    的頭像 發表于 12-19 15:11 ?283次閱讀

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個專為優化大語言模型 (LLM) 推理而設計的庫。它提供了多種先進的優化技術,包括自定義 Attention Kernel、Inflight
    的頭像 發表于 12-17 17:47 ?225次閱讀

    基于飛騰平臺的國內首家信創安檢管理系統投入試運行

    基于飛騰平臺的國內首家信創安檢管理系統在哈爾濱太平國際機場初步建設完畢,進入試運行驗證階段,測試通道已面向旅客開放,期間運行穩定,標志著全國首個
    的頭像 發表于 12-04 16:23 ?386次閱讀

    NVIDIA將亮相亞馬遜云科技re:Invent 2024

    12 月 2 日至 6 日,NVIDIA 將在于拉斯維加斯舉行的亞馬遜云科技 re:Invent 2024 上展示產品。與會者可以深入了解在亞馬遜云科技上所提供的各種
    的頭像 發表于 11-27 11:18 ?462次閱讀

    聯想與NVIDIA合作推出混合式人工智能優勢集

    在聯想全球創新科技大會上,聯想集團董事長兼 CEO 楊元慶和 NVIDIA 創始人兼 CEO 黃仁勛共同介紹了為企業 AI 打造的平臺。
    的頭像 發表于 11-19 16:00 ?319次閱讀

    NVIDIA助力麗蟾科技打造AI訓練與推理加速解決方案

    麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise,為企業和科研機構提供了一套高效、靈活的 AI 訓練與推理加速解決方案。無論是在復雜的 AI 開發
    的頭像 發表于 10-27 10:03 ?274次閱讀
    <b class='flag-5'>NVIDIA</b>助力麗蟾科技打造AI訓練與<b class='flag-5'>推理</b>加速解決方案

    華為云發布可觀測平臺 AOM,以 AI 賦能應用運維可觀測

    應用可用性與穩定性。 該平臺發布標志著華為云在推動數字化轉型和智能化運維領域的又一重大突破,可觀測平臺的推出不僅為企業提供了更加全面和深
    的頭像 發表于 10-15 09:54 ?556次閱讀
    華為云發布<b class='flag-5'>全</b><b class='flag-5'>棧</b>可觀測<b class='flag-5'>平臺</b> AOM,以 AI 賦能應用運維可觀測

    NVIDIA與思科合作打造企業級生成式AI基礎設施

    NVIDIA 加速計算平臺、NVIDIA AI Enterprise 軟件和 NVIDIA NIM 推理微服務加持的思科 Nexus H
    的頭像 發表于 10-10 09:35 ?392次閱讀

    魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區是中國最具影響力的模型開源社區,致力給開發者提供模型即服務的體驗。魔搭社區利用NVIDIA TensorRT-LLM,大大提高了大語言模型的推理性能,方便了模型應用部署,提高了大模型產業應用效率,更大規模地釋放大模型的
    的頭像 發表于 08-23 15:48 ?480次閱讀

    英偉達推出全新NVIDIA AI Foundry服務和NVIDIA NIM推理微服務

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務和 NVIDIA NIM 推理微服務,與同樣剛推出的 Llama 3.1 系列開源模型一起,為全球企業的生成式 AI
    的頭像 發表于 07-25 09:48 ?744次閱讀

    NVIDIA 通過 Holoscan 為 NVIDIA IGX 提供企業軟件支持

    Enterprise-IGX軟件現已在NVIDIA IGX平臺上正式可用,以滿足工業邊緣對實時 AI 計算日益增長的需求。它們將共同幫助醫療、工業和科學計算領域的解決方案提供商利用企業級軟件和支持來加快開發
    的頭像 發表于 06-04 10:21 ?531次閱讀

    英偉達推出AI模型推理服務NVIDIA NIM

    英偉達近日宣布推出一項革命性的AI模型推理服務——NVIDIA NIM。這項服務將極大地簡化AI模型部署過程,為全球的2800萬英偉達開發者提供前所未有的便利。
    的頭像 發表于 06-04 09:15 ?697次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    本實踐中,唯品會 AI 平臺NVIDIA 團隊合作,結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將
    的頭像 發表于 04-20 09:39 ?777次閱讀

    使用NVIDIA Triton推理服務器來加速AI預測

    這家云計算巨頭的計算機視覺和數據科學服務使用 NVIDIA Triton 推理服務器來加速 AI 預測。
    的頭像 發表于 02-29 14:04 ?604次閱讀

    基于NVIDIA DOCA 2.6實現高性能和安全的AI云設計

    網絡平臺上快速創建應用程序和服務,并啟用 NVIDIA BlueField DPU 和 NVIDIA BlueField SuperNIC 的強大功能,提供突破性的網絡、安全和存儲
    的頭像 發表于 02-23 10:02 ?505次閱讀
    主站蜘蛛池模板: jlzzjlzz欧美大全| 91牛牛| 爱草免费视频| 99视频网站| 亚洲第一免费网站| 天堂在线www天堂中文在线| 啪视频免费| 国产精品成人观看视频国产奇米| 午夜免费福利影院| 视频在线观看网站| 啪啪.com| 美女扒开尿口给男人爽免费视频 | 午夜免费啪视频| 日本黄黄| 国产午夜视频在永久在线观看| 一区在线播放| 一本到卡二卡三卡免费高| 亚洲成人免费网站| 在线观看视频你懂的| 色综合久久久高清综合久久久| 欧美一区二区三区黄色| 国产你懂的视频| 天天综合网天天做天天受| 国产精品午夜久久| 日本在线不卡一区二区| 网站色| 久草老司机| 男人不识本站| xx网成人| 国产―笫一页―浮力影院xyz| 777黄色片| 性做久久久久久久久| 女性一级全黄生活片| 最新版资源在线天堂| 精品国产一二三区| 亚洲韩国日本欧美一区二区三区| 性无码专区无码| 久久久久88色偷偷| 日日碰狠狠添天天爽五月婷| 亚洲jizzjizz中国妇女| 亚洲综合色就色手机在线观看|