在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用NVIDIA A30 GPU加速AI推理工作負載

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-05-16 09:25 ? 次閱讀

NVIDIA A30 GPU 基于最新的 NVIDIA Ampere 體系結構,可加速各種工作負載,如大規模人工智能推理、企業培訓和數據中心主流服務器的 HPC 應用程序。 A30 PCIe 卡將第三代 Tensor 內核與大容量 HBM2 內存( 24 GB )和快速 GPU 內存帶寬( 933 GB / s )組合在一個低功耗外殼中(最大 165 W )。

A30 支持廣泛的數學精度:

雙精度( FP64 )

單精度( FP32 )

半精度( FP16 )

腦浮 16 ( BF16 )

整數( INT8 )

它還支持 Tensor Float 32 ( TF32 )和 Tensor Core FP64 等創新技術,提供了一個單一的加速器來加速每個工作負載。

圖 1 顯示了 TF32 ,其范圍為 FP32 ,精度為 FP16 。 TF32 是 PyTorch 、 TensorFlow 和 MXNet 中的默認選項,因此在上一代 NVIDIA Volta 架構中實現加速不需要更改代碼。

A30 的另一個重要特點是多實例 GPU ( MIG )能力。 MIG 可以最大限度地提高從大到小工作負載的 GPU 利用率,并確保服務質量( QoS )。單個 A30 最多可以被劃分為四個 MIG 實例,以同時運行四個應用程序,每個應用程序都與自己的流式多處理器( SMs )、內存、二級緩存、 DRAM 帶寬和解碼器完全隔離。有關更多信息,請參閱 支持的 MIG 配置文件 。

對于互連, A30 支持 PCIe Gen4 ( 64 GB / s )和高速第三代 NVLink (最大 200 GB / s )。每個 A30 都可以支持一個 NVLink 橋接器與一個相鄰的 A30 卡連接。只要服務器中存在一對相鄰的 A30 卡,這對卡就應該通過跨越兩個 PCIe 插槽的 NVLink 橋接器連接,以獲得最佳橋接性能和平衡的橋接拓撲。

性能和平衡的橋接拓撲。

poYBAGKBqBmALH-VAABBLLMJLWQ255.png

除了表 1 中總結的硬件優勢外, A30 可以實現比 T4 GPU 更高的每美元性能。 A30 還支持端到端軟件堆棧解決方案:

圖書館

GPU 加速了 PyTorch 、 TensorFlow 和 MXNet 等深度學習框架

優化的深度學習模型

可從 NGC 和[2000]以上的容器中獲得

性能分析

為了分析 A30 相對于 T4 和 CPU 的性能改進,我們使用以下數據集對 MLPerf 推斷 v1.1 。 中的六個模型進行了基準測試:

ResNet-50v1 。 5 ( ImageNet )

SSD 大尺寸 ResNet-34 ( COCO )

3D Unet (布拉茨 2019 )

DLRM ( 1TB 點擊日志,離線場景)

BERT (第 1.1 版,第 384 小節)

RNN-T (圖書館語言)

MLPerf 基準測試套件 涵蓋了廣泛的推理用例,從圖像分類和對象檢測推薦,以及自然語言處理( NLP )。

圖 2 顯示了 A30 與 T4 和 BERT 在人工智能推理工作負載上的性能比較結果。對于 CPU 推斷, A30 比 CPU 快約 300 倍。

與T4相比,A30在使用這六種機型進行推理時提供了大約3-4倍的性能加速比。性能加速是由于30個較大的內存大小。這使得模型的批量更大,內存帶寬更快(幾乎是3倍T4),可以在更短的時間內將數據發送到計算核心。

pYYBAGKBqAaAZWaAAACGpnmS5vk955.png

圖 2 使用 MLPerf 比較 A30 與 T4 和 CPU 的性能。

CPU:8380H (不在 3D Unet 上提交)

除了人工智能推理之外, A30 還可以快速預訓練人工智能模型,例如 BERT 大型 TF32 ,以及使用 FP64 張量核加速 HPC 應用。帶有 TF32 的 A30 Tensor Cores 的性能比 T4 高出 10 倍,無需對代碼進行任何更改。它們還提供了自動混合精度的額外 2 倍提升,使吞吐量增加了 20 倍。

硬件解碼器

在構建視頻分析或視頻處理管道時,必須考慮以下幾個操作:

計算模型或預處理步驟的需求。 這取決于 Tensor 內核、 GPU DRAM 和其他硬件組件,它們可以加速模型或幀預處理內核。

傳輸前的視頻流編碼。 這樣做是為了最小化網絡上所需的帶寬。為了加快這一工作量,請使用 NVIDIA 硬件解碼器。

pYYBAGKBqAmAUZqIAACM1qWslYA962.png

圖 3 在不同 GPU 上處理的流的數量

使用 DeepStream 5.1 測試性能。它代表了 e2e 在視頻捕獲和解碼、預處理、批處理、推理和后處理方面的性能。已關閉輸出渲染以獲得最佳性能,運行 ResNet10 、 ResNet18 和 ResNet50 網絡以推斷 H.264 1080p30 視頻流。

A30 旨在通過提供四個視頻解碼器、一個 JPEG 解碼器和一個光流解碼器來加速智能視頻分析( IVA )。

要使用這些解碼器和計算資源來分析視頻,請使用 NVIDIA DeepStream SDK ,它為基于人工智能的多傳感器處理、視頻、音頻和圖像理解提供了一個完整的流分析工具包。有關更多信息,請參閱 TAO 工具包與 DeepStream 的集成 或者 使用 NVIDIA DeepStream 構建實時編校應用程序,第 1 部分:培訓 。

接下來呢?

A30 代表了數據中心最強大的端到端人工智能和 HPC 平臺,使研究人員、工程師和數據科學家能夠交付真實世界的結果,并將解決方案大規模部署到生產中。有關更多信息,請參閱 NVIDIA A30 Tensor Core GPU 數據表 和 NVIDIA A30 GPU 加速器產品簡介 。

關于作者

Maggie Zhang 是 NVIDIA 的深度學習工程師,致力于深度學習框架和應用程序。她在澳大利亞新南威爾士大學獲得計算機科學和工程博士學位,在那里她從事 GPU / CPU 異構計算和編譯器優化。

Tanay Varshney 是 NVIDIA 的一名深入學習的技術營銷工程師,負責廣泛的 DL 軟件產品。他擁有紐約大學計算機科學碩士學位,專注于計算機視覺、數據可視化和城市分析的橫斷面。

Davide Onofrio 是 NVIDIA 的高級深度學習軟件技術營銷工程師。他在 NVIDIA 專注于深度學習技術開發人員關注內容的開發和演示。戴維德在生物特征識別、虛擬現實和汽車行業擔任計算機視覺和機器學習工程師已有多年經驗。他的教育背景包括米蘭理工學院的信號處理博士學位。Ivan Belyavtsev 是一名圖形開發工程師,主要致力于開發人員支持和優化基于虛擬引擎的游戲。他還是 Innopolis 大學游戲開發領域的計算機圖形學導師。

Shar Narasimhan 是 AI 的高級產品營銷經理,專門從事 NVIDIA 的 Tesla 數據中心團隊的深度學習培訓和 OEM 業務。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5071

    瀏覽量

    103506
  • 人工智能
    +關注

    關注

    1793

    文章

    47604

    瀏覽量

    239542
  • 深度學習
    +關注

    關注

    73

    文章

    5511

    瀏覽量

    121392
收藏 人收藏

    評論

    相關推薦

    NVIDIA和GeForce RTX GPU專為AI時代打造

    NVIDIA 和 GeForce RTX GPU 專為 AI 時代打造。
    的頭像 發表于 01-06 10:45 ?186次閱讀

    《CST Studio Suite 2024 GPU加速計算指南》

    的各個方面,包括硬件支持、操作系統支持、許可證、GPU計算的啟用、NVIDIA和AMD GPU的詳細信息以及相關的使用指南和故障排除等內容。 1. 硬件支持 - NVIDIA
    發表于 12-16 14:25

    深度學習工作負載GPU與LPU的主要差異

    ,一個新的競爭力量——LPU(Language Processing Unit,語言處理單元)已悄然登場,LPU專注于解決自然語言處理(NLP)任務中的順序性問題,是構建AI應用不可或缺的一環。 本文旨在探討深度學習工作負載
    的頭像 發表于 12-09 11:01 ?402次閱讀
    深度學習<b class='flag-5'>工作</b><b class='flag-5'>負載</b>中<b class='flag-5'>GPU</b>與LPU的主要差異

    日本企業借助NVIDIA產品加速AI創新

    日本領先企業和大學正在使用 NVIDIA NeMo、NIM 微服務和 NVIDIA Isaac 加速 AI 創新。
    的頭像 發表于 11-19 14:34 ?370次閱讀

    FPGA和ASIC在大模型推理加速中的應用

    隨著現在AI的快速發展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經有了專門做推理的ASIC,像Groq的LPU,專門針對大語言模型的
    的頭像 發表于 10-29 14:12 ?646次閱讀
    FPGA和ASIC在大模型<b class='flag-5'>推理</b><b class='flag-5'>加速</b>中的應用

    NVIDIA助力麗蟾科技打造AI訓練與推理加速解決方案

    麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise,為企業和科研機構提供了一套高效、靈活的 AI 訓練與推理加速
    的頭像 發表于 10-27 10:03 ?292次閱讀
    <b class='flag-5'>NVIDIA</b>助力麗蟾科技打造<b class='flag-5'>AI</b>訓練與<b class='flag-5'>推理</b><b class='flag-5'>加速</b>解決方案

    NVIDIA與思科合作打造企業級生成式AI基礎設施

    NVIDIA 加速計算平臺、NVIDIA AI Enterprise 軟件和 NVIDIA NIM
    的頭像 發表于 10-10 09:35 ?402次閱讀

    AMD助力HyperAccel開發全新AI推理服務器

    HyperAccel 是一家成立于 2023 年 1 月的韓國初創企業,致力于開發 AI 推理專用型半導體器件和硬件,最大限度提升推理工作負載的存儲器帶寬使用,并通過將此解決方案應用于
    的頭像 發表于 09-18 09:37 ?399次閱讀
    AMD助力HyperAccel開發全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服務器

    英偉達推出全新NVIDIA AI Foundry服務和NVIDIA NIM推理微服務

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務和 NVIDIA NIM 推理微服務,與同樣剛推出的 Llama 3.1
    的頭像 發表于 07-25 09:48 ?756次閱讀

    進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

    計算工作負載、釋放百億億次計算能力和萬億參數人工智能模型的全部潛力提供關鍵基礎。 NVLink釋放數萬億參數AI模型的加速性能,顯著提升大型多GPU
    發表于 05-13 17:16

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫,用于優化從 PC 到云端的 NVID
    的頭像 發表于 04-28 10:36 ?611次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    本實踐中,唯品會 AI 平臺與 NVIDIA 團隊合作,結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將
    的頭像 發表于 04-20 09:39 ?791次閱讀

    全新NVIDIA RTX A400和A1000 GPU全面加強AI設計與生產力工作

    兩款 NVIDIA Ampere 架構 GPU工作站帶來實時光線追蹤功能和生成式 AI 工具支持。
    的頭像 發表于 04-18 10:29 ?586次閱讀

    NVIDIA 發布全新交換機,全面優化萬億參數級 GPU 計算和 AI 基礎設施

    NVIDIA 軟件實現了跨 ?Blackwell GPU、新交換機和 BlueField-3 SuperNIC 的分布式計算,大幅提升了 AI、數據處理、高性能計算和云工作
    發表于 03-19 10:05 ?389次閱讀
    <b class='flag-5'>NVIDIA</b> 發布全新交換機,全面優化萬億參數級 <b class='flag-5'>GPU</b> 計算和 <b class='flag-5'>AI</b> 基礎設施

    使用NVIDIA Triton推理服務器來加速AI預測

    這家云計算巨頭的計算機視覺和數據科學服務使用 NVIDIA Triton 推理服務器來加速 AI 預測。
    的頭像 發表于 02-29 14:04 ?616次閱讀
    主站蜘蛛池模板: 天天看天天做| susu成人影院| 四虎电影免费观看网站| 亚洲网在线观看| 婷婷激情视频| 日韩欧美一卡二区| 免费看三级黄色片| 国产婷婷一区二区三区| 丁香狠狠| 婷婷视频网| 国产在线小视频| 68日本xxxxxxxxx18能看的| 久久99久久精品国产只有 | 伊人久久综合成人网小说| 亚洲欧美日韩在线精品2021| 午夜影院操| 欧美午夜色视频国产精品| 狠狠色伊人亚洲综合第8页| yy6080一级毛片高清| 黄色18网站| 爱爱免费网址| 天天操天天摸天天碰| 国产精品久久久亚洲456| 91大神在线观看视频| 中文一级黄色片| 日本三级日本三级人妇三级四| 色婷婷在线视频观看| 免费边摸边吃奶边叫床视频gif| 国产精品视频网站你懂得| 天天摸夜夜添夜夜添国产| 国产美女久久久| 性配久久久| 四虎永久精品免费网址大全| 免费人成a大片在线观看动漫| 91黄色视屏| 成人夜色| 国产精品臀控福利在线观看| 狠狠色噜噜狠狠狠狠五月婷| 天堂网2017| 国产色妞妞在线视频免费播放| 天天爱添天天爱添天天爱添|