在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

通過稀疏支持和Transformer優化增強AI推理

星星科技指導員 ? 來源:嵌入式計算設計 ? 作者:Saumitra Jagdale ? 2022-07-10 14:12 ? 次閱讀

NVIDIA TensorRT 8 概述

NVIDIA TensorRT 是一個高性能推理平臺,對于利用 NVIDIA Tensor Core GPU 的強大功能至關重要。TensorRT 8 是一個軟件開發套件,其增強功能旨在提高性能和準確性,以應對在邊緣和嵌入式設備中發生的越來越多的 AI 推理。它允許對 TensorFlow 和 PyTorch 神經網絡進行廣泛的計算推理。

與純 CPU 平臺相比,TensorRT 可提供高達 40 倍的吞吐量,同時最大限度地減少延遲。它允許您從任何框架開始,并在生產中快速優化、驗證和部署經過訓練的神經網絡。

新版本在 NVIDIA Ampere GPU 上加入了稀疏性,可以修剪對網絡整體計算沒有貢獻的弱連接。此外,TensorRT 8 支持變壓器優化和 BERT-Large。Transformer 優化提高了性能,而量化感知訓練提高了準確性。

NVIDIA 的 TensorRT 8 有哪些新功能?

推理的目的是從訓練階段盡可能多地保留準確性。訓練后的模型可以在硬件設備上運行,以獲得客戶最低的響應時間和最大的吞吐量。但是,盡可能精確的必要性有時可能會與邊緣可用的內存量和吞吐量發生沖突。訓練有素、高度準確的模型可能運行速度太慢。

因此,TensorRT 版本 8 結合了深度學習推理應用或經過訓練的神經網絡模型的最新進展,以了解數據如何影響響??應。它使用兩個主要功能將語言查詢推理時間減少一半:

NVIDIA 安培架構的稀疏性

深度神經網絡擅長各種任務,例如計算機視覺語音識別和自然語言處理。隨著處理這些神經網絡所需的計算能力增加,有效的建模和計算變得越來越重要。

Sparse 是一種適用于具有 NVIDIA Ampere 架構的 GPU 的新性能方法,可通過減少計算過程來提高開發人員的效率。深度學習模型的其他方面不如其他方面重要,有些甚至可以為零。因此,神經網絡不需要對特定的權重或參數進行計算。因此,NVIDIA 可以通過使用稀疏性將模型的權重減少近一半來提高性能、吞吐量和延遲。

通過變壓器優化減少推理計算

在 TensorRT 8 中,性能增強是通過變壓器優化實現的。量化開發人員可以利用經過訓練的模型通過 8 位計算 (INT8) 執行推理。這大大減少了 Tensor 核心中的推理計算和存儲。INT8 越來越多地用于優化機器學習框架,例如 TensorFlow 和 NVIDIA 的 TensorRT,以減少內存和計算需求。因此,NVIDIA 可以在保持準確性的同時在 Tensor RT 8 上提供非常高的性能。

例如,量化感知訓練 (QAT) 有可能使準確率翻倍。因此,與舊版本 TensorRT 7 相比,TensorRT 8 可以將許多模型的性能提高一倍。

TensorRT 部署在眾多行業中

TensorRT 更好的性能和準確性使其成為醫療保健、汽車、互聯網/電信服務、金融服務和零售等行業的熱門選擇。例如,Tensor RT 用于為 GE Healthcare 的心血管超聲系統供電。這家數字診斷解決方案提供商使用該技術在其 Vivid E95 掃描儀上加速自動心臟視圖檢測。通過使用改進的視圖檢測算法,心臟病專家可以在早期階段做出更準確的診斷和檢測疾病。此外,TensorRT 還被 Verizon、福特、美國郵政服務、美國運通等知名公司使用。

隨著 Tensor RT 8 的發布,NVIDIA 還公布了谷歌使用 Tensor RT 在 BERT-large 推理方面的突破。Transformers 的雙向編碼器表示 (BERT) 是一種基于 Transformer 的機器學習技術,用于預訓練自然語言處理。BERT-Large 模型的分析時間僅為 1.2 毫秒,可以實時響應自然語言查詢。這意味著公司可以將其模型的大小增加一倍或三倍,以獲得更高的準確性。

許多推理服務在幕后使用諸如 BERT-Large 之類的語言模型。另一方面,基于語言的應用程序通常無法識別細微差別或情感,從而導致整體體驗不佳。現在,公司可以使用 TensorRT 8 在幾毫秒內部署整個工作流程。這些突破可以為新一代對話式 AI 應用程序鋪平道路,為用戶提供更智能和低延遲的體驗。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 變壓器
    +關注

    關注

    159

    文章

    7503

    瀏覽量

    135763
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10882

    瀏覽量

    212237
  • NVIDIA
    +關注

    關注

    14

    文章

    5025

    瀏覽量

    103268
收藏 人收藏

    評論

    相關推薦

    港大提出SparX:強化Vision Mamba和Transformer稀疏跳躍連接機制

    本文分享香港大學計算和數據科學學院俞益洲教授及其研究團隊發表于 AAAI 2025 的論文——SparX,一種強化 Vision Mamba 和 Transformer稀疏跳躍連接機制,性能強大
    的頭像 發表于 01-03 09:28 ?95次閱讀
    港大提出SparX:強化Vision Mamba和<b class='flag-5'>Transformer</b>的<b class='flag-5'>稀疏</b>跳躍連接機制

    Transformer模型的具體應用

    如果想在 AI 領域引領一輪新浪潮,就需要使用到 Transformer
    的頭像 發表于 11-20 09:28 ?504次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應用

    AI推理CPU當道,Arm驅動高效引擎

    本應發揮關鍵作用,但其重要性卻常常被忽視。 ? “對于那些希望將大語言模型(LLM)集成到產品和服務中的企業和開發者來說,CPU 通常是首選”。Arm 中國區業務全球副總裁鄒挺在接受采訪時表示。為了適應AI推理的應用落地,CPU有針對性的
    的頭像 發表于 11-13 14:34 ?2504次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>CPU當道,Arm驅動高效引擎

    FPGA和ASIC在大模型推理加速中的應用

    隨著現在AI的快速發展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經有了專門做推理的ASIC,像Groq的LPU,專門針對大語言模型的推理做了
    的頭像 發表于 10-29 14:12 ?540次閱讀
    FPGA和ASIC在大模型<b class='flag-5'>推理</b>加速中的應用

    NVIDIA助力麗蟾科技打造AI訓練與推理加速解決方案

    麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise,為企業和科研機構提供了一套高效、靈活的 AI 訓練與推理加速解決方案。無論是在復雜的
    的頭像 發表于 10-27 10:03 ?237次閱讀
    NVIDIA助力麗蟾科技打造<b class='flag-5'>AI</b>訓練與<b class='flag-5'>推理</b>加速解決方案

    使用OpenVINO C++在哪吒開發板上推理Transformer模型

    OpenVINO 是一個開源工具套件,用于對深度學習模型進行優化并在云端、邊緣進行部署。它能在諸如生成式人工智能、視頻、音頻以及語言等各類應用場景中加快深度學習推理的速度,且支持來自 PyTorch
    的頭像 發表于 10-12 09:55 ?367次閱讀
    使用OpenVINO C++在哪吒開發板上<b class='flag-5'>推理</b><b class='flag-5'>Transformer</b>模型

    AMD助力HyperAccel開發全新AI推理服務器

    HyperAccel 是一家成立于 2023 年 1 月的韓國初創企業,致力于開發 AI 推理專用型半導體器件和硬件,最大限度提升推理工作負載的存儲器帶寬使用,并通過將此解決方案應用于
    的頭像 發表于 09-18 09:37 ?381次閱讀
    AMD助力HyperAccel開發全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服務器

    摩爾線程攜手東華軟件完成AI大模型推理測試與適配

    近日,摩爾線程與東華軟件云筑AI創新中心宣布,雙方已完成大模型推理測試與適配。依托摩爾線程的全功能GPU國產算力,東華軟件打造安全可信的基于私有化大模型的“智多型(A.I.Cogniflex)”AI
    的頭像 發表于 07-31 10:51 ?761次閱讀

    如何基于OrangePi?AIpro開發AI推理應用

    通過昇騰CANN軟件棧的AI編程接口,可滿足大多數AI算法原型驗證、推理應用開發的需求。AscendCL(AscendComputingLanguage,昇騰計算
    的頭像 發表于 06-04 14:23 ?554次閱讀
    如何基于OrangePi?AIpro開發<b class='flag-5'>AI</b><b class='flag-5'>推理</b>應用

    進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

    技術的整合支持多達 576 個圖形處理器,提供 3.6 千萬億次網絡內計算,在網絡結構中直接減少和組合張量,優化計算任務并增強圖形處理器集群的可擴展性。 GB200 訓練性能提升至 4 倍,
    發表于 05-13 17:16

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    ,大語言模型還具備出色的關聯和關系理解能力,能夠捕捉數據間的隱含關系和語義聯系,進行高級關聯推理。它還支持多步推理,能在推理過程中進行多個步驟的演繹和分析。最后,
    發表于 05-04 23:55

    開發者手機 AI - 目標識別 demo

    應用的demo。 應用程序通過相機進行預覽,對預覽畫面中的物體進行目標識別,目前該應用程序支持識別100種物體。 系統架構 下圖為demo應用以及Openharmony AI子系統的架構圖。 目標
    發表于 04-11 16:14

    自然語言處理應用LLM推理優化綜述

    當前,業界在將傳統優化技術引入 LLM 推理的同時,同時也在探索從大模型自回歸解碼特點出發,通過調整推理過程和引入新的模型結構來進一步提升推理
    發表于 04-10 11:48 ?625次閱讀
    自然語言處理應用LLM<b class='flag-5'>推理</b><b class='flag-5'>優化</b>綜述

    ONNX Runtime支持龍架構,AI推理生態再添新翼

    近日,備受矚目的AI推理框架開源社區ONNX Runtime宣布推出支持龍架構的新版本1.17.0,這一里程碑式的更新意味著龍芯平臺上的AI推理
    的頭像 發表于 03-27 10:58 ?747次閱讀

    AI推理框架軟件ONNX Runtime正式支持龍架構

    近日,知名AI推理框架開源社區ONNX Runtime正式發布支持龍架構的版本1.17.0。
    的頭像 發表于 03-12 12:23 ?597次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>框架軟件ONNX Runtime正式<b class='flag-5'>支持</b>龍架構
    主站蜘蛛池模板: ccc36色影| 亚洲aaaa级特黄毛片| 国产一级αv片免费观看| 欧美在线视频7777kkkk| 免费一级黄色录像| tdg58在线观看| 91大神网址| 亚洲专区一区| 成人亚洲欧美综合| 妇乱子伦激情| 欧美涩色| 男人午夜| 亚洲综合精品一区二区三区中文| 中文字幕一区视频| sss欧美一区二区三区| 男女交性无遮挡免费视频| 最好看最新的中文字幕1| 五月天婷婷电影| 欧美日韩免费大片| 国产精品女人在线观看| 午夜嘿咻| 亚洲成a人片8888kkkk| 久久久国产在线| 美女扒开尿口让男生添 漫画 | 国产精品三区四区| 亚洲成a人片在线看| 又粗又长又大又黄的日本视频| 天天躁夜夜躁狠狠躁躁88| 午夜久久久久久久| 九九热国产| 日本一区二区免费在线观看| 性欧美大战久久久久久久| 免费日韩毛片| 精品爱爱| 五月天婷婷社区| 免费啪啪网| 亚洲一级免费毛片| 女人张开腿让男人桶视频免费大全| www.黄色免费| 94久久国产乱子伦精品免费| 高清一区高清二区视频|