在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

NVIDIA TensorRT 8.2將推理速度提高6倍

NVIDIA 發布了 TensorRT 8.2 ，對十億參數 NLU 模型進行了優化。其中包括 T5 和 GPT-2 ，用于翻譯和文本生成，使實時運行 NLU 應用程序成為可能。

TensorRT 是一款高性能的深度學習推理優化器和運行時，為人工智能應用程序提供低延遲、高吞吐量推理。 TensorRT 用于醫療、汽車、制造、互聯網/電信服務、金融服務和能源等多個行業。

PyTorch 和 TensorFlow 是擁有數百萬用戶的最流行的深度學習框架。新的 TensorRT 框架集成現在在 PyTorch 和 TensorFlow 中提供了一個簡單的 API ，并提供了強大的 FP16 和 INT8 優化，從而將推理速度提高了 6 倍。

亮點包括

TensorRT 8.2:T5 和 GPT-2 的優化運行實時翻譯和摘要，與 CPU 相比，性能提高了 21 倍。

TensorRT 8.2 ：適用于使用 Windows 的開發人員的簡單 Python API 。

Torch TensorRT:PyTorch 的集成與 GPU 上的框架內推理相比，僅需一行代碼即可提供高達 6 倍的性能。

TensorFlow TensorRT:TensorFlow 與 TensorRT 的集成提供了比使用一行代碼在 GPU 上進行框架內推理快 6 倍的性能。

資源

Torch- TensorRT 在 NGC catalog 的 PyTorch 容器中提供。

TensorFlow- TensorRT 目前可從 NGC catalog 的 TensorFlow 容器中獲得。

TensorRT 免費提供給 NVIDIA 開發程序的成員。

在 TensorRT 產品頁面了解更多信息。

關于作者

About Jay Rodge

Jay Rodge 是 NVIDIA 的產品營銷經理，負責深入學習和推理產品，推動產品發布和產品營銷計劃。杰伊在芝加哥伊利諾伊理工學院獲得計算機科學碩士學位，主攻計算機視覺和自然語言處理。在 NVIDIA 之前，杰伊是寶馬集團的人工智能研究實習生，為寶馬最大的制造廠使用計算機視覺解決問題。

審核編輯：郭婷

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
4986

瀏覽量
103058
互聯網

互聯網

+關注

關注
54

文章
11155

瀏覽量
103309
深度學習

深度學習

+關注

關注
73

文章
5503

瀏覽量
121162

在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發并開源的一種新型推測解碼技術，該技術現在可與 NVIDIA TensorRT-LLM 一起使用。

發表于 12-25 17:31 ?118次閱讀

在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中啟用ReDrafter的一些變化

解鎖NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM 是一個專為優化大語言模型 (LLM) 推理而設計的庫。它提供了多種先進的優化技術，包括自定義 Attention Kernel、Inflight

發表于 12-17 17:47 ?159次閱讀

NVIDIA TensorRT-LLM Roadmap現已在GitHub上公開發布

感謝眾多用戶及合作伙伴一直以來對NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現已在 GitHub 上公開發布！

發表于 11-28 10:43 ?272次閱讀

<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap現已在GitHub上公開發布

TensorRT-LLM低精度推理優化

本文將分享 TensorRT-LLM 中低精度量化內容，并從精度和速度角度對比 FP8 與 INT8。首先介紹性能，包括速度和精度。其次，介紹量化工具

發表于 11-19 14:29 ?300次閱讀

<b class='flag-5'>TensorRT</b>-LLM低精度<b class='flag-5'>推理</b>優化

魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率

“魔搭社區是中國最具影響力的模型開源社區，致力給開發者提供模型即服務的體驗。魔搭社區利用NVIDIA TensorRT-LLM，大大提高了大語言模型的推理性能，方便了模型應用部署，

發表于 08-23 15:48 ?455次閱讀

英偉達推出全新NVIDIA AI Foundry服務和NVIDIA NIM推理微服務

NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務和 NVIDIA NIM 推理微服務，與同樣剛推出的 Llama 3.1 系列開源模型一起，為全球企業的生成式 AI

發表于 07-25 09:48 ?709次閱讀

MediaTek與NVIDIA TAO加速物聯網邊緣AI應用發展

在即將到來的COMPUTEX 2024科技盛會上，全球知名的芯片制造商MediaTek宣布了一項重要合作——將NVIDIA的TAO（TensorRT Accelerated Optimizer）與其NeuroPilot SDK（

發表于 06-12 14:49 ?476次閱讀

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

大型語言模型（LLM）和專家混合（MoE）模型的推理過程。第二代Transformer引擎采用8位浮點（FP8）和新的精度等技術，將大型語言模型如GPT-MoE-1.8T的訓練速度提高

發表于 05-13 17:16

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫，用于優化從 PC 到云端的

發表于 04-28 10:36 ?567次閱讀

NVIDIA全面加快Meta Llama 3的推理速度

Meta 最新開源大語言模型采用 NVIDIA 技術構建，其經過優化后可在云、數據中心、邊緣和 PC 的 NVIDIA GPU 上運行。

發表于 04-23 09:52 ?462次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實踐中，唯品會 AI 平臺與 NVIDIA 團隊合作，結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）

發表于 04-20 09:39 ?727次閱讀

NVIDIA cuOpt算法將路徑優化求解速度提高100倍

NVIDIA cuOpt 是一個用于解決復雜路徑問題的加速優化引擎。它能高效解決不同方面的問題，如休息時間、等待時間、多個車輛成本和時間矩陣、多個目標、訂單-車輛匹配、車輛起始和結束位置、車輛起始和結束時間等。

發表于 04-19 10:09 ?444次閱讀

使用NVIDIA Triton推理服務器來加速AI預測

這家云計算巨頭的計算機視覺和數據科學服務使用 NVIDIA Triton 推理服務器來加速 AI 預測。

發表于 02-29 14:04 ?585次閱讀

利用NVIDIA產品技術組合提升用戶體驗

本案例通過利用NVIDIA TensorRT-LLM加速指令識別深度學習模型，并借助NVIDIA Triton推理服務器在NVIDIA V1

發表于 01-17 09:30 ?693次閱讀

Torch TensorRT是一個優化PyTorch模型推理性能的工具

那么，什么是Torch TensorRT呢？Torch是我們大家聚在一起的原因，它是一個端到端的機器學習框架。而TensorRT則是NVIDIA的高性能深度學習推理軟件工具包。Torc

發表于 01-09 16:41 ?1742次閱讀

星星科技指導員
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 使用microchip參考設計開發您的下一個基于USB-C PD的充電器
Hot 所有IC中半導體噪聲的特性如何估算基準電壓源的噪聲

New 微電網系統控制方法和原理
New 飛輪儲能系統的核心及優勢分析

精選推薦
更多

文章

資料

帖子

2024過去了，留下十個科技記憶

腦極體
23小時前

521 閱讀

兩款VR頭顯大拆解，都用了哪些芯片？

拍明芯城
1天前

396 閱讀

屏蔽柵MOSFET技術簡介

翠展微電子
1天前

381 閱讀

基于LKS32MC07x系列MCU的超高速清潔電器解決方案

晶豐明源
1天前

411 閱讀

基于瑞薩電子RA6T2 MCU的電機控制讓吸塵器更智能

瑞薩MCU小百科
1天前

341 閱讀

PLC編程資源說明及應用

tr4578
266

10積分

82下載

gls Goroutine本地存儲庫

王濤
0.00 MB

免費

0下載

SmartShell C#編寫的智能控制臺終端

李藝銀
29.96 MB

2積分

2下載

Sparky javascript圖形工具

杜喜喜
0.10 MB

免費

0下載

react-native-cardview-wayne設置卡片樣式的組件

楊勇
0.16 MB

免費

0下載

【飛凌嵌入式OK3588J-C開發板體驗】OK3588J-C開發板的ffmpeg編解碼、HDMI輸入及編碼

dutong0321
1天前

124 閱讀

采集值突然驟降

塵埃sawdsa
19小時前

138 閱讀

2024 電機控制年度技術分享會來啦?。。?/span>

ElecFans小喇叭
1天前

444 閱讀

[廣東龍芯2K1000/2K500開發板] OpenWRT 使用說明

jf_38522704
10月前

5424 閱讀

使用單片機驅動DAC088S085無反應

jf_68383328
1天前

593 閱讀

推薦專欄
更多

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

NVIDIA TensorRT 8.2將推理速度提高6倍

評論

在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

解鎖NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM Roadmap現已在GitHub上公開發布

TensorRT-LLM低精度推理優化

魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率

英偉達推出全新NVIDIA AI Foundry服務和NVIDIA NIM推理微服務

MediaTek與NVIDIA TAO加速物聯網邊緣AI應用發展

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

NVIDIA全面加快Meta Llama 3的推理速度

利用NVIDIA組件提升GPU推理的吞吐

NVIDIA cuOpt算法將路徑優化求解速度提高100倍

使用NVIDIA Triton推理服務器來加速AI預測

利用NVIDIA產品技術組合提升用戶體驗

Torch TensorRT是一個優化PyTorch模型推理性能的工具