在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

完善資料讓更多小伙伴認(rèn)識(shí)你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

NVIDIA TensorRT 8 BERT在1.2毫秒內(nèi)進(jìn)行推斷

NVIDIA 發(fā)布的TensorRT 8.0 ，通過(guò)新的優(yōu)化將 BERT 的大推理延遲降低到 1.2 毫秒。該版本還提供了 2 倍的精度為 INT8 精度與量化意識(shí)的訓(xùn)練，并通過(guò)支持稀疏性，這是引進(jìn)安培 GPU 的顯著更高的性能。

TensorRT 是一個(gè)用于高性能深度學(xué)習(xí)推理的 SDK ，包括推理優(yōu)化器和運(yùn)行時(shí)，提供低延遲和高吞吐量。 TensorRT 用于醫(yī)療、汽車、制造、互聯(lián)網(wǎng)/電信服務(wù)、金融服務(wù)、能源等行業(yè)，下載量近 250 萬(wàn)次。

有幾種新的基于 transformer 模型被用于會(huì)話人工智能。 TensorRT 中的新的廣義優(yōu)化可以加速所有這些模型，將推理時(shí)間減少到 TensorRT 7 的一半。

此版本的亮點(diǎn)包括：

BERT 在 1.2 毫秒內(nèi)進(jìn)行推斷，并進(jìn)行了新的 transformer 優(yōu)化

使用量化感知訓(xùn)練，以 INT8 精度實(shí)現(xiàn)與 FP32 相當(dāng)?shù)臏?zhǔn)確性

引入稀疏性支持對(duì)安培 GPU 的快速推理

關(guān)于作者

About Jay Rodge

Jay Rodge 是 NVIDIA 的產(chǎn)品營(yíng)銷經(jīng)理，負(fù)責(zé)深入學(xué)習(xí)和推理產(chǎn)品，推動(dòng)產(chǎn)品發(fā)布和產(chǎn)品營(yíng)銷計(jì)劃。杰伊在芝加哥伊利諾伊理工學(xué)院獲得計(jì)算機(jī)科學(xué)碩士學(xué)位，主攻計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理。在 NVIDIA 之前，杰伊是寶馬集團(tuán)的人工智能研究實(shí)習(xí)生，為寶馬最大的制造廠使用計(jì)算機(jī)視覺(jué)解決問(wèn)題。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5026

瀏覽量
103298
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4754

瀏覽量
129096

評(píng)論

相關(guān)推薦

在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

Recurrent Drafting (簡(jiǎn)稱 ReDrafter) 是蘋果公司為大語(yǔ)言模型 (LLM) 推理開(kāi)發(fā)并開(kāi)源的一種新型推測(cè)解碼技術(shù)，該技術(shù)現(xiàn)在可與 NVIDIA TensorRT-LLM 一起使用。

發(fā)表于 12-25 17:31 ?191次閱讀

<b class='flag-5'>在</b><b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中啟用ReDrafter的一些變化

解鎖NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM 是一個(gè)專為優(yōu)化大語(yǔ)言模型 (LLM) 推理而設(shè)計(jì)的庫(kù)。它提供了多種先進(jìn)的優(yōu)化技術(shù)，包括自定義 Attention Kernel、Inflight

發(fā)表于 12-17 17:47 ?212次閱讀

NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開(kāi)發(fā)布

感謝眾多用戶及合作伙伴一直以來(lái)對(duì)NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現(xiàn)已在 GitHub 上公開(kāi)發(fā)布！

發(fā)表于 11-28 10:43 ?306次閱讀

<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap現(xiàn)已在GitHub上公開(kāi)發(fā)布

java小知識(shí)-納秒

()對(duì)比 System.currentTimeMillis()我們經(jīng)常使用，可以參考對(duì)比一下看方法意思，一個(gè)是納秒，一個(gè)是毫秒，二者有關(guān)系嗎? 先看看單位換算：一秒=1000毫秒 1

發(fā)表于 11-26 11:11 ?176次閱讀

TensorRT-LLM低精度推理優(yōu)化

本文將分享 TensorRT-LLM 中低精度量化內(nèi)容，并從精度和速度角度對(duì)比 FP8 與 INT8。首先介紹性能，包括速度和精度。其次，介紹量化工具 NVIDIA

發(fā)表于 11-19 14:29 ?351次閱讀

<b class='flag-5'>TensorRT</b>-LLM低精度推理優(yōu)化

AIC3254可以把mic采集到的音頻相位調(diào)整180度再延時(shí)1毫秒輸出給揚(yáng)聲器？

把mic采集到的音頻相位調(diào)整180度再延時(shí)1毫秒輸出給揚(yáng)聲器，用AIC3254可以實(shí)現(xiàn)嗎？

發(fā)表于 10-11 08:14

魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

“魔搭社區(qū)是中國(guó)最具影響力的模型開(kāi)源社區(qū)，致力給開(kāi)發(fā)者提供模型即服務(wù)的體驗(yàn)。魔搭社區(qū)利用NVIDIA TensorRT-LLM，大大提高了大語(yǔ)言模型的推理性能，方便了模型應(yīng)用部署，提高了大模型產(chǎn)業(yè)應(yīng)用效率，更大規(guī)模地釋放大模型的應(yīng)用價(jià)值?！?/div>

發(fā)表于 08-23 15:48 ?474次閱讀

請(qǐng)問(wèn)ESP8266在射頻校準(zhǔn)期間會(huì)發(fā)射嗎？

當(dāng)ESP8266啟動(dòng)時(shí)，它會(huì)運(yùn)行射頻校準(zhǔn)，該校準(zhǔn)會(huì)在幾百毫秒內(nèi)產(chǎn)生高電流峰值。在這些電流尖峰期間，設(shè)備是否從其天線輻射任何東西？

發(fā)表于 07-19 06:37

如何設(shè)置rts frame的duration?

我有一個(gè)系統(tǒng)一個(gè)ap和數(shù)個(gè)sta. STA每隔8毫秒發(fā)個(gè)udp包。可以通過(guò)wireshark抓包發(fā)現(xiàn)，每個(gè)sta都會(huì)先發(fā)一個(gè)rts包，其中duration為156毫秒。這樣其他sta和ap在

發(fā)表于 06-24 06:48

NVIDIA加速微軟最新的Phi-3 Mini開(kāi)源語(yǔ)言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開(kāi)源語(yǔ)言模型。TensorRT-LLM 是一個(gè)開(kāi)源庫(kù)，用于優(yōu)化從 PC 到云端的

發(fā)表于 04-28 10:36 ?593次閱讀

利用NVIDIA Holoscan 1.0開(kāi)發(fā)生產(chǎn)就緒型AI傳感器處理應(yīng)用

邊緣 AI 開(kāi)發(fā)者正在構(gòu)建用于安全關(guān)鍵型和受監(jiān)管用例的 AI 應(yīng)用和產(chǎn)品。借助 NVIDIA Holoscan 1.0，這些應(yīng)用可在幾毫秒內(nèi)整合實(shí)時(shí)洞察和加工處理。

發(fā)表于 04-25 09:58 ?481次閱讀

NVIDIA生成式AI研究實(shí)現(xiàn)在1秒內(nèi)生成3D形狀

NVIDIA 研究人員使 LATTE3D （一款最新文本轉(zhuǎn) 3D 生成式 AI 模型）實(shí)現(xiàn)雙倍加速。

發(fā)表于 03-27 10:28 ?517次閱讀

關(guān)于STM32C8T6 DMA數(shù)據(jù)讀取的疑問(wèn)求解決

1.在使用STM32F103C8T6的時(shí)候，使用的是串口通訊，波特率9600，在讀取數(shù)據(jù)的時(shí)候使用的是DMA數(shù)據(jù)讀取加串口空閑中斷的方式，使用MAX485接口的芯片，每隔200毫秒發(fā)送一次數(shù)據(jù)，

發(fā)表于 03-27 07:50

STM32H750VBT6無(wú)法使用flymcu.exe或flashloader通過(guò)串口1燒寫程序，怎么解決？

在串口COM55連接成功@115200bps，耗時(shí)922毫秒芯片內(nèi)BootLoader版本號(hào)：3.1 芯片PID：00000450 芯片已設(shè)置讀保護(hù) 芯片有讀保護(hù)，請(qǐng)先擦除器件以清除讀保護(hù) 開(kāi)始

發(fā)表于 03-15 06:07

i2c讀取每4毫秒偶爾會(huì)出現(xiàn)故障的原因？

i2c讀取每4毫秒偶爾會(huì)出現(xiàn)故障。概率約為 1, 500:1。失敗的原因是 I2C_ERR_OTHER。版本為版本：1.40.0_7.0.0

發(fā)表于 01-19 07:12

星星科技指導(dǎo)員
專欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁(yè)

Hot 使用microchip參考設(shè)計(jì)開(kāi)發(fā)您的下一個(gè)基于USB-C PD的充電器
Hot 所有IC中半導(dǎo)體噪聲的特性如何估算基準(zhǔn)電壓源的噪聲

New 微電網(wǎng)系統(tǒng)控制方法和原理
New 飛輪儲(chǔ)能系統(tǒng)的核心及優(yōu)勢(shì)分析

精選推薦
更多

文章

資料

帖子

解析AMR設(shè)計(jì)關(guān)鍵要素：傳感器、可見(jiàn)光通信驅(qū)動(dòng)器、電源方案等

安森美
1天前

467 閱讀

原生鴻蒙第一個(gè)出圈的，為什么是安全？

腦極體
1天前

529 閱讀

德州儀器分析服務(wù)器電源設(shè)計(jì)中的五大趨勢(shì)

德州儀器
1天前

419 閱讀

ElfBoard技術(shù)貼|如何通過(guò)TF卡啟動(dòng)ELF 2學(xué)習(xí)板

ElfBoard
2天前

631 閱讀

恩智浦i.MX95打造高級(jí)數(shù)字互聯(lián)儀表盤方案顛覆兩輪車騎行體驗(yàn)

NXP客棧
2天前

800 閱讀

傳感器技術(shù)總覽

李艷
964

10積分

441下載

STRS6309電源電路圖

胖子的逆襲
11 KB

10積分

313下載

RedisShake Redis數(shù)據(jù)同步工具

張國(guó)厚
0.12 MB

2積分

2下載

Spug運(yùn)維管理系統(tǒng)

樓斌
0.55 MB

2積分

1下載

zy-im基于Netty的IM服務(wù)

123
0.14 MB

免費(fèi)

0下載

【米爾-Xilinx XC7A100T FPGA開(kāi)發(fā)板試用】 UART測(cè)試

xinle1
1天前

366 閱讀

【GD32VW553-IOT開(kāi)發(fā)板體驗(yàn)】開(kāi)箱簡(jiǎn)介

yinwuqing
2天前

196 閱讀

電子發(fā)燒友榮獲機(jī)械工業(yè)出版社華章板塊“2024年度優(yōu)秀合作伙伴獎(jiǎng)”

ElecFans小喇叭
3天前

1377 閱讀

這個(gè)電路如何實(shí)現(xiàn)遠(yuǎn)近光的切換？

LtNSee
3天前

1424 閱讀

[求助] CDS8711開(kāi)發(fā)板，Keil例程使用JLINK燒錄，遇到無(wú)法識(shí)別單片機(jī)的情況

未存3308
3天前

1189 閱讀

推薦專欄
更多

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

NVIDIA TensorRT 8 BERT在1.2毫秒內(nèi)進(jìn)行推斷

評(píng)論

在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

解鎖NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開(kāi)發(fā)布

java小知識(shí)-納秒

TensorRT-LLM低精度推理優(yōu)化

AIC3254可以把mic采集到的音頻相位調(diào)整180度再延時(shí)1毫秒輸出給揚(yáng)聲器？

魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

請(qǐng)問(wèn)ESP8266在射頻校準(zhǔn)期間會(huì)發(fā)射嗎？

如何設(shè)置rts frame的duration?

NVIDIA加速微軟最新的Phi-3 Mini開(kāi)源語(yǔ)言模型

利用NVIDIA Holoscan 1.0開(kāi)發(fā)生產(chǎn)就緒型AI傳感器處理應(yīng)用

NVIDIA生成式AI研究實(shí)現(xiàn)在1秒內(nèi)生成3D形狀

關(guān)于STM32C8T6 DMA數(shù)據(jù)讀取的疑問(wèn)求解決

STM32H750VBT6無(wú)法使用flymcu.exe或flashloader通過(guò)串口1燒寫程序，怎么解決？

i2c讀取每4毫秒偶爾會(huì)出現(xiàn)故障的原因？