盗墓笔记小说txt下载,有声小说在线收听网,我欲封天耳根小说

夸克瀏覽器是阿里旗下的一個搭載極速AI引擎的高速智能瀏覽器。夸客以極速智能搜索為定位，致力于為用戶提供交互更智能高效、內容更專業權威的新一代搜索引擎，同時也在產品極致體驗上不斷實現突破。

夸克目前不僅提供極致的搜索體驗，也在探索以深度學習為基礎的AI工具，通過高效的算法效果和全流程的性能優化，提供更好的用戶體驗。深度學習模型在實際應用的過程中，效果遠好于傳統模型，但由于算法復雜度過高，預測性能成為制約模型最終能否上線的核心問題。NVIDIA TensorRT通過計算圖的優化、高效Kernel的實現及更高效硬件的利用加速模型預測耗時，使預測速度提升了1～3倍。

智能相機功能對ORC實時性提出新要求

夸克瀏覽器為用戶提供智能相機功能，打開夸克APP后，通過相機入口（如下左圖紅框所示）進入智能相機功能，可以看到智能相機提供的具體功能（如下右圖所示），包括萬能掃描、學習輔導、萬物識別等功能，這些功能對實時性要求極高，不少功能的底層核心技術依賴OCR。作為核心一環，OCR需要承接巨大流量，其效果及性能影響整個上層業務的用戶體驗。

OCR全流程包含檢測、識別等多個模型以及復雜的前后處理，整體耗時10s級別，耗時過長嚴重影響用戶體驗，無法達到上線要求。主要影響性能的因素有以下三點：單個模型占用顯存過大導致全流程無法部署在同一個GPU上，需要在多個GPU上進行數據傳輸，多GPU部署導致GPU利用率不高；模型本身性能慢，涉及復雜的檢測和識別模型；全流程中模型前后處理復雜。

NVIDIA TensorRT助力模型性能提升

對比目前性能優化方案，夸克選擇了采用NVIDIA TensorRT作為模型優化的底層框架對模型進行優化。TensorRT提供完整端到端模型性能優化工具，支持TF和ONNX等相關框架模型，使用后對模型性能帶來巨大提升。

1、TensorRT對模型結構進行優化，使用高效Kernel實現，并且支持FP16和INT8量化。部分模型通過使用TensorRT，模型性能達到2-3倍的提升，并且顯存降到原來的30%～50%。

2、有模型在使用FP16精度后，模型效果下降，夸克團隊在NVIDIA工作人員的指導下，通過對模型設置混合精度，模型的性能較FP16略微下降，但整體效果能夠達到要求。

3、對于部分轉TensorRT失敗的模型，對模型進行分析，單獨抽取模型耗時的部分進行模型優化。

4、在使用TensorRT的過程中，通過Nsight Systems發現TensorRT OP在某些場景性能表現不盡人意，在NVIDIA工作人員指導下，通過調整OP的使用方式解決該問題。

TensorRT助力OCR全流程性能優化

通過使用NVIDIA TensorRT，夸克瀏覽器極大地提升了模型性能和降低模型本身顯存占用，提高了GPU的使用率。在對整體流程和模型進行優化后，全部模型能夠部署在單個GPU上，并且整體耗時在400ms內。

夸克技術人員表示：TensorRT文檔齊全，功能使用方便，用戶能夠以低門檻使用其帶來的優化，無需手動編寫復雜模型轉換工具，大大地減少了用戶投入成本。對比其他模型優化框架，TensorRT具有更好的通用性、易用性和性能。

通過這次對OCR全流程的性能優化，夸克瀏覽器也積累了一套適合內部使用的模型性能優化方案，在遇到其他模型性能問題時也有的放矢。目前夸克已經把TensorRT相關優化工具集成到其瀏覽器的內部平臺上，同時應用到其他業務的模型中，并取得良好的效果。

責任編輯：haq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
5039

瀏覽量
103309
AI

AI

+關注

關注
87

文章
31195

瀏覽量
269560
瀏覽器

瀏覽器

+關注

關注
1

文章
1032

瀏覽量
35417

原文標題：NVIDIA TensorRT 加速夸克瀏覽器AI應用，對模型性能提升起到關鍵作用

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達企業解決方案】歡迎添加關注！文章轉載請注明出處。

NVIDIA推出開放式Llama Nemotron系列模型

作為 NVIDIA NIM 微服務，開放式 Llama Nemotron 大語言模型和 Cosmos Nemotron 視覺語言模型可在任何加速系統上為 AI 智能體提供強效助力。

發表于 01-09 11:11 ?202次閱讀

NVIDIA推出面向RTX AI PC的AI基礎模型

NVIDIA 今日發布能在 NVIDIA RTX AI PC 本地運行的基礎模型，為數字人、內容創作、生產力和開發提供強大助力。

發表于 01-08 11:01 ?187次閱讀

在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發并開源的一種新型推測解碼技術，該技術現在可與 NVIDIA TensorRT-LLM 一起使用。

發表于 12-25 17:31 ?192次閱讀

在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中啟用ReDrafter的一些變化

解鎖NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM 是一個專為優化大語言模型 (LLM) 推理而設計的庫。它提供了多種先進的優化技術，包括自定義 Attention Kernel、Inflight

發表于 12-17 17:47 ?217次閱讀

NVIDIA TensorRT-LLM Roadmap現已在GitHub上公開發布

感謝眾多用戶及合作伙伴一直以來對NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現已在 GitHub 上公開發布！

發表于 11-28 10:43 ?307次閱讀

<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap現已在GitHub上公開發布

使用NVIDIA TensorRT提升Llama 3.2性能

Llama 3.2 模型集擴展了 Meta Llama 開源模型集的模型陣容，包含視覺語言模型（VLM)、小語言模型（SLM）和支持視覺的更

發表于 11-20 09:59 ?264次閱讀

TensorRT-LLM低精度推理優化

本文將分享 TensorRT-LLM 中低精度量化內容，并從精度和速度角度對比 FP8 與 INT8。首先介紹性能，包括速度和精度。其次，介紹量化工具 NVIDIA TensorRT

發表于 11-19 14:29 ?351次閱讀

<b class='flag-5'>TensorRT</b>-LLM低精度推理優化

NVIDIA NIM助力企業高效部署生成式AI模型

Canonical、Nutanix 和 Red Hat 等廠商的開源 Kubernetes 平臺集成了 NVIDIA NIM，將允許用戶通過 API 調用來大規模地部署大語言模型。

發表于 10-10 09:49 ?407次閱讀

NVIDIA CorrDiff生成式AI模型能夠精準預測臺風

在 NVIDIA GPU 上運行的一個擴散模型向天氣預報工作者展示了加速計算如何實現新的用途并提升能效。

發表于 09-13 17:13 ?726次閱讀

NVIDIA助力提供多樣、靈活的模型選擇

在本案例中，Dify 以模型中立以及開源生態的優勢，為廣大 AI 創新者提供豐富的模型選擇。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服務器產品，為

發表于 09-09 09:19 ?496次閱讀

NVIDIA Nemotron-4 340B模型幫助開發者生成合成訓練數據

Nemotron-4 340B 是針對 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優化的模型系列，該系列包含最先進的指導和獎勵

發表于 09-06 14:59 ?349次閱讀

<b class='flag-5'>NVIDIA</b> Nemotron-4 340B<b class='flag-5'>模型</b>幫助開發者生成合成訓練數據

魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率

“魔搭社區是中國最具影響力的模型開源社區，致力給開發者提供模型即服務的體驗。魔搭社區利用NVIDIA TensorRT-LLM，大大提高了大語言模型

發表于 08-23 15:48 ?474次閱讀

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM

發表于 04-28 10:36 ?593次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實踐中，唯品會 AI 平臺與 NVIDIA 團隊合作，結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將推理的稠密網絡和熱

發表于 04-20 09:39 ?773次閱讀

利用NVIDIA產品技術組合提升用戶體驗

本案例通過利用NVIDIA TensorRT-LLM加速指令識別深度學習模型，并借助NVIDIA Triton推理服務器在NVIDIA V1

發表于 01-17 09:30 ?722次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史