案例簡介
本案例通過利用NVIDIA TensorRT-LLM加速指令識別深度學(xué)習(xí)模型,并借助NVIDIA Triton推理服務(wù)器在NVIDIA V100 GPU上進(jìn)行高效部署,幫助必優(yōu)科技的文檔智能體 UTalk-Doc 將用戶指令識別服務(wù)吞吐量提升了 5 倍,單個請求響應(yīng)時間縮減了三分之一,大幅提升服務(wù)運(yùn)行效率,提升資源利用率。Triton 模型分析能力還協(xié)助必優(yōu)科技,將尋找最佳推理配置所需的時間從數(shù)周減少到數(shù)小時。
智能體迭代和
用戶增長的并發(fā)壓力
必優(yōu)科技旗下 UTalk-Doc 是新一代協(xié)助用戶進(jìn)行表達(dá)的辦公產(chǎn)品。其中“用戶指令識別”能力是產(chǎn)品組成中十分重要的一環(huán)。目前該能力主要由底層指令識別深度學(xué)習(xí)模型提供服務(wù)支持。
深度學(xué)習(xí)模型在運(yùn)行過程中需要較大的計算量,在用 Pytorch 進(jìn)行模型的推理時,一方面時延特別大,導(dǎo)致用戶體驗(yàn)受損;另一方面,顯存占用很大,導(dǎo)致推理請求的并發(fā)數(shù)上不去,請求失敗的概率太高,只能通過增加機(jī)器的方式來提高并發(fā)能力,業(yè)務(wù)部署成本較高;再次,使用的模型經(jīng)常變化,而業(yè)務(wù)需要更換后的模型能夠快速地加速和上線部署。NVIDIA GPU 硬件和軟件框架的強(qiáng)大性能幫助企業(yè)解決了海量計算需求,滿足了必優(yōu)科技多模態(tài) office 智能體的迭代和用戶幾何倍增長的并發(fā)壓力。
利用 NVIDIA產(chǎn)品技術(shù)組合
提升用戶體驗(yàn)
基于以上挑戰(zhàn),必優(yōu)科技選擇了采用 NVIDIA 的 TensorRT-LLM SDK 對模型進(jìn)行推理加速,并利用 NVIDIA Triton推理服務(wù)器在 V100 GPU 上進(jìn)行在線部署,在提升用戶體驗(yàn)的同時,大幅降低了服務(wù)成本。
通過使用 TensorRT-LLM 對指令識別深度學(xué)習(xí)模型進(jìn)行加速,在都使用 FP32 的情況下,與 Pytorch 相對,時延降低 50% 左右。
使用 TensorRT-LLM 結(jié)合 NVIDIA V100 GPU 的 FP16 Tensor Core,在保證精度的同時,模型推理的時延進(jìn)一步降低了 40%。
Triton 的 dynamic batch 及多實(shí)例特性,在滿足時延要求的同時,提高了系統(tǒng)整體的并發(fā)能力。
TensorRT-LLM 可以對模型進(jìn)行快速地加速,Triton 則可以對加速后的模型進(jìn)行快速地部署,滿足了業(yè)務(wù)對修改后的模型進(jìn)行快速部署的需求,同時也大大減少了工程人員的工作量。
NVIDIA 賦能文檔智能體
在 NVIDIA 技術(shù)和初創(chuàng)加速生態(tài)的加持中,必優(yōu)科技旗下應(yīng)用產(chǎn)品 ChatPPT(UTalk-Doc)在短短幾個月內(nèi)自然注冊用戶破 100 萬,同時通過內(nèi)容表達(dá)場景(如 PPT 演示),賦能了如金融、教育、醫(yī)療等垂直行業(yè)領(lǐng)域客戶,并且在硬件生態(tài)合作等方面也做了更多的探索,共同推進(jìn)整個 AI 行業(yè)的快速發(fā)展。
“NVIDIA 提供的 GPU 解決方案,解決了深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的技術(shù)難題,是我們公司在人工智能道路上一路狂飆所不可或缺的一環(huán)?!北貎?yōu)科技創(chuàng)始人兼 CTO 陳潤天博士表示。
必優(yōu)科技成立于 2020 年,是國內(nèi)較早期就專注于人工智能領(lǐng)域的智能內(nèi)容生成技術(shù)的科技型公司,公司目前主要圍繞智慧辦公場景做相關(guān)業(yè)務(wù)開發(fā)服務(wù),如 2023 年 3 月上線的 Chatppt(AI 生成 PPT)6 個月用戶過百萬;全新下一代產(chǎn)品 UTalk-Doc——不拘泥于格式、自由切換文檔格式的產(chǎn)品,將徹底顛覆、改變和引領(lǐng)下一代 office 產(chǎn)品,幫助用戶更好地進(jìn)行表達(dá)。
NVIDIA 初創(chuàng)加速計劃
必優(yōu)科技是 NVIDIA 初創(chuàng)加速計劃 (NVIDIA Inception) 會員企業(yè)。NVIDIA 初創(chuàng)加速計劃為免費(fèi)會員制,旨在培養(yǎng)顛覆行業(yè)格局的優(yōu)秀創(chuàng)業(yè)公司。該計劃聯(lián)合國內(nèi)外知名的風(fēng)投機(jī)構(gòu),創(chuàng)業(yè)孵化器,創(chuàng)業(yè)加速器,行業(yè)合作伙伴以及科技創(chuàng)業(yè)媒體等,打造創(chuàng)業(yè)加速生態(tài)系統(tǒng)。能夠提供產(chǎn)品折扣,技術(shù)支持,市場宣傳,融資對接,業(yè)務(wù)推薦等一系列服務(wù),加速創(chuàng)業(yè)公司的發(fā)展。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4986瀏覽量
103058 -
gpu
+關(guān)注
關(guān)注
28文章
4740瀏覽量
128949 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121162
原文標(biāo)題:NVIDIA GPU 解決方案加速必優(yōu)科技新一代文檔智能體
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論