辰东,小说阅读网站,完结小说

案例簡介及其應(yīng)用背景

VIVO AI中臺的最終目的是為2.6億+ VIVO用戶提供極致的智能服務(wù)，而NVIDIA則為VIVO推薦系統(tǒng)提供強大的算力支持以實踐優(yōu)化。

推薦系統(tǒng)的大規(guī)模部署帶來了諸多工程化挑戰(zhàn)，借助NVIDIA TensorRT， Triton and MPS （Multi-Process Service）及單張T4 GPU推理卡，其性能優(yōu)于約6臺以上的78核CPU服務(wù)器，成本方面也降低75%。

團隊共實踐和比較了三種不同的工程方案，其中，性價比最高的“通用GPU方案”充分發(fā)揮了MPS和TensorFlow的性能，開創(chuàng)性地解決了推薦場景的難題，包含：如何滿足頻繁的算法迭代需求，如何開發(fā)不支持的運算操作插件，以及如何改善低效的推理服務(wù)性能等。

VIVO AI平臺致力于建設(shè)完整的人工智能中臺，搭建全面的、行業(yè)領(lǐng)先的大規(guī)模分布式機器學習平臺，應(yīng)用于內(nèi)容推薦、商業(yè)變現(xiàn)、搜索等多種業(yè)務(wù)場景，為2.6億+ VIVO用戶提供極致的智能服務(wù)。

VIVO AI中臺始終服務(wù)于企業(yè)往智能化深度發(fā)展的需求，在數(shù)據(jù)中臺基礎(chǔ)上增加了一體化智能服務(wù)的概念。并且立足于數(shù)據(jù)的獲取、存儲、特征處理、分析、模型構(gòu)建、訓練、評估等智能服務(wù)相關(guān)的任務(wù)環(huán)節(jié)，使其高度組件化、配置化、自動化。

Figure 1. AI中臺系統(tǒng)架構(gòu)圖（圖片來源于VIVO研究院授權(quán)）

在整個AI中臺架構(gòu)中，推薦中臺則作為最重要的核心，也是最具商業(yè)價值的部分，不僅需承載VIVO億級用戶，日活千萬的數(shù)據(jù)量也包含在內(nèi)。本文從推薦系統(tǒng)工程化的角度，解讀了以下三方面內(nèi)容：VIVO 的智能推薦系統(tǒng)是如何運行的？在實際應(yīng)用場景中遇到過什么挑戰(zhàn)？NVIDIA GPU如何加速推薦系統(tǒng)的部署？

Figure 2. 推薦中臺系統(tǒng)架構(gòu)圖（圖片來源于VIVO研究院授權(quán)）

經(jīng)過驗證，本方案可以有效解決推薦業(yè)務(wù)中GPU通用性問題；同時能更高效的利用GPU。目前已經(jīng)在部分推薦業(yè)務(wù)中落地。經(jīng)過壓測，性能方面，單張T4 GPU推理卡，性能優(yōu)于約6臺以上的78核CPU服務(wù)器。成本方面，VIVO自研通用GPU方案，在TensorRT方案基礎(chǔ)上，取得了更高的QPS和更低的延遲，可節(jié)省成本約75%！

本案例主要應(yīng)用到 NVIDIA T4 GPU 和相關(guān)工具包括NVIDA TensorRT， Triton， MPS等。

客戶簡介

VIVO是一家以設(shè)計驅(qū)動創(chuàng)造偉大產(chǎn)品，打造以智能終端和智慧服務(wù)為核心的科技公司，也是一家全球性的移動互聯(lián)網(wǎng)智能終端公司。致力于為消費者打造擁有極致拍照、暢快游戲、Hi-Fi音樂的智能手機產(chǎn)品。根據(jù)《2020胡潤中國10強消費電子企業(yè)》報告顯示，VIVO以1750億人民幣排名第3位。

客戶挑戰(zhàn)

在工程實踐中，VIVO推薦系統(tǒng)面臨的第一個問題是如何平滑的把多種推薦業(yè)務(wù)邏輯從CPU平臺向GPU平臺遷移。鑒于當前已經(jīng)存在多個推薦業(yè)務(wù)場景，包括應(yīng)用商店，手機瀏覽器，負一屏信息流等。每個場景都有自己的算法模型和業(yè)務(wù)流程，如何把多種分散的智能服務(wù)整合到一個統(tǒng)一的推薦中臺，同時要兼顧當前的業(yè)務(wù)的無損遷移是一個巨大的挑戰(zhàn)。

一直以來，CPU是客戶主要的支撐推薦業(yè)務(wù)場景的主流硬件平臺。但VIVO工程團隊卻發(fā)現(xiàn)在推理服務(wù)中，CPU的表現(xiàn)始終無法達到要求標準，不僅算力較弱，應(yīng)對復(fù)雜模型時，響應(yīng)延遲和QPS也無法滿足實時性和高并發(fā)的需求。

此時，客戶嘗試改用NVIDIA GPU來實現(xiàn)推薦業(yè)務(wù)的推理服務(wù)，有效解決CPU算力和性能的瓶頸的同時，也期待更大的成本優(yōu)勢。經(jīng)過大量的工程實踐，結(jié)果表明，單臺基于NVIDIA T4 GPU的推理服務(wù)器，性能可以等同于24臺CPU機器。毋庸置疑， GPU的整體表現(xiàn)皆具有性能和成本的優(yōu)勢。據(jù)此，客戶也認為使用GPU作為推薦業(yè)務(wù)場景的推理平臺，已成為了公司乃至行業(yè)的共識。

應(yīng)用方案

由于GPU芯片架構(gòu)的獨特性，不經(jīng)優(yōu)化的原始TensorFlow模型，很難高效利用GPU的算力。為了解決這個問題，VIVO工程團隊投入了大量的人力和時間進行推薦模型優(yōu)化及轉(zhuǎn)換。而首先著手設(shè)計的是TensorRT方案，即是使用NVIDIA推理加速工具TensorRT，結(jié)合 Triton的serving方式，以最大化GPU整體收益。

具體來說，把訓練導出的TensorFlow模型經(jīng)過Onnx轉(zhuǎn)換成TensorRT模型，進而使用NVIDIA提供的推理服務(wù)框架Triton加載TensorRT模型。業(yè)務(wù)代碼使用VIVO封裝Triton的JNI接口，將業(yè)務(wù)請求輸入TensorRT模型去做推理計算。

Figure 3. 推薦業(yè)務(wù)流程圖（圖片來源于VIVO研究院授權(quán)）

實測結(jié)果表明，該方案取得了預(yù)期的線上收益。性能方面，單張T4 GPU推理卡，性能優(yōu)于約6臺以上的78核CPU服務(wù)器。以如下場景為例，在相同的精排服務(wù)請求：QPS為600，BatchSize為3000時，不同方案的成本，TensorRT方案可節(jié)省成本約14%：

為了進一步提升線上收益，最大化GPU利用率，NVIDIA機器學習團隊配合 VIVO繼續(xù)優(yōu)化現(xiàn)有效果，探索更多的技術(shù)方案可行性。

經(jīng)過深入探討，我們發(fā)現(xiàn)目前的方案（Triton＋TensorRT）確實可以有效利用GPU，但是也存在一些問題。比如很多推薦業(yè)務(wù)場景，算法模型迭代更新頻率高，工程化開發(fā)周期無法滿足頻繁更新的需求。此外，部分推薦模型存在算子不支持的情況，需要手動開發(fā)TensorRT plugin，短時間內(nèi)也無法上線。總體來說，這樣的開發(fā)流程通用性不夠好，也較難有效的支持算法持續(xù)迭代。

因此，我們迫切需要實現(xiàn)一套機制，既要保證GPU的推理性能，更要具備良好的通用性。經(jīng)過多次工程化嘗試，我們針對性提出適合自身的推薦系統(tǒng)推理加速方案，即VIVO自研通用GPU方案。

本方案通過多進程 + MPS + TensorFlow runtime的方式，有效的提高了GPU的使用率，且部分場景無需轉(zhuǎn)換TensorRT模型。該方案的主要設(shè)計目標是：

多進程模型，管理和守護模型服務(wù)進程，有序的更新模型

添加原生TensorFlow中不支持GPU的算子

加載模型時，動態(tài)替換原來的不支持GPU的算子

Figure 4. 自研通用GPU方案示意圖（圖片來源于VIVO研究院授權(quán)）

此外，考慮到具體工程實踐中，VIVO算法部門和工程部門需要同步開發(fā)，如何解耦算法工程團隊和推理加速團隊的開發(fā)任務(wù)，因此推出了可配置的推理引擎服務(wù)，加速迭代開發(fā)效率。

Figure 5. 自研可配置推理引擎示意圖（圖片來源于VIVO研究院授權(quán)）

方案效果及影響

經(jīng)過驗證，本方案可以有效解決推薦業(yè)務(wù)中GPU通用性問題；同時能更高效的利用GPU。目前已經(jīng)在部分推薦業(yè)務(wù)中落地。經(jīng)過壓測，VIVO自研通用GPU方案，在TensorRT方案基礎(chǔ)上，取得了更高的QPS和更低的延遲，可節(jié)省成本約75%！

下表詳細對比了在相同精排請求：QPS為600，BatchSize為3000時，不同方案的成本。

同時，我們測試了負一屏信息流推薦場景，結(jié)果同樣表明，無論是QPS或是推理延遲（測試選用業(yè)界標準P99/P95指標），自研通用GPU方案都優(yōu)于TensorRT方案和CPU方案。

展望未來，VIVO推薦系統(tǒng)工程團隊會繼續(xù)探索新技術(shù)，持續(xù)積累 GPU工程經(jīng)驗，并且沉淀到平臺中，最終賦能到各個業(yè)務(wù)線。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

cpu

cpu

+關(guān)注

關(guān)注
68

文章
10898

瀏覽量
212527
NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5065

瀏覽量
103452
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4764

瀏覽量
129174

NVIDIA和GeForce RTX GPU專為AI時代打造

NVIDIA 和 GeForce RTX GPU 專為 AI 時代打造。

發(fā)表于 01-06 10:45 ?174次閱讀

借助NVIDIA GPU提升魯班系統(tǒng)CAE軟件計算效率

本案例中魯班系統(tǒng)高性能 CAE 軟件利用 NVIDIA 高性能 GPU，實現(xiàn)復(fù)雜產(chǎn)品的快速仿真，加速產(chǎn)品開發(fā)和設(shè)計迭代，縮短開發(fā)周期，提升產(chǎn)品競爭力。

發(fā)表于 12-27 16:24 ?201次閱讀

《CST Studio Suite 2024 GPU加速計算指南》

的各個方面，包括硬件支持、操作系統(tǒng)支持、許可證、GPU計算的啟用、NVIDIA和AMD GPU的詳細信息以及相關(guān)的使用指南和故障排除等內(nèi)容。 1. 硬件支持 -

發(fā)表于 12-16 14:25

華迅光通AI計算加速800G光模塊部署

GPU服務(wù)器對更高傳輸速率的需求增加，800G光模塊的采用速度正在加快。加速部署800G光模塊在人工智能計算進步的背景下，800G模塊的需求正在穩(wěn)步上升，全球領(lǐng)先的制造商加大了部署

發(fā)表于 11-13 10:16

AMD與NVIDIA GPU優(yōu)缺點

，NVIDIA的RTX系列顯卡以其強大的光線追蹤和DLSS技術(shù)領(lǐng)先于市場。例如，NVIDIA的RTX 3080在4K分辨率下提供了卓越的游戲體驗，而AMD的Radeon RX 6800 XT雖然在某些游戲中表現(xiàn)接近，但在光線追蹤

發(fā)表于 10-27 11:15 ?882次閱讀

GPU加速計算平臺是什么

GPU加速計算平臺，簡而言之，是利用圖形處理器（GPU）的強大并行計算能力來加速科學計算、數(shù)據(jù)分析、機器學習等復(fù)雜計算任務(wù)的軟硬件結(jié)合系統(tǒng)。

發(fā)表于 10-25 09:23 ?270次閱讀

暴漲預(yù)警！NVIDIA GPU供應(yīng)大跳水

gpu

jf_02331860
發(fā)布于 :2024年07月26日 09:41:42

NVIDIA突破美國禁令,將在中東部署其高性能AI/HPC GPU加速卡

Ooredoo達成合作協(xié)議，將在中東地區(qū)部署其高性能AI/HPC GPU加速卡。這一舉動不僅標志著NVIDIA在中東市場的戰(zhàn)略布局取得了重大突破，也引發(fā)了外界對于如何防止這些先進技術(shù)流

發(fā)表于 06-24 14:47 ?884次閱讀

MathWorks 與 NVIDIA 聯(lián)手加速醫(yī)療技術(shù)領(lǐng)域中軟件定義工作流的開發(fā)

到 GPU?加速的 NVIDIA Holoscan?算子中以進行實時數(shù)據(jù)處理和推斷，從而加速流數(shù)據(jù)分析和可視化應(yīng)用程序的開發(fā)與部署。醫(yī)療設(shè)

發(fā)表于 05-17 10:36 ?400次閱讀

進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

在 AI 超級計算和量子計算服務(wù)方面的最新進展。 **10.NVIDIA NIM **軟件棧和 OVX 計算系統(tǒng) 推出新的軟件和計算系統(tǒng)，加速企業(yè)級 AI 應(yīng)用的開發(fā)和

發(fā)表于 05-13 17:16

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫，用于優(yōu)化從 PC 到云端的 NVID

發(fā)表于 04-28 10:36 ?605次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實踐中，唯品會 AI 平臺與 NVIDIA 團隊合作，結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將推理的稠密網(wǎng)絡(luò)和熱 Embedding 全置于

發(fā)表于 04-20 09:39 ?781次閱讀

NVIDIA數(shù)字人技術(shù)加速部署生成式AI驅(qū)動的游戲角色

NVIDIA 在 GDC 2024 大會上宣布，Inworld AI 等領(lǐng)先的 AI 應(yīng)用程序開發(fā)者，正在使用 NVIDIA 數(shù)字人技術(shù)加速部署生成式 AI 驅(qū)動的游戲角色。

發(fā)表于 04-09 10:08 ?707次閱讀

Edge Impulse發(fā)布新工具，助 NVIDIA 模型大規(guī)模部署

借助 Edge Impulse 和 NVIDIA TAO 工具包的協(xié)同效應(yīng)，工程師得以快速構(gòu)建并部署至邊緣優(yōu)化硬件（如上述型號）的計算機視覺模型。該平臺還支持用戶運用經(jīng)由 GPU 優(yōu)化的 NV

發(fā)表于 03-25 16:00 ?785次閱讀

NVIDIA將在今年第二季度發(fā)布Blackwell架構(gòu)的新一代GPU加速器“B100”

根據(jù)各方信息和路線圖，NVIDIA預(yù)計會在今年第二季度發(fā)布Blackwell架構(gòu)的新一代GPU加速器“B100”。

發(fā)表于 03-04 09:33 ?1411次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

NVIDIA T4 GPU加速VIVO推薦系統(tǒng)部署

評論

NVIDIA和GeForce RTX GPU專為AI時代打造

借助NVIDIA GPU提升魯班系統(tǒng)CAE軟件計算效率

《CST Studio Suite 2024 GPU加速計算指南》

華迅光通AI計算加速800G光模塊部署

AMD與NVIDIA GPU優(yōu)缺點

GPU加速計算平臺是什么

暴漲預(yù)警！NVIDIA GPU供應(yīng)大跳水

NVIDIA突破美國禁令,將在中東部署其高性能AI/HPC GPU加速卡

MathWorks 與 NVIDIA 聯(lián)手加速醫(yī)療技術(shù)領(lǐng)域中軟件定義工作流的開發(fā)

進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

利用NVIDIA組件提升GPU推理的吞吐

NVIDIA數(shù)字人技術(shù)加速部署生成式AI驅(qū)動的游戲角色

Edge Impulse發(fā)布新工具，助 NVIDIA 模型大規(guī)模部署

NVIDIA將在今年第二季度發(fā)布Blackwell架構(gòu)的新一代GPU加速器“B100”