欢乐颂小说结局是什么,琅琊榜海宴小说,盗墓笔记小说下载

騰訊一直積極地推動(dòng)強(qiáng)化學(xué)習(xí)在游戲AI領(lǐng)域的發(fā)展，并在2019年推出了“開悟”AI開放研究平臺(tái)，提供不同游戲的訓(xùn)練場(chǎng)景、支撐AI進(jìn)行強(qiáng)化訓(xùn)練的大規(guī)模算力、統(tǒng)一的強(qiáng)化學(xué)習(xí)框架以加速研發(fā)速度、通用的訓(xùn)練與推理服務(wù)，加快AI訓(xùn)練速度。

游戲AI對(duì)自對(duì)弈推理速度提出新要求

和圖像以及語音的訓(xùn)練方式不同，目前在游戲AI訓(xùn)練上表現(xiàn)最好的方式是強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)除了需要大量的算力來訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)之外，還需要一個(gè)自對(duì)弈的模塊用來產(chǎn)生訓(xùn)練數(shù)據(jù)。在自對(duì)弈模塊當(dāng)中，會(huì)模擬游戲環(huán)境，并且選擇不同時(shí)期的模型來操控游戲內(nèi)的角色，AI對(duì)游戲內(nèi)角色的每一操控都需要對(duì)模型進(jìn)行一次前向推理。由于更新模型的訓(xùn)練數(shù)據(jù)來自于自對(duì)弈模塊，因此自對(duì)弈的推理速度會(huì)對(duì)整個(gè)模型的訓(xùn)練速度和效果造成非常大的影響。

而自對(duì)弈推理每一次前向推理對(duì)延時(shí)的要求比實(shí)際的線上服務(wù)小，因此常見的方式是通過CPU來進(jìn)行自對(duì)弈中的推理，但CPU成本太高。為了提高自對(duì)弈的速度與吞吐，減少推理成本，騰訊希望在“開悟”AI開放研究平臺(tái)里面充分利用GPU去進(jìn)行自對(duì)弈中的模型前向推理。

TensorRT 助力“開悟”AI加速自對(duì)弈推理

為了解決在自對(duì)弈推理當(dāng)中GPU利用率不高的問題，騰訊“開悟”AI開放研究平臺(tái)選擇使用NVIDIA V100 GPU和NVIDIA TensorRT推理引擎來加速推理。

為了自動(dòng)化地將模型從TensorFlow轉(zhuǎn)換到TensorRT，騰訊“開悟”AI開放研究平臺(tái)一開始通過自行開發(fā)parser，將TensorFlow的算子映射到TensorRT的算子。同時(shí)，為了支持更廣泛的模型與算子，減少維護(hù)和開發(fā)的成本，騰訊“開悟”AI開放研究平臺(tái)也積極地與NVIDIA合作，推動(dòng)從TensorFlow轉(zhuǎn)換成ONNX模型，再通過TensorRT ONNX parser轉(zhuǎn)換到TensorRT的流程。

在自對(duì)弈的過程中，需要頻繁地更新模型的權(quán)重，讓自對(duì)弈模型始終能保持在較新的狀態(tài)。這個(gè)更新的頻率大概幾分鐘一次，每次必須限制在幾百個(gè)毫秒。如果通過重新build engine 的方式來更新模型的話，無法滿足上述要求。因此騰訊“開悟”AI開放研究平臺(tái)采用 TensorRT refit engine的功能來更新權(quán)重。同時(shí)，為了對(duì)更新權(quán)重有更好的支持、以及支持更多的算子，騰訊“開悟”AI開放研究平臺(tái)從原本的TensorRT 5 升級(jí)到TensorRT 7。

TensorRT 7雖然在部分算子上支持權(quán)重更新，但并不支持LSTM這個(gè)在游戲AI當(dāng)中很重要的算子。為了解決這個(gè)問題，騰訊“開悟”AI開放研究平臺(tái)通過開發(fā)TensorRT插件的方式封裝LSTM算子，并在插件當(dāng)中更新權(quán)重。

為了充分利用NVIDIA V100 GPU的Tensor core，騰訊“開悟”AI開放研究平臺(tái)希望能夠使用TensorRT FP16精度來加速推理。由于TensorRT對(duì)FP16的支持非常成熟和簡便，整個(gè)推理流程很快被切換到FP16，并取得了2倍左右的加速。

尋找模型推理時(shí)的性能瓶頸，通過開發(fā)TensorRT插件進(jìn)行算子融合，進(jìn)一步地提升推理的速度。

在完成以上的工作之后，對(duì)比TensorFlow的基礎(chǔ)版本，TensorRT 7 能提供5倍以上的加速效果。

通過NVIDIA V100 GPU以及TensorRT推理引擎加速自對(duì)弈訓(xùn)練的推理部分，騰訊“開悟”AI開放研究平臺(tái)極大地提升了自對(duì)弈推理的吞吐量與速度，進(jìn)一步地提升了整個(gè)模型訓(xùn)練的速度與降低訓(xùn)練成本，加快模型迭代的周期。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5010

瀏覽量
103238
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4752

瀏覽量
129041
AI

AI

+關(guān)注

關(guān)注
87

文章
31077

瀏覽量
269411

原文標(biāo)題：NVIDIA TensorRT助力騰訊加速“開悟”AI開放研究平臺(tái)

文章出處：【微信號(hào)：NVIDIA-Enterprise，微信公眾號(hào)：NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

高效大模型的推理綜述

大模型由于其在各種任務(wù)中的出色表現(xiàn)而引起了廣泛的關(guān)注。然而，大模型推理的大量計(jì)算和內(nèi)存需求對(duì)其在資源受限場(chǎng)景的部署提出了挑戰(zhàn)。業(yè)內(nèi)一直在努力開發(fā)旨在提高大模型推理效率的技術(shù)。本文對(duì)現(xiàn)有的關(guān)于高效

發(fā)表于 11-15 11:45 ?436次閱讀

AI推理CPU當(dāng)?shù)溃珹rm驅(qū)動(dòng)高效引擎

AI的訓(xùn)練和推理共同鑄就了其無與倫比的處理能力。在AI訓(xùn)練方面，GPU因其出色的并行計(jì)算能力贏得了業(yè)界的青睞，成為了當(dāng)前AI大模型最熱門的芯片；而在

發(fā)表于 11-13 14:34 ?2489次閱讀

<b class='flag-5'>AI</b><b class='flag-5'>推理</b>CPU當(dāng)?shù)溃珹rm驅(qū)動(dòng)高效引擎

李開復(fù):中國擅長打造經(jīng)濟(jì)實(shí)惠的AI推理引擎

10月22日上午，零一萬物公司的創(chuàng)始人兼首席執(zhí)行官李開復(fù)在與外媒的交流中透露，其公司旗下的Yi-Lightning（閃電模型）在推理成本上已實(shí)現(xiàn)了顯著優(yōu)勢(shì)，比OpenAI的GPT-4o模型低了31倍。他強(qiáng)調(diào)，中國擅長打造經(jīng)濟(jì)實(shí)惠的AI推

發(fā)表于 10-22 16:54 ?370次閱讀

蜂窩式移動(dòng)通信設(shè)備CCC標(biāo)準(zhǔn)換版新要求

蜂窩式移動(dòng)通信設(shè)備的CCC標(biāo)準(zhǔn)（即中國強(qiáng)制性產(chǎn)品認(rèn)證標(biāo)準(zhǔn)）換版確實(shí)提出了新要求，主要涉及YD/T 2583.18-2024《蜂窩式移動(dòng)通信設(shè)備電磁兼容性能要求和測(cè)量方法第18部分：5G用戶設(shè)備和輔助設(shè)備》（以下簡稱“新版標(biāo)準(zhǔn)”

發(fā)表于 10-19 10:02 ?313次閱讀

當(dāng)前主流的大模型對(duì)于底層推理芯片提出了哪些挑戰(zhàn)

隨著大模型時(shí)代的到來，AI算力逐漸變成重要的戰(zhàn)略資源，對(duì)現(xiàn)有AI芯片也提出了前所未有的挑戰(zhàn)：大算力的需求、高吞吐量與低延時(shí)、高效內(nèi)存管理、能耗等等。

發(fā)表于 09-24 16:57 ?682次閱讀

AMD助力HyperAccel開發(fā)全新AI推理服務(wù)器

HyperAccel 是一家成立于 2023 年 1 月的韓國初創(chuàng)企業(yè)，致力于開發(fā) AI 推理專用型半導(dǎo)體器件和硬件，最大限度提升推理工作負(fù)載的存儲(chǔ)器帶寬使用，并通過將此解決方案應(yīng)用于大型語言模型來

發(fā)表于 09-18 09:37 ?377次閱讀

如何基于OrangePi?AIpro開發(fā)AI推理應(yīng)用

。通過昇騰CANN軟件棧的AI編程接口，可滿足大多數(shù)AI算法原型驗(yàn)證、推理應(yīng)用開發(fā)的需求。AscendCL（AscendComputingLanguage，昇騰計(jì)算

發(fā)表于 06-04 14:23 ?550次閱讀

開發(fā)者手機(jī) AI - 目標(biāo)識(shí)別 demo

識(shí)別demo: JS實(shí)現(xiàn)UI界面的功能； Native接口及實(shí)現(xiàn)主要為JS提供接口進(jìn)行AI推理。通過Native方式完成推理的前處理、推理以及后處理，這里通過調(diào)用opencv、Mind

發(fā)表于 04-11 16:14

AI時(shí)代下PMIC需求暴增，設(shè)計(jì)提出新要求

? 電子發(fā)燒友網(wǎng)報(bào)道（文/黃山明）隨著AI技術(shù)的快速發(fā)展，AI芯片的功耗和性能也在不斷提升，這對(duì)電源系統(tǒng)提出了更高的要求。為了滿足AI芯片對(duì)

發(fā)表于 03-26 00:22 ?5025次閱讀

AMD EPYC處理器：AI推理能力究竟有多強(qiáng)？

如今，AMD EPYC處理器已經(jīng)成為最常被選擇用于AI推理的服務(wù)器平臺(tái)，尤其是第四代Genoa EPYC 9004系列，執(zhí)行AI推理的能力又得到了巨大的飛躍。

發(fā)表于 03-15 09:47 ?526次閱讀

AI推理框架軟件ONNX Runtime正式支持龍架構(gòu)

近日，知名AI推理框架開源社區(qū)ONNX Runtime正式發(fā)布支持龍架構(gòu)的版本1.17.0。

發(fā)表于 03-12 12:23 ?596次閱讀

Groq LPU崛起，AI芯片主戰(zhàn)場(chǎng)從訓(xùn)練轉(zhuǎn)向推理

人工智能推理的重要性日益凸顯，高效運(yùn)行端側(cè)大模型及AI軟件背后的核心技術(shù)正是推理。不久的未來，全球芯片制造商的主要市場(chǎng)將全面轉(zhuǎn)向人工智能推理領(lǐng)域。

發(fā)表于 02-29 16:46 ?1197次閱讀

使用NVIDIA Triton推理服務(wù)器來加速AI預(yù)測(cè)

這家云計(jì)算巨頭的計(jì)算機(jī)視覺和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器來加速 AI 預(yù)測(cè)。

發(fā)表于 02-29 14:04 ?594次閱讀

美國FCC發(fā)布無線充設(shè)備WPT的新要求KDB680106 D01

2023年10月24日美國FCC發(fā)布無線充新要求KDB680106 D01Wireless Power Transfer v04，F(xiàn)CC整合了近兩年TCB workshop所提出的指引要求，詳見如下內(nèi)容；

發(fā)表于 01-30 10:09 ?907次閱讀

惠普推出新一代AI游戲本，并計(jì)劃推出首個(gè)AI PC本地AI解決方案

近日，惠普發(fā)布了新一代AI游戲筆記本電腦，這些新款筆記本在性能和AI功能方面都有顯著提升。其中，14英寸暗影精靈10 SLIM被公認(rèn)為惠普目前最輕的游戲筆記本，它搭載了酷睿Ultra

發(fā)表于 01-22 15:58 ?926次閱讀