網易互娛 AI Lab 的研發人員,基于 Wenet 語音識別工具進行優化和創新,利用 NVIDIA Triton 推理服務器的 GPU Batch Inference 機制加速了語音識別的速度,并且降低了成本。
2001 年正式成立的網易游戲·互動娛樂事業群在經歷了近 20 年的發展歷程后,以“創新無邊界,匠心造精品”為文化基石,創造了一系列大家耳熟能詳的代表作品,如夢幻西游系列、大話西游系列、《陰陽師》、《第五人格》、《荒野行動》、《率土之濱》、《哈利波特:魔法覺醒》等。在 data.ai 公布的 2021 全球發行商 52 強榜單中,網易排名第二。
語音識別 AI 算法服務目前已經成為各個領域不可或缺的基礎算法服務。網易互娛 AI Lab 為所有互娛游戲的玩家,CC 直播平臺用戶等提供完善的語音識別服務。語音識別服務每天都有大量的調用量,AI 推理的計算量繁重。
在網易游戲中,語音識別是一個調用量龐大的基礎算法服務,如果在語音識別算法服務這里出現時耗或吞吐瓶頸的話,會因為語音內容識別過慢,使得用戶使用體驗大幅下降。
服務是基于開源框架 Wenet 優化開發,但是 Wenet 框架中非流式部署方案是基于 libtorch 和 C++ 的,并且熱詞和語言模型部分均采用了 Openfst,速度較慢,也不太方便使用。經過測試 CPU Float32 模式下解碼,onnxruntime 要比 libtorch 快了近 20%。在 GPU 部署時還需要有拼接 Batch 的機制,batch inference 雖然在使用 CPU 做推理時沒有太大的提升,但是能大大提升 GPU 的利用率。
基于以上的挑戰,網易互娛 AI Lab 選擇了采用 NVIDIA 在 Wenet 中開源的 Triton 部署方案來改進優化后進行 GPU 部署,使得語音識別速度提高,大幅降低時延和運營成本。
由于 Wenet 開源框架下的 Triton 推理服務器并沒有考慮音頻解碼,顯存溢出等問題,所以需要有個前端邏輯做音頻解碼處理和音頻分段處理。并且因為 Triton 推理服務器組 batch 的機制是相同音頻長度才會自動組成 batch 做推理,所以前端處理邏輯這塊還加上了按秒 padding 的操作。整體流程如圖所示。
其中前端處理流程如圖所示:
NVIDIA Triton 推理服務器處理流程:
(圖片來源于網易互娛授權)
其中 Triton 推理服務器中解碼器部分是基于 Wenet 的熱詞方案而自研實現的熱詞解碼器方案。
QPS,RTF 在 5 秒音頻下,CPU 設備和 GPU 設備對比,CPU 為 36 核機器, GPU 為單卡 T4:
(圖片來源于網易互娛授權)
由表格可知,對比 CPU-FP32 與 GPU-FP16,單卡 T4 的推理能力基本相當于 36 核 CPU(Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz)機器的 4 倍。并且實驗測試可以得知 FP16 與 FP32 的 WER 基本無損。
自研熱詞解碼器的方法結果展示:
(圖片來源于網易互娛授權)
這里 GPU 的效果采用自研的熱詞增強的方法,識別率在熱詞這塊能有絕對 0.8% 的性能提升,而 Wenet 開源的方法大概是 0.5%。并且自研熱詞實例的構建耗時基本可以忽略不計。
整體來看 GPU 的方案在識別率基本無損的情況下,單卡 T4 比 36 核 CPU 機器提高近 4 倍的 QPS,單個音頻 RTF 測試下,包含音頻解碼等損耗情況下也能提高近 3 倍,并且也能夠支持熱詞增強功能,讓機器成本和識別速度都得到了很好的優化。
網易互娛廣州 AI Lab 資深 AI 算法工程師丁涵宇表示:“目前該方案已在網易互娛 AI Lab 語音識別服務落地,大大的降低了識別時延和機器成本。后續,我們還將與英偉達一起研究將熱詞增強的方法在 GPU 中實現,探索的極致的語音識別推理性能。”
原文標題:NVIDIA Triton 助力網易互娛 AI Lab,改善語音識別效率及成本
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
審核編輯:湯梓紅
-
NVIDIA
+關注
關注
14文章
4986瀏覽量
103058 -
AI
+關注
關注
87文章
30896瀏覽量
269089 -
語音識別
+關注
關注
38文章
1739瀏覽量
112660
原文標題:NVIDIA Triton 助力網易互娛 AI Lab,改善語音識別效率及成本
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論