每天,電信、金融和統(tǒng)一通信即服務(wù)( UCaaS )等行業(yè)都會產(chǎn)生數(shù)百萬分鐘的音頻。這些音頻會議記錄可以轉(zhuǎn)錄,以便為呼叫中心代理提供實(shí)時(shí)建議,從客戶呼叫記錄中提取見解,或在視頻會議中生成實(shí)時(shí)字幕。
自動語音識別使您能夠?qū)⒄Z音轉(zhuǎn)錄成文本。生成高質(zhì)量的文字記錄是一項(xiàng)挑戰(zhàn),因?yàn)檫@些技能需要理解特定于行業(yè)的術(shù)語、數(shù)百到數(shù)千分鐘特定于領(lǐng)域的培訓(xùn)音頻以及實(shí)時(shí)運(yùn)行的管道。 NVIDIA Riva 語音識別是一項(xiàng)技術(shù),可為跨行業(yè)的幾個(gè)常見用例提供世界級的實(shí)時(shí)準(zhǔn)確度。
在這篇文章中,我們討論 Riva 語音識別。后續(xù)文章將討論如何定制語音識別模型,并將其作為優(yōu)化技能進(jìn)行部署:
Customizing Speech Recognition Models to Your Domain Using TAO Toolkit
Deploying Speech Recognition Models to Production Using Riva
Riva 語音識別
Riva 是 GPU 加速的 AI 語音 SDK ,用于實(shí)時(shí)轉(zhuǎn)錄和虛擬助理等對話 AI 應(yīng)用程序。 Riva 具有以下優(yōu)點(diǎn):
NGC 中經(jīng)過預(yù)訓(xùn)練的最先進(jìn)的語音模型
沒有編碼工具,例如TAO Toolkit,用于在自定義數(shù)據(jù)集上微調(diào)這些模型
用于高性能推理的優(yōu)化語音識別和語音合成管道
Riva 下面的模型是基于數(shù)百到數(shù)千小時(shí)的開放和真實(shí)世界數(shù)據(jù)進(jìn)行訓(xùn)練的,這些數(shù)據(jù)來自電信、金融、醫(yī)療保健和 NVIDIA 超級計(jì)算機(jī)上的教育等行業(yè)。數(shù)據(jù)集樣本還來自嘈雜的環(huán)境、自發(fā)的語音對話、多種英語口音和不同的采樣率。所有這些屬性都有助于生成噪聲魯棒、高質(zhì)量的轉(zhuǎn)錄。
Riva 語音識別技能在各種真實(shí)世界的用例數(shù)據(jù)集上進(jìn)行評估,包括視頻會議、聯(lián)絡(luò)中心、播客和技術(shù)視頻。您可以在云中、數(shù)據(jù)中心和邊緣部署這些技能。
Riva 語音識別管道在保持準(zhǔn)確性的同時(shí),為新的最先進(jìn)的體系結(jié)構(gòu)提供支持。圖 2 顯示了在過去 3 年中,通過新的模型體系結(jié)構(gòu)、訓(xùn)練方法以及最新的基于 TensorRT 和 GPU 的優(yōu)化,語音準(zhǔn)確性的提高。
圖 2 。 Riva ASR 精度改進(jìn)
使用 Riva ,您可以在流式或批處理模式下以實(shí)時(shí)延遲快速部署和擴(kuò)展到數(shù)百和數(shù)千個(gè)并發(fā)流。
關(guān)于作者
About Sirisha Rella
Sirisha Rella 是 NVIDIA 的技術(shù)產(chǎn)品營銷經(jīng)理,專注于計(jì)算機(jī)視覺、語音和基于語言的深度學(xué)習(xí)應(yīng)用。 Sirisha 獲得了密蘇里大學(xué)堪薩斯城分校的計(jì)算機(jī)科學(xué)碩士學(xué)位,是國家科學(xué)基金會大學(xué)習(xí)中心的研究生助理。
About Tanay Varshney
Tanay Varshney 是 NVIDIA 的一名深入學(xué)習(xí)的技術(shù)營銷工程師,負(fù)責(zé)廣泛的 DL 軟件產(chǎn)品。他擁有紐約大學(xué)計(jì)算機(jī)科學(xué)碩士學(xué)位,專注于計(jì)算機(jī)視覺、數(shù)據(jù)可視化和城市分析的橫斷面。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5038瀏覽量
103304 -
語音識別
+關(guān)注
關(guān)注
38文章
1742瀏覽量
112734
發(fā)布評論請先 登錄
相關(guān)推薦
評論