辰东,兽性总裁的爱奴,有声

每天，電信、金融和統(tǒng)一通信即服務(wù)（ UCaaS ）等行業(yè)都會產(chǎn)生數(shù)百萬分鐘的音頻。這些音頻會議記錄可以轉(zhuǎn)錄，以便為呼叫中心代理提供實(shí)時(shí)建議，從客戶呼叫記錄中提取見解，或在視頻會議中生成實(shí)時(shí)字幕。

Industries that commonly use AI include telco, financial services, healthcare, unified communication as a service, and retail.

圖 1 。人工智能在工業(yè)中的應(yīng)用

自動語音識別使您能夠?qū)⒄Z音轉(zhuǎn)錄成文本。生成高質(zhì)量的文字記錄是一項(xiàng)挑戰(zhàn)，因?yàn)檫@些技能需要理解特定于行業(yè)的術(shù)語、數(shù)百到數(shù)千分鐘特定于領(lǐng)域的培訓(xùn)音頻以及實(shí)時(shí)運(yùn)行的管道。 NVIDIA Riva 語音識別是一項(xiàng)技術(shù)，可為跨行業(yè)的幾個(gè)常見用例提供世界級的實(shí)時(shí)準(zhǔn)確度。

在這篇文章中，我們討論 Riva 語音識別。后續(xù)文章將討論如何定制語音識別模型，并將其作為優(yōu)化技能進(jìn)行部署：

Customizing Speech Recognition Models to Your Domain Using TAO Toolkit

Deploying Speech Recognition Models to Production Using Riva

Riva 語音識別

Riva 是 GPU 加速的 AI 語音 SDK ，用于實(shí)時(shí)轉(zhuǎn)錄和虛擬助理等對話 AI 應(yīng)用程序。 Riva 具有以下優(yōu)點(diǎn)：

NGC 中經(jīng)過預(yù)訓(xùn)練的最先進(jìn)的語音模型

沒有編碼工具，例如TAO Toolkit，用于在自定義數(shù)據(jù)集上微調(diào)這些模型

用于高性能推理的優(yōu)化語音識別和語音合成管道

Riva 下面的模型是基于數(shù)百到數(shù)千小時(shí)的開放和真實(shí)世界數(shù)據(jù)進(jìn)行訓(xùn)練的，這些數(shù)據(jù)來自電信、金融、醫(yī)療保健和 NVIDIA 超級計(jì)算機(jī)上的教育等行業(yè)。數(shù)據(jù)集樣本還來自嘈雜的環(huán)境、自發(fā)的語音對話、多種英語口音和不同的采樣率。所有這些屬性都有助于生成噪聲魯棒、高質(zhì)量的轉(zhuǎn)錄。

Riva 語音識別技能在各種真實(shí)世界的用例數(shù)據(jù)集上進(jìn)行評估，包括視頻會議、聯(lián)絡(luò)中心、播客和技術(shù)視頻。您可以在云中、數(shù)據(jù)中心和邊緣部署這些技能。

Riva 語音識別管道在保持準(zhǔn)確性的同時(shí)，為新的最先進(jìn)的體系結(jié)構(gòu)提供支持。圖 2 顯示了在過去 3 年中，通過新的模型體系結(jié)構(gòu)、訓(xùn)練方法以及最新的基于 TensorRT 和 GPU 的優(yōu)化，語音準(zhǔn)確性的提高。

Riva ASR accuracy improved by 50% in 3 years.

圖 2 。 Riva ASR 精度改進(jìn)

使用 Riva ，您可以在流式或批處理模式下以實(shí)時(shí)延遲快速部署和擴(kuò)展到數(shù)百和數(shù)千個(gè)并發(fā)流。

關(guān)于作者

About Sirisha Rella

Sirisha Rella 是 NVIDIA 的技術(shù)產(chǎn)品營銷經(jīng)理，專注于計(jì)算機(jī)視覺、語音和基于語言的深度學(xué)習(xí)應(yīng)用。 Sirisha 獲得了密蘇里大學(xué)堪薩斯城分校的計(jì)算機(jī)科學(xué)碩士學(xué)位，是國家科學(xué)基金會大學(xué)習(xí)中心的研究生助理。

About Tanay Varshney

Tanay Varshney 是 NVIDIA 的一名深入學(xué)習(xí)的技術(shù)營銷工程師，負(fù)責(zé)廣泛的 DL 軟件產(chǎn)品。他擁有紐約大學(xué)計(jì)算機(jī)科學(xué)碩士學(xué)位，專注于計(jì)算機(jī)視覺、數(shù)據(jù)可視化和城市分析的橫斷面。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴