隨著大數據時代的到來,音頻、視頻、文字日益成為文化信息傳播的主流方式,其中文字這種載體表現形式最為直觀。無論是政企會議、公檢法辦案,還是教學培訓、記者采訪、個人錄音等場合均需要形成完整的文字記錄材料,音視頻文件也需要形成字幕。為解決各類場景下的音頻轉文字問題,語音轉寫應運而生。
什么是語音轉寫?
此次重磅上線的語音轉寫(Long Form Automatic Speech Recognition),是基于科大訊飛獨立研究的深度全序列卷積神經網絡語音識別框架(Deep Fully Convolutional Neural Network, DFCNN)建立聲學模型和語言模型,能將非結構化的音頻數據轉換成結構化的文本數據,讓信息傳遞更高效,也為后續的數據檢索和數據挖掘提供基礎。簡單的一句話表達就是:把音頻數據轉換成文本數據。按照音頻轉寫的方式可以分為:已錄制音頻轉寫和實時音頻流轉寫。
已錄制音頻(recorded audio):將已經錄制好的完整音頻文件傳輸至云端的轉寫后臺,轉寫完畢之后輸出音頻對應的完整文字結果。
實時音頻流(real-time streaming):在采集音頻的同時連續上傳音頻流至云端,云端實時返回文字結果,可以實現文字和聲音的同步展現。
具備的優勢
核心技術
此次語音轉寫的識別引擎采用擁有科大訊飛自主研發全新推出的深度全序列卷積神經網絡DFCNN識別框架。DFCNN使用大量的卷積層直接對整句語音信號進行建模,更好的表達了語音的長時相關性,并且直接將一句語音轉化成一張圖像作為輸入,即通過“觀看”語譜圖即可知道語音中表達的內容,最終獲得了相比目前業界最好的語音識別框架——雙向遞歸神經網絡更優的性能,即識別率相對提升了15%以上。并且遙遙領先于同類競品,近場高10-15個絕對點,遠場高20個絕對點以上。
數據安全
轉寫系統接入訊飛開發平臺統一的賬戶體系,采用公鑰與私鑰結合的認證方式保證用戶的賬戶安全,接口統一采用https加密方式進行數據傳輸,用戶上傳的語音文件臨時存儲在內網存儲,待轉寫完成,確保結果無誤后予以粉粹刪除,從數據傳送和存儲上全面保障用戶的數據安全。
使用場景
電話銷售與客服
傳統的電話銷售與客服包含了通話錄音、通話質檢等。針對這個產品的質量控制就是質檢,包括通話的質量、服務的質量、業務解決質量以及滿意度等等。質檢團隊的配置比例一般是50:1~80:1。有沒有更好的手段可以對全部坐席人員的工作成效進行評估呢?語音轉寫就可以很好解決這樣的局面,如果坐席團隊50000人的話,那么質檢團隊就需要1000人,但語音轉寫可以將坐席通話轉換成文字,讓電話質檢和信息同步更有效率,同時,也為基于文本建模的數據挖掘提供原料基礎。
舉個小栗子:陳先生是某衛視的一名編導,整理視頻字幕是他的家常便飯,這種機械又耗時的工作經常讓他喘不過氣,語音轉寫就成了解決問題的利器!
面對越來越多以及越來越嚴苛的視頻字幕生成需求,傳統的字幕生成方法早已無法滿足,以往字幕生成通過生成軟件或者專門的字幕組來人工完成,而現在利用語音轉寫可以大大提高效率,解放雙手。快速將視頻中的音頻文件轉寫成帶有的時間戳的文字信息,輕松生成與視頻相對應的字幕文件。
會議發言角色多、發言信息量大、會議時間較長等原因都會讓會議記錄者抓狂,會議紀要的整理就更加步履維艱。面對這種局面,語音轉寫可以將線上或者線下的會議和訪談的音頻記錄轉換成文字存稿,讓后期的信息檢索以及精細整理更方便快捷。
場景營銷
場景營銷是基于網民的上網行為始終處在輸入場景、搜索場景和瀏覽場景這三大場景之一的一種新營銷理念。而語音轉寫可以通過對轉寫結果與用戶自定義的關鍵詞進行搜索匹配,結合對應時間戳信息,進行線上廣告投放。
訊飛開放平臺在多地進行了機房部署,服務器集群每天承載高達30億的語音交互量。每個IDC機房采用BGP或三網接入,保障接入速率和成功率。核心硬件方面采用內存雙通道策略,GPU+CPU復合運算組合,提高引擎速度。
訊飛開放平臺同時為開發者提供多種技術支持方式,并且提供一整套的服務支撐方案,保證服務的穩定性和質量。
”人生在勤,不索何獲。”各項技術日新月異,語音轉寫走進時代浪潮,也期待大家一起利用語音轉寫創造更多驚喜!點擊閱讀原文就可以進入訊飛開放平臺體驗語音轉寫服務,新用戶有5小時免費使用福利哦。
-
數據
+關注
關注
8文章
7102瀏覽量
89282 -
語音識別
+關注
關注
38文章
1742瀏覽量
112745 -
大數據
+關注
關注
64文章
8899瀏覽量
137578
發布評論請先 登錄
相關推薦
評論