資料介紹
在嘈雜的環(huán)境中,對于手機、可穿戴設(shè)備和其它智能設(shè)備來說聲音隔離技術(shù)能夠提升語音增強和識別準(zhǔn)確度
聲音或語音用戶接口在手機、平板電腦、可穿戴設(shè)備和其它智能設(shè)備上變得越來越普遍和重要,因為這項技術(shù)確實讓這些設(shè)備不需要再設(shè)計鍵盤或者觸摸屏。為了能夠提供更精確的語音處理過程,系統(tǒng)在設(shè)計時必須要保證對語音正確可靠的識別,即使在復(fù)雜的噪聲環(huán)境條件中。
目前已經(jīng)有數(shù)百萬人已經(jīng)依賴自動語音識別技術(shù)來將語音轉(zhuǎn)換為文字來編寫文檔和生成文本。然而自動語音識別的質(zhì)量主要依賴于一些最優(yōu)條件,比如假設(shè)每個人說話的方式與聲音訓(xùn)練數(shù)據(jù)非常類似,講話處在安靜的環(huán)境中避免噪聲干擾,即使這樣也需要工作人員來修改文字錯誤、標(biāo)點以及語法錯誤,此外還可能存在其他類型的翻譯錯誤。語音技術(shù)的持續(xù)改進對于提升設(shè)備對人類語言的識別準(zhǔn)確度非常有必要,在手機、智能設(shè)備應(yīng)用以及諸如汽車這樣的噪聲環(huán)境下語音識別技術(shù)的效果對其能否成功至關(guān)重要。
圖1:噪聲環(huán)境下聲音隔離技術(shù)提升設(shè)備的語音增強和識別效果(來源:安森美半導(dǎo)體)
語音增強是基于聲音隔離和噪聲抑制技術(shù),本篇文章主要介紹聲音隔離技術(shù),實現(xiàn)噪聲剔除和語音增強,因此下面只對噪聲抑制做了簡要介紹。
噪聲抑制技術(shù)能夠幫助去除不同類型的背景噪聲,防止干擾語音識別。噪聲的顯著特征主要體現(xiàn)在時間域和頻域,時間域的噪聲包括連續(xù)、斷續(xù)和脈沖型的噪聲,頻域噪聲包括寬頻帶和窄頻帶噪聲。辦公室和交通的聲音、操作設(shè)備的聲音和嘶嘶聲是典型的連續(xù)型噪聲,這類噪聲變化非常慢。非連續(xù)型噪聲是重復(fù)的噪聲,比如喇叭或者鈴鐺的聲音。脈沖式的噪聲通常比較生硬如點擊和重擊的聲音。寬頻噪聲如嘶嘶聲可能有不同的頻率,窄頻噪聲的發(fā)生往往在一定的頻率范圍內(nèi),包括正弦波、嗡嗡聲和機器噪聲。
工程師們已經(jīng)嘗試了各種濾波技術(shù),每種技術(shù)會對不同類型的噪聲都有一定的積極作用。然而每種噪聲的特性會隨著時間有些改變,工程師可能也需要采用自適應(yīng)算法來動態(tài)匹配噪聲的變化,一些噪聲剔除技術(shù)的例子包括頻率補償、脈沖過濾、自適應(yīng)寬頻濾波、自適應(yīng)逆向濾波和立體濾波等。
認識聲音隔離技術(shù)
聲音隔離是提升語音識別度的一種新型方法,傳統(tǒng)的方式是屏蔽和過濾不同的噪聲,聲音隔離技術(shù)則側(cè)重于鑒別人語音的某種具體特征來判定和傳輸有效的語音,從而過濾掉背景噪聲。聲音隔離技術(shù)能夠顯著提升語音的清晰度和識別度,即使在噪聲環(huán)境中。為了能夠可靠的鑒別人語音的部分,聲音隔離系統(tǒng)需要采用聲學(xué)和語言模型,這里向大家介紹了兩種目前嵌入式設(shè)計中采用的建模方法。第一種是深度神經(jīng)網(wǎng)絡(luò)算法,第二種是耳蝸仿真,即模擬人聽力系統(tǒng)從內(nèi)耳到大腦的行為。
采用深度神經(jīng)網(wǎng)絡(luò)的方法需要一個大型數(shù)據(jù)庫,包含數(shù)百小時以上的噪聲和語音,用于訓(xùn)練算法系統(tǒng)。起初在這個數(shù)據(jù)庫對語音沒有概念,通過大量的訓(xùn)練開始學(xué)習(xí)鑒別人類不同的語音模式,聲音隔離的質(zhì)量包括能夠判定不同聲音的來源,通過兩個或者更多的麥克風(fēng)來采集音頻數(shù)據(jù)能夠提升其效果,這個網(wǎng)絡(luò)甚至能夠訓(xùn)練識別是誰在發(fā)聲、何時在發(fā)聲等效果。
數(shù)據(jù)庫包含的信息會被用來創(chuàng)建小型快速算法,然后移植到目標(biāo)數(shù)字信號處理器(DSP)上來執(zhí)行實現(xiàn)語音的監(jiān)測和分類。根據(jù)數(shù)據(jù)庫中存儲的信息開發(fā)出來的自適應(yīng)算法的組合就被稱為神經(jīng)網(wǎng)絡(luò)。
神經(jīng)網(wǎng)絡(luò)算法會將輸入的聲音進行分解,對不同的聲音分段來分析來判定人不同的語音模式,神經(jīng)網(wǎng)絡(luò)會分析聲音段的不同特征包括頻率、諧波、“攻擊”和衰減特性,從而從環(huán)境聲音中區(qū)分出語音。神經(jīng)網(wǎng)絡(luò)會基于音頻采樣率來權(quán)衡性能,低采樣率需要的處理更少當(dāng)然精確度也會低,越高的采樣率越精確,當(dāng)然計算處理過程也更復(fù)雜。
不同的濾波算法用于聲波紋識別同時移除不想要的音頻部分,多通濾波器的使用會更有效的過濾同時能夠恢復(fù)任何丟失的音頻部分。在后處理階段通過設(shè)置不同的算法參數(shù),聲音能夠被一定程度的優(yōu)化適合人的聽力系統(tǒng)或者用于語音識別系統(tǒng),這非常重要因為人類和語音識別系統(tǒng)采用不同的語音解析方式。
耳蝸仿真
這種聲音隔離方法采用DSP平臺運行計算機聽覺場景分析(CASA)算法來模擬人類聽覺系統(tǒng)將語音從噪聲環(huán)境中提取出來。這種方式會對音頻信息進行編碼從而實現(xiàn)分組和解析。目前有幾十種分組依據(jù)涉及時間和頻率相關(guān),包括音高、空間位置和起始/結(jié)束時間。
音高是一個非常重要的分組依據(jù),它根據(jù)不同的諧波模式來鑒別某種聲音的唯一特征。當(dāng)采用兩個或者多個麥克風(fēng)時,聲音隔離系統(tǒng)可以根據(jù)空間位置信息來確定每個麥克風(fēng)聲音的方向和距離。CASA建模方式使得聲音隔離系統(tǒng)實現(xiàn)“雞尾酒會效應(yīng)”,讓系統(tǒng)能夠集中于某一聲音源,比如某個特定的人,并且屏蔽掉背景聲音。起始/停止時間分組指的是某一聲音成分開始出現(xiàn)和停止的時刻,這些數(shù)據(jù)與原始的頻率數(shù)據(jù)合并時就能夠判斷是否來自同一聲音源。
圖2:各種聲音隔離方法被采用實現(xiàn)所謂的“雞尾酒會效應(yīng)”,即屏蔽掉一系列噪聲集中識別某一特定的聲音源。
具有相似屬性的聲音會形成同一音頻流,同樣的,不同的屬性的會形成各自的音頻流。這個系統(tǒng)就可以采用這些不同的音頻流來鑒別持續(xù)或者重復(fù)的聲源。一旦有了足夠的聲音分組,實際的聲音隔離處理就會從已經(jīng)鑒別過的聲源中去匹配,并且響應(yīng)真正說話者的聲音。逆向轉(zhuǎn)換可將數(shù)據(jù)重新構(gòu)造為音頻流并傳輸供人來聽。
注意事項
聲音隔離不僅適合提供高質(zhì)量的語音——語音識別系統(tǒng),還有很多其他重要應(yīng)用。比如在緊急情況下往往是比較嘈雜混亂的環(huán)境,這時快速且準(zhǔn)確的語音通訊對于生命安全非常關(guān)鍵,通過清晰的語音識別急救人員就能夠快速的定位求救人員。相比噪聲抑制方法,聲音隔離提供了一種更加高效的機制,盡管在不可控的環(huán)境條件下也能夠提升語音通信識別度。
專用的DSP聲音處理器能夠帶來性能的優(yōu)化同時保持較低的功耗,尤其對于一直打開的語音應(yīng)用或者要求用戶手動(比如長按按鈕)初始化激活語音識別接口非常重要,需要一直打開的語音功能不可避免的要持續(xù)造成功耗,因為系統(tǒng)處理器一直保持活動狀態(tài)。與此相反,為了節(jié)省電池能量,需要一直打開的語音應(yīng)用可以采用專用的語音處理器,這種處理器支持睡眠模式,保留一定的功能,此外還支持低功耗監(jiān)聽模式以及全功能喚醒模式。
語音功能不再僅面向手持設(shè)備和智能手機了,可穿戴設(shè)備正式得益于用戶語音功能才不需要設(shè)計鍵盤或者觸摸屏功能了。隨著語音功能的成熟,用戶與設(shè)備之間的距離也會增加。舉個例子,現(xiàn)在一些智能電視支持語音命令,這些電視一般會放在客廳,同時需要考慮用戶隱私和安全問題,需要重新執(zhí)行完善的方案,相信用戶語音功能會在更多的傳統(tǒng)電子產(chǎn)品設(shè)備中獲得應(yīng)用。
原文鏈接:
發(fā)布文章均為獨家原創(chuàng)文章,轉(zhuǎn)載請注明如出處,對于未經(jīng)許可的復(fù)制和不符合要求的轉(zhuǎn)載我們將保留依法追究法律責(zé)任的權(quán)利。
(mbbeetchina)
下載該資料的人也在下載
下載該資料的人還在閱讀
更多 >
- 硬件工程師手冊(內(nèi)部資料)下載 0次下載
- 用于電池供電世界中的USB技術(shù)資料下載
- 藍牙低功耗技術(shù)資料下載
- AMOLED的幾種常規(guī)技術(shù)資料下載
- 為什么工程師仍在使用RS - 232?資料下載
- 工程師為什么不增加開關(guān)頻率?資料下載
- 藍牙文件推送技術(shù)資料下載
- 電源工程師如何選擇電感器?資料下載
- 高級PCB工程師要會些什么?資料下載
- 工程師頭疼的差分線傳輸線長度差問題資料下載
- 通信工程師解密:哪些東西擋住了你的信號?資料下載
- 工程師的三大溫度設(shè)計挑戰(zhàn)資料下載
- 如何成為高級嵌入式工程師?資料下載
- 工程師設(shè)計和測評電源的幾個指標(biāo)資料下載
- 工程師分享電源散熱設(shè)計和仿真資料下載
- fpga工程師前景如何 3228次閱讀
- 電子工程師常用的公式及算法 3954次閱讀
- 電子工程師關(guān)注的傳感器技術(shù)趨勢 769次閱讀
- 什么是電氣工程師到底是做什么的 5.9w次閱讀
- 算法工程師如何進階?怎么才能算得上技術(shù)專家呢? 7049次閱讀
- 工程師制作電子音樂木管樂器 3207次閱讀
- 硬件工程師設(shè)計100道問答分享 2.9w次閱讀
- 什么是FPGA工程師的核心競爭力 3806次閱讀
- 如何成為一個優(yōu)秀的硬件工程師? 1.1w次閱讀
- 硬件工程師需要考慮哪四大現(xiàn)象?一個資深硬件工程師給你解答 8349次閱讀
- fpga就業(yè)怎么樣_fpga工程師是青春飯嗎_fpga工程師發(fā)展前景 5.4w次閱讀
- 嵌入式軟件工程師和嵌入式硬件工程師有什么區(qū)別 7.1w次閱讀
- 電子工程師常犯的20個錯誤,你搞錯哪些? 3772次閱讀
- 如何成為出色的模擬工程師(三):數(shù)字隔離與模擬隔離 1.2w次閱讀
- 數(shù)字工程師與EMC的糾葛 916次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費下載
- 0.00 MB | 1489次下載 | 免費
- 2單片機典型實例介紹
- 18.19 MB | 91次下載 | 1 積分
- 3S7-200PLC編程實例詳細資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識別和講解說明
- 4.28 MB | 18次下載 | 4 積分
- 5開關(guān)電源原理及各功能電路詳解
- 0.38 MB | 9次下載 | 免費
- 6基于AT89C2051/4051單片機編程器的實驗
- 0.11 MB | 4次下載 | 免費
- 7基于單片機和 SG3525的程控開關(guān)電源設(shè)計
- 0.23 MB | 3次下載 | 免費
- 8基于單片機的紅外風(fēng)扇遙控
- 0.23 MB | 3次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費
- 4LabView 8.0 專業(yè)版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費
- 5555集成電路應(yīng)用800例(新編版)
- 0.00 MB | 33562次下載 | 免費
- 6接口電路圖大全
- 未知 | 30319次下載 | 免費
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費
- 8開關(guān)電源設(shè)計實例指南
- 未知 | 21539次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537791次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233045次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191183次下載 | 免費
- 7十天學(xué)會AVR單片機與C語言視頻教程 下載
- 158M | 183277次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138039次下載 | 免費
評論
查看更多