智能語音發展如火如荼
根據《2018中國智能語音行業前景研究報告》,2017年中國的智能語音市場規模已經達到了105.71億元,比2016年增長了70%,而2018年這個規模預計將繼續擴大三分之一,達到159.7億元。
國內的行業規模越來越大,但從技術角度看,目前的智能語音發展到了什么階段呢?我們先從頭開始說。
上世紀50年代到60年代,語音識別研究著眼于單個字詞到連續語音的識別,當時最大的困境是對相關數據的計算能力的低下,這直接導致該時期研究進展極其緩慢。到了70年代,計算機性能大幅提升,之前的問題便不復存在,并且隨著計算機軟硬件技術的高速發展,該研究已不再受困于計算能力,人們便開始將研究重點放在數據算法的優化提升上,并將這一方向保持至今。
簡單來講,這個方向的問題解決方案是基于一個框架,通過對框架內的各部分進行改進,最終向著識別的極限正確率邁進。各部分中,聲學模型和語言模型的構建,則是整個方案中的研究焦點。
80年代末李開復將隱馬爾科夫模型與高斯混合模型(GMM)相結合進行語音識別建模,開發出世界上第一個“非特定人連續語音識別系統”,即SPHINX系統。隨后,主流的GMM-HMM技術框架的發展日益穩定,但語音識別效果難以轉向應用化的局面長時期沒有被打破,這意味著語音識別技術又遇到了瓶頸。
轉機出現在2006年。這一年,深度學習的概念被辛頓提出,深度神經網絡(Deep Neural Network,DNN)研究因此而復蘇。2009年,辛頓和他的學生將深度神經網絡應用于語音的聲學建模上并獲得成功。到了2010年前后,微軟研究院的俞棟、鄧力等人將深度學習在圖像領域的突破移植到語音識別領域,使識別錯誤率降低了20%以上。從此,基于GMM-HMM的語音識別框架被打破,人們開始轉向基于DNN-HMM的語音識別模型的研究。
從2011年到2018年,以深度神經網絡為基礎的語音識別建模技術迅速發展,語音識別乃至語音交互行業呈現出這樣一個現象:全世界范圍內的企業的建模技術萬變不離“深度神經網絡”這一宗,雖大同小異但又各顯神通。
技術篇:語音識別和NLP技術仍不成熟
智能語音語義包含語音合成、語音識別和自然語言處理(NLP)三項主要技術。
語音合成技術發展最早,應用已較為普遍,除了合成音仍偏機械之外,基本不存在太大技術問題;語音識別在2012年卷積神經網絡(CNN)應用之后,準確率大幅提升,已經在C端、B端得到了廣泛應用,但效果和體驗還不夠理想;NLP技術雖然在搜索引擎中早有應用,但在人機交互領域仍屬于淺層處理。
語音識別“魯棒性“問題顯著
在生物學中,有個術語叫做“魯棒性”,是指系統在擾動或不確定的情況下,仍能保持它的特征行為。這一問題在語音識別領域也存在。
語音識別整個過程包含語音信號處理、靜音切除、聲學特征提取、模式匹配等多個環節。由于語音信號的多樣性和復雜性,系統只能在一定限制條件下才能獲得滿意效果。在真實使用場景中,考慮到遠場、方言、噪音、斷句等問題,準確率會大打折扣。目前業內普遍宣稱的97%識別準確率,更多的是人工測評結果,只在安靜室內的進場識別中才能實現。
要解決語音識別魯棒性問題,需要在技術和產品兩方面進行優化。一方面,在語音增強、麥克風陣列以及說話人分離等多項技術領域持續投入,并結合后端語義,促進對上下文的理解,從而提升識別效果;另一方面,需要從產品設計上進行優化,比如通過進一步交互,使語音識別變得更為準確。
語義分析仍是淺層處理
NLP技術大致包含三個層面:詞法分析、句法分析、語義分析,三者之間既遞進又相互包含。
詞義消歧是NLP技術的最大瓶頸。機器在切詞、標注詞性、并識別完后,需要對各個詞語進行理解。由于語言中往往一詞多義,人在理解時會基于已有知識儲備和上下文環境,但機器很難做到。雖然系統會對句子做句法分析,可以在一定程度上幫助機器理解詞義和語義,但實際情況并不理想。
目前,機器對句子的理解還只能做到語義角色標注層面,即標出句中的句子成分和主被動關系等,它屬于比較成熟的淺層語義分析技術。未來要讓機器更好地理解人類語言,并實現自然交互,還是需要依賴深度學習技術,通過大規模的數據訓練,讓機器不斷學習。當然,在實際應用領域中,也可以通過產品設計來減少較為模糊的問答內容,以提升用戶體驗。
由于人工智能技術對數據依賴性極高,因此,這一領域的技術進步和產業化推進是一種協同關系——通過工程化的方法提升技術效果和體驗,從而促進產業化應用,再根據實際應用中的數據和反饋,反過來推動技術實現突破。那么,智能語音語義在產業化方面都有哪些應用領域,又存在哪些問題?
應用篇:C端提升體驗,B端提升效率
以問答和聊天為服務形式,智能語音語義在多個使用場景和行業領域都有廣泛應用,我們可以簡單從C端和B端兩個方向分別來看。
C端應用方面,主要用于移動設備、汽車、家居三大場景,用來變革原有人機交互方式;B端則針對垂直行業需求,提升人工效率,比如幫助醫生做電子病歷錄入,或代替部分人力工作,比如回答大部分簡單重復的客服問題。由于兩大領域解決的問題不同,因此遇到的挑戰也各不相同。
特別地,在智能機器人的應用方面,目前的機器人與用戶一般都會采用相互問答的小型對話形式進行交流。為實現上方便,問答對話的領域將被進行合理的限制。
除迎賓和問候語外,一般設計為4個問題域:有關時間、日期和星期的問答,有關全世界各大城市所在時區和當地時間的問答,100以內的數學四則運算題目的問答,沒有關系機器人的身世、本領等自身情況的問答。對于每個限定的問題域,相應詞匯表的大小是有限的。在限定領域、有限詞匯的條件下,機器人基本可以與觀眾進行自由問答,并可以在不同的問題與之間相互切換。系統工作流程圖如下:
-
機器人
+關注
關注
211文章
28607瀏覽量
207861 -
語音識別
+關注
關注
38文章
1742瀏覽量
112786 -
智能語音
+關注
關注
10文章
789瀏覽量
48837
原文標題:智能語音主題月開啟,DNN時代語音技術的突破口在哪?
文章出處:【微信號:robotplaces,微信公眾號:機器人創新生態】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論