一個完整的對話交互是由“聽懂——理解——回答”三個步驟完成的閉環,其中, “聽懂”需要語音識別(Automatic Speech Recognition, ASR)技術;“理解”需要自然語 言處理(Natural Language Processing, NLP)技術;“回答”需要語音合成(Text To Speech, TTS)技術。三個步驟環環相扣,相輔相成。語音識別技術是對話交互的開端,是保證對話 交互高效準確進行的基礎。
語音識別技術自 20 世紀 50 年代開始步入萌芽階段,發展至今,主流算法模型已經經 歷了四個階段:包括模板匹配階段、模式和特征分析階段、概率統計建模階段和現在主流的 深度神經網絡階段。目前,語音識別主流廠商主要使用端到端算法,在理想實驗環境下語音 識別準確率可高達 98%以上。
中國 AI 語音識別市場參與者眾多,主要分為上游、中游、下游。上游:底層技術提供強力支撐,云計算助推AI語音應用普及。中游:語音技術持續升級,生態圈建立賦能產業。下游分析:行業應用多樣化,一站式服務需求廣
在過去五年間,中國 AI 語音的需求最先在消費級市場爆發,主要得益于互聯網及智能 硬件設備廠商加大語音識別的投入經費,以及廠商為提前占據市場推行的智能音箱硬件補貼。
目前,消費級產品及服務主要包括智能音箱、智能車載和智能硬件及消費級互聯網增值 服務。然而,目前包括直接面向消費者的產品及服務在內,語音識別的相關應用及使用場景 仍具有局限性。
未來,在消費級產品供應商和開發者共同構建產業生態圈的過程中,語音識 別技術將更好地與其他語音交互技術及軟件功能融合,為消費者提供更優質的體驗,未來 AI 語音識別市場將迎來廣闊的發展空間。
對于專業級市場而言,主要的產品形式包括智能語音開放平臺和行業解決方案,下游應 用領域目前主要包括數字化水平相對較高的智慧醫療、智慧教育、企業客服、司法政務、金 融領域等。
AI 語音識別作為人機交互的重要入口之一,除了在語音識別的領域表現出色外, 也要能更好地與其他智能語音技術(包括語義理解、遠場語音識別、喚醒目標檢測、全雙工 交互、個性化識別技術等)進行融合,從而綜合提升真實場景中的用戶體驗。
近年來 AI 語音識別專業級市場的快速增長主要原因除了深度神經網絡算法為語音識別帶來的準確率大 幅提升外,更重要的是其他智能語音和 AI 技術的發展帶來了更廣闊的應用場景,預計未來 專業級市場的商業化需求將得到進一步釋放。
以下是《中國 AI 語音識別市場研究報告》部分內容:
-
AI
+關注
關注
87文章
31294瀏覽量
269647 -
語音識別
+關注
關注
38文章
1742瀏覽量
112747
發布評論請先 登錄
相關推薦
評論