歷史書可能會將語音控制視為人機接口中最重要的進步。我們不再打字,不再指點,只需說出想要什么就可以了。這個領域的初期進展十分緩慢,直到智能揚聲器的出現,讓我們開始意識到了解決方案?,F在,隨著在手機、耳機、可穿戴設備和智能家居中識別功能和應用的改進,這場競爭已然開始。如今,最廣為人知的解決方案依賴于少數提供商控制的平臺和服務,但這種情況正在發生改變。語音激活可嵌入到任何地方,不僅可以定制,還可提高抗噪性,降低功率,擴大范圍,而且在語音識別方面與大型平臺一樣有效。
消費類語音產品市場的歷史饒有趣味,而語音識別功能在其中起著重要作用。FutureSource 顯示,從 2008 年到 2012 年,語音體驗主要集中在智能手機上,整體市場價值下降。從 2012 年到 2014 年,市場基本持平。然后,從 2015 年到 2018 年,主要受語音激活驅動,它再次以 15% 的復合年增長率增長。展望未來,Yole Développement 預計到 2023 年,復合年增長率至少為 30%,這主要得益于語音識別。這一增長將主要集中在智能手機上,其次是耳機和可穿戴設備、個人助理和智能家居功能(電視、電器等)。同一份報告得出的結論是,我們現在正進入智能語音的第二階段,隨著消費者對這種控制方法越來越滿意,語音控制將變得越來越普遍。
無論部署在哪里,他們的目標都是增強實別能力。在智能手機或任何其他電池供電的設備中,一個明顯的優勢是支持始終在線聆聽;在發出命令之前無需按下按鈕。這就需要超低功耗的觸發命令詞檢測,眾所周知,這意味著硬件與軟件的契合,以盡量降低待機功耗。當然,用戶都希望為自己的品牌定制個性化觸發命令詞或短語的功能,并且可以支持多種語言,以便在其所在地區甚至國際市場上獲得強大的滲透力。您仍然將后續命令傳遞給某個主要的語音識別提供商來識別請求?;蛘撸苍S不必。如果您的設備只需要對有限的詞匯表提供支持,并且您的語音識別引擎可以滿足該目標,則可能無需第三方的幫助。
另一個關鍵需求是在嘈雜的環境中進行識別,也許還有身份驗證。語音識別所面臨的挑戰與目標識別不同。例如,在起居室或汽車中,可能會有多個聲源:人們說話、電視和獨立的音樂/無線電、室內外的噪音、以及房間或汽車內部表面反射的回聲。隔離命令源、消除回聲和降低背景噪聲需要一些復雜的技術,這取決于多麥克風、波束成形和回聲消除,以及噪聲抑制。
當然,鑒于這些需求,CEVA 等公司已備好滿足這些需求的可用解決方案。最近推出的 CEVA Whispro? 語音識別產品解決方案就采用了在 CEVA DSP 平臺上運行的,基于神經網絡的軟件。Whispro 已經支持“Alexa”和“Ok Google”作為觸發命令詞,并且可以在培訓中進行自定義,以支持任何客戶要求的觸發命令詞。它支持多種語言,可以處理多種語音觸發。該方案在多噪聲背景下進行培訓,因此,識別具有嵌入的抗擾性,識別率大于 95%,每小時錯誤接受率小于 1 次,且無需進行云識別。
通過添加專門的語音拾取解決方案 CEVA ClearVox?,開發人員可實現多麥克風支持和波束成形,以改進遠場語音拾取、消除回聲和進一步降低噪音。Whispro 與 ClearVox 的組合可以在更遠的距離內(最遠 7 米),尤其是在嘈雜的環境中,也能夠提供具有競爭力的觸發識別。
-
語音接口
+關注
關注
0文章
10瀏覽量
9918 -
語音控制
+關注
關注
5文章
484瀏覽量
28268
原文標題:語音接口的大眾化【中文版】
文章出處:【微信號:CEVA-IP,微信公眾號:CEVA】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論