語音控制和語音接口已經開始幾乎滲透到所有消費類邊緣設備類別。語音識別算法和AI加速器硬件的進步意味著該技術甚至可用于功耗和成本受限的應用程序,例如智能家居設備(甚至有些笨拙的設備)。
從用戶角度來看,智能家居設備中的語音控制背后的驅動因素很明確。
Alireza Kenarsari-Anhari(來源:PicoVoice)
PicoVoice首席執行官Alireza Kenarsari-Anhari表示:“易用性和便利性是目前的主要驅動力。”想像一下,想要喝咖啡時,您會從桌子上大聲喊叫到辦公室里的咖啡機,或者拿著一籃濕衣服命令下達干衣機的命令。
我們假設像這樣的智能設備(不是便攜式設備)可以永久訪問家庭的WiFi連接-那么為什么不在云中進行這種語音處理呢?
在這種情況下,走向邊緣AI的趨勢主要是由隱私驅動的,Kenarsari-Anhari表示,這是消費者關注的問題,但對于某些企業來說是必不可少的。可靠性是另一個驅動因素:“如果您的WiFi無法正常工作,讓洗衣機停止工作是否有意義?”他說。
延遲在某些情況下也很重要;有些應用程序確實需要對語音工作負載處理(例如游戲)進行實時保證。
成本是語音邊緣處理的另一大推動力,因為在云中處理此語音數據需要花費金錢。每次使用云API時都要付費的商業模式不適用于家用電器和消費電子產品等用例,這些用例的成本較低,并且每天可能使用多次。
PicoVoice的AI語音到文本推理引擎旨在在低于1美元的微控制器上獨立于云運行,旨在實現原本不可行的應用程序中的語音控制。這可能包括消費者可穿戴設備和可聽設備,它們處于需要通過基于微控制器的語音解決方案實現的電源效率和成本效率的交叉點。Kenarsari-Anhari說,功率和成本優化的解決方案還可以釋放工業,安全和醫療應用中的機會。
該公司最近推出了Shepherd,這是一個用于在微控制器上構建語音應用程序的無代碼平臺,可與該公司的模型創建軟件PicoVoice Console一起使用。Shepherd支持ST和NXP流行的Arm Cortex-M微控制器,并同時支持其他設備。
Kenarsari-Anhari說:“我認為語音是一種界面-如果您無需編碼即可構建GUI或網站,也許使用WordPress,則下一步的邏輯步驟就是以類似的方式構建語音界面,” Kenarsari-Anhari說。“牧羊人使產品經理和用戶體驗設計師能夠構建原型并快速迭代,但我們的目標是擴大其目標用戶群。如果每個人都可以建立自己的助手怎么辦?命名為他們想要的名稱,而不是Alexa!—賦予他們想要的個性。”
盡管完全有可能開發自然語言處理模型并在沒有專業軟件的情況下實現它們,但這條路線并不適合每個人。
他說:“當然可以,蘋果,亞馬遜,谷歌和微軟做到了。”“這實際上與企業是否具有資源,是否致力于圍繞它建立組織以及是否有能力等待幾年有關。”
未來趨勢
Syntiant首席執行官Kurt Busch在去年夏天接受EE Times采訪時說,Voice正在成為下一代技術用戶的首選界面。
庫爾特·布希(來源:Syntiant)
布希描述了他的最小的孩子,他的孩子雖然可以讀書,但是還太小,不能寫作和拼寫,卻可以通過智能手機上的語音界面與朋友們發短信。
“他的哥哥姐姐發短信,但他那一代人的電話比他們早了幾年,”布希說。“隨著時間的流逝,對于他這一代和更年輕的一代,他們的默認界面是與之對話。”
Busch的觀點是,語音將成為“未來的觸摸屏”,其中的設備內處理功能首先會在具有鍵盤或鼠標的設備中提供快速響應的界面,然后在白色家電中提供快速響應的界面。
Syntiant的芯片是專業的AI加速器,旨在處理低至極低功耗預算的消費電子設備中的語音AI工作負載。迄今為止,這家初創公司已經在全球范圍內出貨了超過一千萬個芯片,其中大部分已投入手機中以實現始終在線的關鍵字檢測。最新的Syntiant芯片NDP120可以識別諸如“ OK Google”之類的熱門單詞,以在280 μW以下的速度激活Google助手。
將來,Busch還認為語音控制將使每個人都可以連接和訪問技術。
“我們認為聲音是技術的偉大民主化者,”布希說。“世界上有30億人每天的生活費僅為2美元。我的假設是那些人沒有互聯網訪問權限,并且可能沒有通過教育系統。這里的自然界面是[語音]。這就是您將技術帶入當今尚未與技術互動的世界三分之一的方式。我們已經看到發展中國家對語音優先應用產生了很大的興趣,不僅是從費用的角度,而且從舒適的角度來看,都希望獲得那些以前可能沒有訪問權限的社會階層。”
市場碎片化知識
發展速度如此之快的危險在于,它可能很快變得極度碎片化。Knowles物聯網高級總監Vikram Shirastava告訴EE Times,而不僅僅是硬件方面。
Vikram Shrivastava(來源:Knowles)
“例如,由于使用哪種語音識別引擎,市場變得支離破碎?”舍拉斯塔瓦說。“市場將變得分散,這取決于您是與電視SoC集成還是內部是一個簡單的MCU,例如微波爐。您會基于操作系統或基于聲學環境而產生碎片–僅僅是家庭嗎?外面是門鈴嗎?不可能有一種萬能的解決方案。您必須找到每個垂直領域的共同點,然后嘗試相應地解決語音集成問題。”
Knowles有一個基于DSP的語音控制解決方案,旨在引入針對不同垂直行業的版本。它的方法是將市場的各個部分劃分為具有共同點的那些部分-例如,家用控件,電視條形音箱和遙控器可能屬于同一類-然后開發針對該類應用程序進行了優化的解決方案。Shirastava稱這種方法為“交鑰匙工程以下一級”,它提供了交鑰匙工程的可擴展性,但又增加了一些靈活性。
他說:“我們必須針對這些碎片的某些方面發布一些不同的版本,以使我們能夠涵蓋我們想要追求的垂直領域。”
Knowles的最新版本AISonic藍牙標準解決方案是一種開發套件,用于在與藍牙連接的設備(例如智能揚聲器,智能家居設備,可穿戴設備和車載語音助手)中進行語音識別。該套件基于Knowles的IA8201雙核DSP芯片,該芯片專門針對神經網絡處理而設計,其功耗遠低于應用處理器。例如,該芯片可以在50 mW以下的同時處理單獨的AI模型,以同時進行關鍵字識別,源分類,波束形成,聲學回聲消除(AEC)和源方向估計。這是通過Tensilica DSP內核上的近400條用于音頻和AI處理的自定義指令的指令集擴展實現的,該指令集又可以降低時鐘頻率以節省功耗。
Sugr的iOttie Aivo Connect車載智能手機支架將Knowles的IA8201用于車載語音功能。它具有內置的Alexa語音助手功能。
語音最終會成為大多數消費類電子產品的默認用戶界面嗎?看起來肯定是這樣。先進,高效的AI語音控制算法,使開發人員能夠輕松集成語音的開發環境以及不斷發展的節能,經濟高效的硬件解決方案生態系統相結合,使這一切成為可能。
編輯:hfy
-
智能家居
+關注
關注
1928文章
9588瀏覽量
185769 -
語音接口
+關注
關注
0文章
10瀏覽量
9919 -
語音控制
+關注
關注
5文章
484瀏覽量
28271
發布評論請先 登錄
相關推薦
評論