從更精美的照片、更高的安全性到更自然的用戶界面(UI),人工智能(AI)正以無縫的方式更多地豐富我們的生活。高能效和個性化是Qualcomm AI Research的核心研究領域,因為它們對于下一代無處不在的智能用戶體驗而言不可或缺。終端側AI正在支持虛擬助理的發展,而個性化正成為今天的虛擬助理和未來真正個人助理之間的主要差異。
AI驅動語音交互革命
語音是我們一直期盼的變革性交互方式,它可以提供用戶與終端間的自然交互,而無需任何手部操作。先進的語音交互具有始終開啟、對話式、個性化和私密的特征,可支持我們進行高效且自然的對話。從智能手機、智能音箱到擴展現實(XR)設備和汽車,語音交互正在眾多產品種類中日益發展和普及。
要實現端到端的語音交互體驗,其中需要多個組件的支持(見圖1)。語音交互的流程是這樣的:首先麥克風采集語音信號,然后是語音預處理、語音激活、語音識別和自然語言理解,最終是終端通過語音合成的方式響應用戶。由此可見,端到端的語音交互是個多步驟的復雜流程。
圖1:語音交互的功能組件。
為什么今天語音交互變得如此普及?一個重要因素是,機器學習已經點燃了語音交互的革命。機器語音識別的準確率正不斷逼近95%,達到與人類準確率相當的水平。當機器準確率不能達到人類的水平,整個語音交互過程就沒法做到對話式的自然高效交流,因此用戶體驗會有顯著下降。機器學習技術可應用于幾乎所有的語音交互組件之上,從而提升各方面及整體的交互體驗。
終端側的語音交互至關重要
因計算、內存和功率的限制,主要語音交互組件(如自動語音識別和自然語言處理)傳統上都由云端AI所支持。但是,終端側處理具有眾多獨特的優勢,包括更快的響應速度、更高的可靠性和更好的隱私保護。尤其是在私密性方面,今天的消費者渴望把數據掌握在自己手中,并且有權選擇是否將數據發到云端進行處理或存儲。因此,更多在終端上進行處理并為云端功能提供補充,這是目前行業的重要趨勢之一。而其中的主要挑戰在于,需要在移動終端的功耗和散熱限制下運行并實現復雜的語音交互功能。
圖2:語音交互的主要組件正向終端側遷移。
Qualcomm正積極應對這項挑戰,并把低功耗的終端側AI應用于語音交互組件之上。以下是幾個例子:
1、語音降噪將帶噪語音處理成清晰語音并輸出,這在嘈雜環境中尤其重要。Qualcomm AI Research正在開發一個降噪深度學習模型,該模型與傳統方法相比有顯著的性能提升,并具有較高效率可在助聽器這樣非常受限的處理能力、功耗和散熱條件下運行。
2、 自動語音識別將語音轉錄為文本。測試表明,深度學習技術可在移動終端上實現頂級的語音識別準確率。Qualcomm AI Research已經完成了一個深度學習聲學模型的訓練并使其適應每個用戶的口音和環境,從而提高個性化程度。
今天,終端側的語音交互已經成為現實。Qualcomm AI Research已經可以在終端側實現整體的端到端語音交互處理,并在2018年的CES大會上演示了智能家居中的端到端語音交互體驗。在適應口音和環境后,這項演示對特定領域的指令集已經可以實現超過95%的意圖理解準確率。
個性化成就真正的虛擬助理
真正的虛擬助理是在終端里面有一個“數字化的我”。因此,它需要分析個人信息并不斷學習用戶偏好,從而成為真正了解用戶的數字助理。情境式智能是實現個性化的必備條件,而實現情景式智能需要融合多種終端側傳感器的數據(如麥克風、攝像頭和陀螺儀)及其他終端側和終端外數據(見圖3)。
圖3:情境式智能融合多種傳感器和個人信息。
增強個性化的一大好處在于,它能夠推動個人助理進一步發展并兼具響應性和主動性。真正的個人助理不僅能夠在用戶提問時提供個性化的答案,還能基于情境分析進行自主決策和無提示對話。
為進一步提升虛擬助理的個性化程度,Qualcomm AI Research正對終端側的“AI agent”展開研究,它有望從所有傳感器數據中不斷學習個人信息,最終實現直觀行動。AI agent的關鍵功能包括情境式融合及學習,這最終將支持個性化響應并豐富我們的生活。初步研究結果已展現出終端側個性化的遠大前景。個性化不僅將提升虛擬個人助理的用戶體驗,而且將豐富我們生活的方方面面。這項技術將變革眾多行業,不斷推動行業創新。
(本文內容來自Qualcomm高級總監兼AI研究項目負責人侯紀磊博士的署名博客)
-
傳感器
+關注
關注
2551文章
51192瀏覽量
754389 -
AI
+關注
關注
87文章
31028瀏覽量
269381 -
機器學習
+關注
關注
66文章
8423瀏覽量
132749 -
語音交互
+關注
關注
3文章
286瀏覽量
28033
發布評論請先 登錄
相關推薦
評論