語言承載了人類文化,人類需要通過語言學習知識和傳遞信息,這是人類區別于動物界最重要的特性之一。
因此,未來的機器智能時代,機器也必然需要通過語言實現與人類之間的交互,似乎最近的科幻片都已經暗示了這個問題。
現在的科幻就是未來的現實,因此,讓機器聽懂世界,這是未來機器智能時代的關鍵問題,也是人類一個更大的夢想,但是,我們距離人類的這個夢想還有多遠呢?
01讓機器聽懂世界承載了人類千年夢想
首先明確一個概念,讓機器聽懂世界,這里面其實蘊含了多個歷程,包括聽懂人類語言,進而聽懂動物叫聲,甚至聽懂自然聲音,亦或類似地球的耳朵LIGO那樣聆聽宇宙的“聲音”。
所有這些都是極其復雜的過程,因為我們人類實際上也沒有達到這種能力,但是我們期望機器能夠延伸人類的能力,從而實現人類的夢想。所以語音智能事實上承載的是幾千年來人類的偉大夢想。
那么,如何才能讓機器聽懂人類語言呢?這需要解決三個核心關鍵問題:聽見、聽準和聽懂,從技術角度來看,就是拾音、識別和理解三個關鍵技術環節。
拾音是最為基礎的環節,必須保證讓機器聽得見聲音,這部分主要是聲學問題;
識別是將符合要求的聲音轉化成文字,這部分主要是語音識別的問題;
理解則是根據識別出來的文字,準確理解人類的指令甚或情感。
鑒于語音智能設備已經大量出現在我們生活場景之中,當前技術的核心關鍵就是聲學問題和語義理解。
02近場語音是機器聽懂人類的率先嘗試
近場語音交互主要是指人類距離機器不超過30厘米范圍的語音識別技術,這項技術利用距離巧妙回避了真實場景下復雜的聲學問題,可以理解為一種實驗室理想環境下的語音交互技術。
近場語音識別從上世紀五十年代就開始研究,但是長期沒有實質性進展,直到蘋果在2010年推出Siri的應用,這才引起了全球的關注。到現在為止,近場語音交互技術已經比較成熟,平均識別率可以達到95%以上。
但是近場語音交互受到了真實場景的巨大制約,并沒有展現出來語音交互可以解放雙手的先進性,因此在很多場景中,事實上近場語音交互都是雞肋一般的存在,并沒有發揮出真正的威力。
直到遠場語音交互技術的出現,成功解決了真實場景下的復雜聲學問題以后,至少技術達到了用戶認可的門檻,語音交互才真正出現了替代鍵盤鼠標和觸摸屏的可能性。
03遠場語音將語音智能落地到真實場景
遠場語音交互主要解決30厘米到5米范圍內的語音交互問題,這個范圍事實上就是人類之間溝通交流的最佳距離,距離太近容易觸發自我保護意識,而距離太遠則會增大交流難度。
注意語音交互并非只是語音問題,人類的交互其實是一個綜合的過程,包括了表情、眼神、肢體動作等等一系列影響因素。
遠場語音交互的歷史是比較短暫的,這項技術以前長期沒有實質性突破,直到2016年末,全球才真正開始重視這項技術,并且短短一年時間,引領全球市場都進入了激烈博弈的階段。
遠場語音交互的代表產品自然就是智能音箱,盤點一下全球巨頭在智能音箱的布局就可窺得一二。亞馬遜的Echo發布四年已然影響深遠,谷歌的Home劍走偏鋒以技術做博弈,微軟的Invoke則仍然堅持工程師定義產品的文化......
注意,這里還是特別強調智能音箱只是遠場語音交互的突破口,并非什么語音的唯一入口,因為未來的機器智能時代,比如電視、冰箱、汽車都有可能成為重要入口。但是智能音箱又是非常重要的,因為不管產品形態怎樣變化,其本質的核心其實還是智能音箱的技術架構。
04聽懂世界還有哪些必須解決的問題?
若讓機器聽懂世界,遠場語音交互技術也僅是個嘗試而已,事實上遠場語音技術本身也只是剛剛起步,即便5米以內,其噪聲抑制、回聲抵消、混響去除、遠場喚醒和遠場識別等核心技術還存在諸多缺陷。
但是技術一直在迭代發展,特別是當技術落地場景以后,源源不斷的真實數據和客戶需求將帶動技術更加快速的發展。
從技術層面來看,讓機器聽懂世界涉及了數學、物理學、語言學、醫學、計算機學等各學科的知識,很難一一枚舉出來,但是若從應用場景來看,則相對比較簡單,讓機器聽懂世界包括了人類語言、人類情感、動物聲音和自然聲音。
讓機器聽懂世界的技術正在全球快速的演化,相信不久的將來,我們肯定能看到更加智能的機器。
因此,既不要抨擊當前的人工智能技術,也不要盛贊現在的基礎科技技術,保持一顆平靜的心,正確給予科技界和產業界的支持才是對于未來最大的投資。
-
機器人
+關注
關注
211文章
28582瀏覽量
207814 -
人工智能
+關注
關注
1793文章
47539瀏覽量
239390 -
智能語音
+關注
關注
10文章
789瀏覽量
48835
原文標題:讓機器聽懂世界,觸及人類夢想還有多遠?
文章出處:【微信號:haierhope,微信公眾號:HOPE開放創新平臺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論