在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

亞馬遜Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么

454398 ? 來源:雷鋒網 ? 作者:李智勇 ? 2017-05-26 16:00 ? 次閱讀

關于遠場語音交互,聲智科技 CEO 陳孝良告訴雷鋒網:“語音是最簡單、最自然的人機交互方式,同時也是技術難度最大的交互方式,特別是語音交互從近場走向遠場落地到真實場景,必須考慮噪聲、混響、回聲等聲學問題,以及數據差異引入的機器學習模型問題,這些都是保證自由人機交互的核心技術。”

但是網絡上橫跨聲學和計算機學科的教育資源太少,李智勇老師的這篇文章不僅揭示了遠場語音交互的核心技術,還對商業化落地的路徑進行了深入的解讀,無論是語音交互的技術人員,還是產品經理,都值得一讀。

手機之后國外各大巨頭非常罕見的步調一致的在做同一件事情:智能音箱。而這一切最初的驅動力來自于Amazon Echo,但有意思的事情是Amazon Echo這產品根本沒做任何的功能上的創新,聽歌、看新聞、設鬧鐘、說笑話、控制家電等所有東西都可以在手機上找到替代品,它唯一的變化只是把語音交互的方式從近場升級為遠場,并把精度和速度打磨到非常優秀的程度。只是這么一點點變化,似乎就要創造一個無比巨大的行業,那遠場語音交互為什么有這么大的威力?

語音交互等價于遠場語音交互

極端的講法是世界上并不存在一種方式叫近場語音交互,語音交互基本等價于遠場語音交互。事實證明過去很多年里各種近場語音交互的嘗試(比如Siri)并沒獲得很好的進展,甚至簡單實用的語音輸入法也沒能成為主流。從應用場景來看遠場和近場的核心差別是拉開和語音設備的距離后,雙手再也沒用了。這樣和觸屏就可以徹底的差異化,可以徹底的發揮語音的快捷優勢。想象下面的場景:

在微信里給一個人打視頻電話,如果用手機那是下面這樣的過程

亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

如果變成遠場語音,那核心步驟會變成兩個

亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

顯然在這兩種場景下便利程度是完全不一樣的,這種便利理論上講在近場的情形下同樣存在,但核心點在于近場時就需要挑戰用戶根深蒂固的觸屏習慣,這很難。觸屏雖然大流行,但顯然并沒能在筆記本上挑戰鍵盤鼠標的既有地位。這不單是偏好問題,也與各種應用與特定交互方式的綁定有關。觸屏雖然好用,但并不能完全在Office上用起來,所以如果Office根深蒂固,那么鍵盤鼠標就根深蒂固。所以我們說,語音交互基本等價于遠場語音交互,一旦它真的成為主流交互方式,培養了用戶習慣,那反過來才可能在近場的場景(比如近場的Siri)下占有一席之地。

遠場語音交互的核心技術

遠場語音交互如果變的無處不在,那Amazon Alexa(以及同類產品)會變成新一代的Android,那個時候整個生態會像下面這樣:

亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

這個時候Alexa這樣的系統同時覆蓋了傳統上Android和應用商店的角色,在其上面則會有新的今日頭條、新的O2O等。而如果要把Alexa所依托的技術進行細分的話,那么基本上是三層:

前端的聲學部分(算法+陣列)

識別

NLU

這樣一來遠場語音交互就正好面臨一大一小兩個瓶頸:

亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

第一個瓶頸是眼下就要解決的問題,即在語義仍然有限制的條件下,打造偏命令控制的產品,這個時候產品的ID很難擬人化(想想Echo,Airpods這些產品),一旦擬人用戶的潛在期望就會無限拔高,你也就不可能做出非常滿足用戶體驗的產品。

第二個瓶頸則具有一定的不確定性,具有探索性質,我們仍然還不知道什么時候自然語言理解中可以體現出真的智能,但確實只有這點做了突破,并且同計算機視覺進行融合才能真的做好擬人的機器人

而為了解決第一個瓶頸事實上需要做好的事情有兩個:

一個是前端聲學算法軟硬件的持續優化

一個是通過獲取的數據重新訓練云端的ASR

這個過程可以用下圖橙色的部分來概括。

亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

上述這個看著并不太長的鏈條其實復雜度非常高,它即跨越不同的學科(聲學部分屬于經典物理,識別部分則屬于CS),也需要打穿軟硬件。

在算法層面只是前端就需要處理大量經典問題,比如降噪、去混響、回聲抵消、Beamforming等。加不加這些算法的音頻信號差異極大,如:

亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

(具體效果試聽可以參照http://soundai.com/demo.html)

而我們經常說的麥克風陣列即使拋開算法不論,單只在硬件層次上也遠不是標準品:

上圖是一款強調通用性的麥克風陣列,通過USB連接可以隨便連接到筆記本、PAD、手機上進行使用。同樣的陣列還可以做成線性、L型、球形,最終的目的都是匹配特定的場景,讓最終遠場交互的精度最優。


如果進一步下探,那就會出現更為底層的選擇,比如是用駐極體麥克風還是用MEMS的,是用數字的還是用模擬的。

再進一步挖掘,麥克風從特性上還可以進一步細分,比如:

亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

所有上面這些點如果不能一一理順,那就沒法給用戶輸出一種綜合性的體驗,單點最優在遠場語音交互這里價值很小,相當于必要不充分條件。只有能夠綜合,并且能夠優化單點才真的能夠解決當前產品落地中的實際問題。

技術和商業上的正反饋

幾乎所有大公司都感受到了遠場語音交互背后的價值,所以紛紛試水:繼亞馬遜、Google之后,微軟宣布了自己的智能音箱產品,預計蘋果也會宣布自己的相似產品。但是遠場語音交互的落地卻可能比大家期望的要慢。核心點就在于技術-商業上的正反饋需要一定的啟動周期。顯然的技術不好用,產品體驗就不好;而反過來產品沒銷量技術就缺乏打磨的場景,內容配套也就不會跟上。這種互鎖狀態就會形成一個冷啟動周期,在這個周期里做技術的公司打磨自己的技術,在沒那么大量的產品上落地,產品公司則接受技術現實,打磨自己的產品。這樣一來整個遠場語音交互很可能會跑下面的曲線:

亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

這個過程是可以和過去很多商業現實驗證的,比如2007年iPhone發布,小米手機則要遲到2011年,這期間的4年可以看成是智能手機的啟動期,一旦這個市場啟動后則進入一個高速增長期,小米手機的銷量迅速從2012的700多萬臺增加到2014年的6000多萬臺。

遠場語音交互的這個技術-商業正反饋當前還處在非常初期的階段,亞馬遜的Echo(各種型號)如果2017年的銷量真的逼近2000萬臺,那基本上可以認為在美國,技術-商業的正反饋第一回合完成。而在國內,同品類產品銷量都還處在幾萬、十幾萬量級的水平,這個技術-商業的正反饋遠未完成。

當然這并非壞事,在格局已定的市場上,后來者是沒有機會的;只有在這種充滿未知的領域上,創業者才真的有顛覆性的機會。如果回退到20年前,聯想、門戶相對于現在的BAT都是巨無霸型公司,要資源有資源,要渠道有渠道,要人有人但很有意思的事情是BAT最終崛起了。

小結

手機的觸屏把很多人塑造成了低頭族,遠場語音交互估計會塑造出許多和機器說話的人。那時候語言不再只是人和人的交互手段。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ECHO
    +關注

    關注

    1

    文章

    73

    瀏覽量

    27179
收藏 人收藏

    評論

    相關推薦

    高通與蘋果會給語音交互帶來什么?

    短期來看高通、蘋果的入局實質影響不大,更多的是在信心層面。兩個顯然的后果里:一個是高度確定的,那就是語音交互必成;一個則具有高度不確定性,傳統的OS一層上到底會發生什么?
    發表于 06-07 10:10 ?757次閱讀

    應對亞馬遜Echo挑戰 谷歌密謀語音控制產品

    智能硬件在語音控制領域掀起了一新的競爭。亞馬遜語音控制類產品Echo是一款成功的產品,它不僅
    發表于 04-05 10:26 ?1095次閱讀

    亞馬遜拒絕警方搜查Echo語音數據 理由是這樣的

    據媒體報道,亞馬遜拒絕向警方移交一名殺人嫌犯的Echo數據,盡管警方出示了搜查證。The Information網站報道稱,案件所涉及的Echo語音
    發表于 12-29 10:52 ?793次閱讀

    亞馬遜Echo接入教程

    即可。Echo亞馬遜推出的智能家居的控制裝置,還是一款便攜式揚聲器同時還包含了一位名叫Alexa的語音助理,連上機智云后用戶可以通過語音和音箱進行
    發表于 12-15 10:48

    輕松搞定亞馬遜Echo控制智能設備

    2017年在CES上亞馬遜Alexa大放光彩,而Echo日前也已爆出貨1000多萬臺,引爆了智能硬件市場。據說,智能語音助理將成為下一代計算平臺!身為潮牌IoT工程師的你,是準備繼續觀望?還是想馬上
    發表于 02-24 16:08

    亞馬遜Echo控制智能家居的原理

    2017年在CES上亞馬遜Alexa大放光彩,而Echo日前也已爆出貨1000多萬臺,引爆了智能硬件市場。據說,智能語音助理將成為下一代計算平臺! 身為潮牌IoT工程師的你,是準備繼續觀望?還是想
    發表于 03-08 14:20

    智能音箱還能走多遠 智能交互還未發展成熟

    識別準確率方面紛紛秀出97%以上的成績,卷積神經網絡、隱藏馬可夫模型、遷移學習、語義分析等新名詞充斥網絡,亞馬遜Echo巧妙的解決了語音
    發表于 07-11 09:32

    智能音箱混戰 語音交互只是開始

      導讀:語音交互開始是智能音響,但是將來絕對不僅僅是智能音響,技術還會擴展到很多其他的產品。   7月5日,阿里推出了自己的首款消費
    發表于 07-17 09:37

    SAI_MICAK_60_3229_EVK 語音交互單板開發方案

    、噪聲抑制、混響消除、回聲抵消、語音識別、語義理解等多項技術,支持HDMI 2.0(4K@60Hz)和DLNA、Miracast無線投屏,內嵌Ula智能系統及海量內容服務,支持Al
    發表于 07-28 14:24

    基于賽普拉斯CYW43438語音交互中麥克風陣列的解決方案

    隨著語音交互技術在AI時代的出鏡率越來越高,以及以亞馬遜ECHO為代表的智能音箱等
    的頭像 發表于 08-30 11:04 ?9835次閱讀

    亞馬遜Echo的發展歷史及開發出Echo智能音響的軟硬件分析

    年銷售目標更是上了 1000 萬臺。這也讓其他很多智能音箱廠商羨慕不已。對于亞馬遜 Echo 來說,其核心技術則是其集成的智能語音助手 Alexa。而早在 2015 年 6 月 25
    發表于 09-25 09:13 ?13次下載

    靈云語音識別解決方案

    醒、聲源定向等關鍵技術,在引起產業界廣泛關注的同時,16日正式宣布推出面向智能終端的完整靈云語音交互解決方案,該套方案完美整合了國內最新
    發表于 10-13 11:54 ?0次下載

    Synaptics AudioSmart語音技術支持哈曼卡頓 Allure智能音箱

    Synaptics AudioSmart語音技術將帶來性能無與倫比的兩麥克風和四麥克風支持亞馬遜Alexa
    的頭像 發表于 01-10 14:47 ?9259次閱讀

    語音交互領域亞馬遜能否一直占到先機

    個全新的概念,「Voice First」。當時亞馬遜 Echo 的負責人 Mike George 認為,語音交互具有完全無門檻的易用性和高度直覺化的引導,所以人機
    的頭像 發表于 05-24 14:50 ?4056次閱讀

    百度正式發布語音交互技術芯片

    在2019年百度AI開發者大會上,百度首席技術官王海峰宣布百度正式發布語音交互芯片“鴻鵠”。
    發表于 08-30 16:16 ?646次閱讀
    主站蜘蛛池模板: 男人j桶进女人免费视频| www.色com| 五月婷婷一区| 欧美激情综合色综合啪啪五月| 狠狠操夜夜爽| 91夜夜操| 久久婷五月| 精品免费视在线视频观看| www.av日韩| 亚洲一区二区影院| 亚洲va老文色欧美黄大片人人| 免费国产99久久久香蕉| 久久国产视频网站| 欧美性性性性性ⅹxxbbbb| 91夫妻视频| 啪啪免费网站视频观看| 黄乱色伦| 欧美高清xx| 男女互插小说| 亚洲国产精品综合久久久| 天天宗合网| 国产乱人视频免费播放| 欧美精品videofree720p| 蕾丝视频成人★在线观看| 欧美精品国产第一区二区| 久久99精品久久久久久久野外| 你懂的网址在线| 黄色片网站日本| 国产色婷婷精品综合在线| 久久精品综合网| 毛片色毛片18毛片美女| 欧美精品1| 成人欧美一区二区三区| www.99色.com| 人人艹在线视频| 免费看h网站| 伊人网络| 天堂影院在线| 久久综合色视频| 羞羞影院男女午夜爽爽影视| 午夜视频免费|