從兩年多前,亞馬遜推出智能音箱Echo以來(lái),谷歌、微軟、蘋(píng)果等科技巨頭先后涌入成為行業(yè)領(lǐng)跑者,他們的加入也將起初默默無(wú)聞的智能音箱,變成了如今炙手可熱的智能硬件。亞馬遜Echo現(xiàn)在的銷(xiāo)量已超過(guò)10億美元。
給這股熱潮更添一把火的還有中國(guó)市場(chǎng)的科技巨頭們。
7月5日,阿里巴巴集團(tuán)在京發(fā)布首款人工智能音箱產(chǎn)品,未來(lái)其功能上或與電商購(gòu)物相結(jié)合,幾乎同期,充當(dāng)?shù)谌胶献骰锇榈囊魳?lè)類(lèi)品牌喜馬拉雅FM代表音頻內(nèi)容提供方,也推出了自己的小雅AI音箱;另一家電商巨頭京東也在此前率先發(fā)布了智能音箱“叮咚”以希望占領(lǐng)智能家居領(lǐng)域的入口;此前騰訊高層也公開(kāi)表態(tài)稱(chēng),騰訊智能音箱產(chǎn)品“耳朵”將于8月前后發(fā)布。小米、百度、聯(lián)想等也推出了智能音箱產(chǎn)品。至此,中國(guó)的BAT巨頭們幾乎聚齊在智能音箱領(lǐng)域。
智能音箱之所以會(huì)被巨頭青睞,很重要一個(gè)原因是,其便捷的語(yǔ)音交互可以提供查詢(xún)、購(gòu)買(mǎi)商品、控制家電等功能,這被看作是智能家庭的入口和下一代人機(jī)交互界面的重要載體。
而這些當(dāng)然不是全球知名科技公司的憑空想象,有數(shù)據(jù)顯示,在美國(guó),約有近4000萬(wàn)用戶(hù)每月會(huì)使用一次語(yǔ)音操控的音箱。市場(chǎng)調(diào)研機(jī)構(gòu)StrategyAnalytics指出,2016年智能音箱全球出貨量590萬(wàn)臺(tái),并將在2022年增長(zhǎng)10倍,市場(chǎng)價(jià)值達(dá)到55億美元。
更有第三方機(jī)構(gòu)預(yù)測(cè),到2018年,30%的人機(jī)交互通過(guò)自然語(yǔ)言完成,2018年有望成為智能音箱爆棚式發(fā)展的關(guān)鍵一年。
面對(duì)國(guó)內(nèi)智能音箱這一現(xiàn)象級(jí)熱潮,F(xiàn)T找到了海外在智能語(yǔ)音技術(shù)上有不同側(cè)重的兩家公司的核心研發(fā)人員,跟他們聊聊硬件背后,智能語(yǔ)音識(shí)別技術(shù)的那些事。
數(shù)據(jù)的可獲得性是語(yǔ)音識(shí)別“預(yù)測(cè)”的瓶頸
在過(guò)去的幾年,Pawel觀察到了市面上越來(lái)越多的智能語(yǔ)音產(chǎn)品, 在他看來(lái)這是一個(gè)信號(hào),“新的改革將要到來(lái),因?yàn)橐幌盗挟a(chǎn)品正在改變?nèi)藗兊娜粘I睿珹mazon Echo就是很好的例子,它讓人們意識(shí)到?jīng)]有語(yǔ)音助手會(huì)不方便,就好比生活中沒(méi)有智能手機(jī)。”
Emotech作為一家技術(shù)驅(qū)動(dòng)的創(chuàng)業(yè)公司,研發(fā)團(tuán)隊(duì)在智能語(yǔ)音上,經(jīng)常會(huì)嘗試添加一些類(lèi)人的技術(shù),“讓設(shè)備可以更好的理解非語(yǔ)音的提示,并且更具表現(xiàn)力的作出回應(yīng)。簡(jiǎn)單來(lái)說(shuō),我們想創(chuàng)造一個(gè)與人們生活方式相兼容的設(shè)備。” Pawel解釋道,與其他初創(chuàng)公司相比,在Emotech,最具特色的是,嘗試?yán)糜布蛙浖脚_(tái)來(lái)提供個(gè)性化的助理解決方案,而其他大部分初創(chuàng)公司,只會(huì)專(zhuān)注于硬件或軟件中的其中一個(gè)。
Emotech的Olly機(jī)器人在語(yǔ)音識(shí)別研發(fā)上,一開(kāi)始團(tuán)隊(duì)就從公開(kāi)的語(yǔ)料庫(kù)中構(gòu)建種子模型,然后不斷迭代和收集更多匹配的域內(nèi)數(shù)據(jù),讓它更適應(yīng)真實(shí)的聲學(xué)環(huán)境。Olly除了硬件,還有擁有專(zhuān)利的類(lèi)腦引擎、機(jī)器人心理學(xué)架構(gòu)、智能語(yǔ)音識(shí)別等軟件上的研發(fā)。
Pawel透露,經(jīng)過(guò)產(chǎn)品的迭代,Olly除了能夠?qū)崿F(xiàn)語(yǔ)義和語(yǔ)音識(shí)別外,還能通過(guò)語(yǔ)音和人臉識(shí)別更為精準(zhǔn)地辨識(shí)出用戶(hù)的身份,滿(mǎn)足用戶(hù)的需求。Olly還可以檢測(cè)到用戶(hù)的情緒變化,并通過(guò)LED 顏色,形狀的變化和自身的運(yùn)動(dòng)和與他們進(jìn)行情感互動(dòng),這也是Olly最為獨(dú)特的地方。
作為女性,Marily則很善于從用戶(hù)的角度來(lái)尋求改進(jìn)語(yǔ)音識(shí)別技術(shù)的智能性。
Marily非常喜歡做飯,但在做飯的場(chǎng)景中,很難使用手機(jī),所以在做飯的時(shí)候,Marily幾乎每天都會(huì)用到手機(jī)的譯寫(xiě)功能,跟家人和朋友發(fā)信息聊天,“聲音識(shí)別在烹飪方面用處真的很大,尤其是你需要計(jì)時(shí),或者需要一張根據(jù)冰箱現(xiàn)有食材專(zhuān)門(mén)制定菜譜的時(shí)候。” 而這正是智能語(yǔ)音識(shí)別在生活應(yīng)用場(chǎng)景中及其有需求的地方。
電腦可以將語(yǔ)音轉(zhuǎn)化成文字,在Marily看來(lái)是非常奇妙的事。事實(shí)上,在20世紀(jì)20年代,語(yǔ)音識(shí)別技術(shù)就已經(jīng)出現(xiàn)了,一開(kāi)始,這項(xiàng)技術(shù)智能識(shí)別某一特定人說(shuō)的數(shù)字,到了1962年,IBM創(chuàng)立的系統(tǒng)就能識(shí)別16個(gè)單詞的單詞了。到了70年代,語(yǔ)音識(shí)別系統(tǒng)就能辨別出不同人的聲音了,不過(guò),需要說(shuō)話(huà)人說(shuō)一句停頓一句。
Marily說(shuō),如今的語(yǔ)音識(shí)別系統(tǒng)建立在隱馬爾可夫模型的基礎(chǔ)上。其原理是,通過(guò)已知的聲音創(chuàng)建隨機(jī)模型,將其與某一特定模型產(chǎn)生的未知聲音進(jìn)行匹配。也就是說(shuō),這個(gè)模型下的語(yǔ)音識(shí)別技術(shù)可以讓機(jī)器準(zhǔn)確地“猜”出我們要說(shuō)什么。不過(guò)像其他預(yù)測(cè)行為一樣,這需要大量的數(shù)據(jù)分析作為系統(tǒng)運(yùn)轉(zhuǎn)的原動(dòng)力,“數(shù)據(jù)的可獲得性是語(yǔ)音識(shí)別‘預(yù)測(cè)’的瓶頸、但我相信在未來(lái)會(huì)越來(lái)越多地接觸到語(yǔ)音識(shí)別的應(yīng)用,如果我們能想到在嶄新的未來(lái)里有什么,我們就會(huì)真的在那時(shí)候真的得到什么。”
如今在Marily的生活中智能語(yǔ)音幾乎無(wú)處不在,她會(huì)在出門(mén)的時(shí)候問(wèn)Siri要不要帶傘,用臉書(shū)的M制定計(jì)劃和完成付款,然后告訴Google Home調(diào)暗起居室的光線(xiàn)并打開(kāi)電視看《權(quán)利的游戲》。Alexa會(huì)自動(dòng)幫她在亞馬遜上訂貨品。“我最喜歡的Google Home的語(yǔ)音識(shí)別功能是,它能通過(guò)匹配身份和聲音‘知道’誰(shuí)在跟它說(shuō)話(huà)。” Marily說(shuō)。
研發(fā)與商業(yè)化的平衡點(diǎn):做出讓人們生活更美好的科技
Pawel所在的Emotech和Marily所在的谷歌,是聚焦智能語(yǔ)音研究的位于產(chǎn)業(yè)鏈兩端的公司,一家是巨無(wú)霸,一家是有特色研發(fā)能力的初創(chuàng)公司,因此,這也造就了他們?cè)谥悄苷Z(yǔ)音研發(fā)上的不同思路,Pawel的體驗(yàn)是,大公司能提供更專(zhuān)注的工作環(huán)境,“你被分配了一個(gè)明確的問(wèn)題,你可以花幾個(gè)月去解決這個(gè)問(wèn)題。”而在初創(chuàng)公司,目標(biāo)可能會(huì)發(fā)生很大的變化,“你將因?yàn)槟繕?biāo)的變化而改變你將面對(duì)的問(wèn)題,通常超出你的舒適范圍度。”
在Pawel看來(lái),在初創(chuàng)公司工作好比一場(chǎng)冒險(xiǎn),沿途有許多起伏。“在Emotech,我們經(jīng)常在非常緊迫的時(shí)間內(nèi)開(kāi)發(fā)、整合和測(cè)試某些模塊,這個(gè)過(guò)程并不容易。最重要的部分是要學(xué)會(huì)靈活,持久和耐心。”
盡管有谷歌的大公司背景,Marily最近也在做另一個(gè)嘗試,“以黑客松項(xiàng)目為起點(diǎn),嘗試建立初創(chuàng)公司”,這兩個(gè)身份一個(gè)傾向于學(xué)界研究,以將假設(shè)通過(guò)探索方式得到驗(yàn)證為目的,一個(gè)則需要考慮工業(yè)應(yīng)用商業(yè)落地,初創(chuàng)公司需要找到“歸宿”并且要充滿(mǎn)激情,這兩件事都讓Marily覺(jué)得有吸引力。
事實(shí)上,面對(duì)全新的領(lǐng)域,無(wú)論是創(chuàng)業(yè)公司還是科技巨頭,都不可避免的走在不斷試錯(cuò)的路上。而商業(yè)化和技術(shù)研發(fā)的關(guān)系有并存也會(huì)有某種程度上的制約,作為一個(gè)身在商業(yè)公司的研發(fā)人員,Pawel則有更為客觀的看法,他認(rèn)為,所有的研發(fā)都需要開(kāi)支,這些開(kāi)支總是要想辦法為它買(mǎi)單。這就需要公司參與者,找到一個(gè)真正的平衡點(diǎn),Pawel認(rèn)為這個(gè)平衡點(diǎn)就是,做能讓人們生活更加美好的科技。
智能語(yǔ)音識(shí)別正是符合這一觀點(diǎn)的新技術(shù),“這在某種程度上加強(qiáng)了一種相輔相成關(guān)系,人們使用語(yǔ)音識(shí)別的機(jī)會(huì)越多,產(chǎn)品就會(huì)變得越好,商業(yè)公司就會(huì)不斷的改進(jìn)產(chǎn)品,因?yàn)楫a(chǎn)品使用率變高,就會(huì)收集到更多必要的數(shù)據(jù),這也是改進(jìn)產(chǎn)品一個(gè)重要途徑。” Pawel說(shuō)。
用戶(hù)總能“秀”出下一代技術(shù)或產(chǎn)品 追蹤用戶(hù)非常有意義
作為學(xué)界和科技公司的一線(xiàn)從業(yè)者,在英國(guó),Pawel、Marily經(jīng)常會(huì)參加行業(yè)聚會(huì)。
讓Marily感受最深的是,在頭腦風(fēng)暴的過(guò)程中,往往給他們帶來(lái)新點(diǎn)子和新產(chǎn)品,“有時(shí)候這些討論成果會(huì)直接導(dǎo)致新的產(chǎn)品開(kāi)發(fā)團(tuán)隊(duì)的形成。谷歌街景還有臉書(shū)的視頻類(lèi)產(chǎn)品就是這樣誕生的。”Marily說(shuō),最近一次,她參加的一項(xiàng)行業(yè)聚會(huì),跟圈內(nèi)的朋友暢聊了新技術(shù)、出版物、電子等話(huà)題,在她看來(lái),有時(shí)候看似不相關(guān)的行業(yè),對(duì)于人工智能亦或是智能語(yǔ)音識(shí)別,都能提升潛在的協(xié)同效應(yīng)。
而這種源自不同文化專(zhuān)業(yè)背景和思維方式的頭腦風(fēng)暴,在Emotech團(tuán)隊(duì)中也常常發(fā)生。Emotech的團(tuán)隊(duì)構(gòu)成非常多元化,30個(gè)員工擁有22種母語(yǔ),而且不同于傳統(tǒng)科技公司只有科學(xué)家和程序員,這里還有音樂(lè)家、游戲師、心理專(zhuān)家等各種背景的組合。
談及未來(lái)公司在智能語(yǔ)音方面的發(fā)展規(guī)劃,Pawel說(shuō),Emotech會(huì)更加努力提升ASR(自動(dòng)語(yǔ)音識(shí)別)系統(tǒng),使其能讓多個(gè)人同時(shí)說(shuō)話(huà),或者在非常嘈雜的環(huán)境中工作,例如雞尾酒會(huì)的場(chǎng)景。這將會(huì)產(chǎn)生一些有趣的應(yīng)用程序,“讓設(shè)備可以收集多個(gè)聲源或只關(guān)注某一個(gè)談話(huà)者無(wú)視其他的,我希望能建立會(huì)話(huà)界面使用的更多模式,因?yàn)楫?dāng)任務(wù)和對(duì)話(huà)界面一樣復(fù)雜時(shí),許多信息時(shí)隱藏在對(duì)話(huà)之間的。”有趣的是,人類(lèi)本身也并沒(méi)有很好的掌握同時(shí)聽(tīng)多個(gè)人說(shuō)話(huà)的技能,相反在噪聲或混響聲環(huán)境中只會(huì)注意單個(gè)說(shuō)話(huà)者。
而對(duì)Marily來(lái)說(shuō),談及未來(lái),讓她首先想到了60年代的科幻電影,“當(dāng)時(shí)我們覺(jué)得跟機(jī)器說(shuō)話(huà)是完全虛構(gòu)的,現(xiàn)在小說(shuō)的描述已經(jīng)變成現(xiàn)實(shí)。我們已經(jīng)擁有了自己的AI助手,他們?cè)谕庑紊峡赡懿幌褚粋€(gè)機(jī)器人,但是他們已經(jīng)在這兒了,還可以由我們隨心支配。”基于這樣的基礎(chǔ),她認(rèn)為未來(lái)人們能夠定制自己的AI助理,并能定制它們的聲音和外貌。
Marily大膽的暢想了一下未來(lái)的場(chǎng)景,自己的AI助理將會(huì)為個(gè)人的生活量身打造,會(huì)根據(jù)時(shí)間和地點(diǎn)自動(dòng)做出調(diào)整。它們會(huì)學(xué)著如何“理解”主人的需求。比如,可以讓自己的AI助理像某個(gè)自己非常喜歡的演員,這只是科技公司將AI技術(shù)變成現(xiàn)實(shí)的無(wú)數(shù)個(gè)例子中的一個(gè)而已。
而個(gè)人助理和AI語(yǔ)音識(shí)別技術(shù)的關(guān)聯(lián)是,科技正在改變?nèi)藱C(jī)交互的方式,語(yǔ)音識(shí)別會(huì)讓人性化的人機(jī)交互成為可能。“我非常期待看到未來(lái)AI和語(yǔ)音識(shí)別技術(shù)將會(huì)走向何方,在我得到自己的C3PO之前,一切都有可能。”
Marily說(shuō),她常常會(huì)在技術(shù)中發(fā)現(xiàn)“缺口”然后找到創(chuàng)新的方式去填補(bǔ),她相信用戶(hù)們總能“秀”出下一代技術(shù)或者產(chǎn)品是什么,因此追蹤用戶(hù)是一件非常有意思的事情,這也是她初創(chuàng)公司建立的靈感來(lái)源。“假設(shè)我們是用戶(hù),特別喜歡某個(gè)產(chǎn)品,但很明顯地它存在著某種缺憾,要怎樣完善這個(gè)缺憾呢?與其臨淵羨魚(yú),不如退而結(jié)網(wǎng),想想你自己的使命是什么然后去實(shí)現(xiàn)吧。”
可以看到的是,語(yǔ)音交互是現(xiàn)在智能家居領(lǐng)域最高頻的應(yīng)用之一,已經(jīng)可以實(shí)現(xiàn)的是,智能語(yǔ)音跟電視、音響、空調(diào)、窗簾、燈具、玩具等家用設(shè)備、智能家居控制中樞系統(tǒng)相結(jié)合,通過(guò)語(yǔ)音交互實(shí)現(xiàn)從入口控制全部的功能,伴隨像巨頭谷歌、創(chuàng)業(yè)公司Emotech一樣的公司的不斷努力,未來(lái)智能語(yǔ)音的便捷交互還有更多值得期待。
嘉賓簡(jiǎn)介
Pawel Swietojanski(簡(jiǎn)稱(chēng)Pawel)是歐洲頂尖人工智能創(chuàng)業(yè)公司Emotech 團(tuán)隊(duì),智能家用機(jī)器人Olly的語(yǔ)音識(shí)別研究員,Emotech是一家技術(shù)驅(qū)動(dòng)的人工智能創(chuàng)業(yè)公司。2016年11月,在CES會(huì)展上,Emotech的智能情感機(jī)器人Olly獲得四項(xiàng)創(chuàng)新大獎(jiǎng),2016年8月,該項(xiàng)目完成總額1000萬(wàn)美元的A輪融資。智能語(yǔ)音識(shí)別一直是公司最為重視的基礎(chǔ)架構(gòu)之一。
在加入Emotech之前,Pawel是愛(ài)丁堡大學(xué)語(yǔ)音技術(shù)研究中心的博士生。他發(fā)表過(guò)多篇語(yǔ)音和語(yǔ)言處理的文章,對(duì)語(yǔ)音識(shí)別聲學(xué)建模的頗有貢獻(xiàn),他的兩篇論文分別獲得了電氣電工程師學(xué)會(huì)口語(yǔ)技術(shù)最佳論文和IBM 研究口語(yǔ)技術(shù)最佳學(xué)生論文獎(jiǎng) 。他還曾兩次在微軟公司實(shí)習(xí),并曾獲邀成為日本情報(bào)通信研究機(jī)構(gòu)訪(fǎng)問(wèn)研究員。
Marily Nika(下稱(chēng)Marily) 擁有倫敦帝國(guó)理工學(xué)院計(jì)算機(jī)科學(xué)系博士學(xué)位,曾創(chuàng)力預(yù)測(cè)互聯(lián)網(wǎng)現(xiàn)象——病毒式傳播的模型,讀博期間,她曾先后在Google和Facebook 做數(shù)據(jù)分析員,畢業(yè)后她加入Google硅谷成為工程項(xiàng)目經(jīng)理,參與Google Assistant, Google Home和數(shù)據(jù)&人工智能的研發(fā)與管理。她先后三次在TEDx 登臺(tái)演講,并在2015年獲得了科學(xué)與工程領(lǐng)域有影響力女性獎(jiǎng)。帝國(guó)理工學(xué)院因?yàn)樗诳萍碱I(lǐng)域中的卓越貢獻(xiàn)授予了她獎(jiǎng)?wù)隆K彩堑谝粋€(gè)獲得Google 安妮塔·博格紀(jì)念獎(jiǎng)學(xué)金的女性極客。如今,Marily也是 EdTech創(chuàng)業(yè)公司的CEO。
評(píng)論
查看更多