6月11日,百度“新聲出道”的小度新品發(fā)布會(huì)在北京百度科技園K6熊掌報(bào)告廳召開(kāi),新品“小度智能音箱”正式在后廠(chǎng)村C位“出道”,嘗鮮價(jià)89元。這款“后廠(chǎng)村C位出道”的百元AI實(shí)力擔(dān)當(dāng)產(chǎn)品——“小度智能音箱”憑借“好聽(tīng)、好用、好玩”的特性,新晉成為智能音箱屆的“三好生”!
這款定價(jià)89元的小度智能音箱是如何成為智能音箱屆的“三好生”?聲智科技作為小度智能音箱的技術(shù)合作伙伴,帶您一起解鎖小度智能音箱背后的秘密武器!
(1)好聽(tīng):采用全球首款3麥克風(fēng)陣列設(shè)計(jì),硬件毫不妥協(xié)!
小度智能音箱作為一款定價(jià)89元的智能音箱,其跨級(jí)音質(zhì)體驗(yàn)是百元檔音質(zhì)最佳的人工智能音箱。小度智能音箱音質(zhì)出眾,卻身量小巧,而且有著毫不妥協(xié)的遠(yuǎn)場(chǎng)語(yǔ)音交互體驗(yàn)。它是如何平衡ID、音質(zhì)設(shè)計(jì)和產(chǎn)品體驗(yàn)之間的矛盾呢?
作為一款支持遠(yuǎn)場(chǎng)語(yǔ)音交互的智能音箱,一定離不開(kāi)麥克風(fēng)陣列。麥克風(fēng)陣列的主要作用是幫助機(jī)器適應(yīng)更加復(fù)雜的場(chǎng)景。麥克風(fēng)陣列是由一定數(shù)目的聲學(xué)傳感器組成,用來(lái)對(duì)聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統(tǒng),將會(huì)影響真實(shí)環(huán)境下的語(yǔ)音喚醒和識(shí)別率,是決定用戶(hù)體驗(yàn)的關(guān)鍵因素。
然而,當(dāng)前市場(chǎng)上的麥克風(fēng)陣列方案中,常見(jiàn)的陣型多為4麥,6麥,8麥等陣元的線(xiàn)型、環(huán)型、菱型等陣列方案,亞馬遜的Echo還采用過(guò)6+1麥的方案,亞馬遜主流產(chǎn)品仍在沿用6麥環(huán)形和8麥跑道型方案。從技術(shù)原理來(lái)看,更多數(shù)量麥克風(fēng)的陣列方案在遠(yuǎn)場(chǎng)語(yǔ)音交互效果上更具有優(yōu)勢(shì),但是多麥陣型也限制了ID設(shè)計(jì)的想象空間,對(duì)音箱設(shè)計(jì)提出包括ID、成本等更多苛刻要求。
圖為麥克風(fēng)陣列模組
聲智科技為小度智能音箱量身打造的全球首款3麥環(huán)型麥克風(fēng)陣列,很好的平衡了ID、成本、音質(zhì)設(shè)計(jì)和產(chǎn)品體驗(yàn)之間的矛盾。這款全球首款3麥克風(fēng)陣列構(gòu)型靈活,打破了音腔設(shè)計(jì)的局限,并釋放ID設(shè)計(jì)的無(wú)限空間,同時(shí)平衡了成本和效果之間的矛盾。
聲智科技推出的這款全球首款的3麥環(huán)型麥克風(fēng)陣列內(nèi)置通話(huà)降噪、混響抑制、回聲抵消、噪聲抑制、語(yǔ)音增強(qiáng)、波束形成、增益控制、語(yǔ)音識(shí)別等遠(yuǎn)場(chǎng)語(yǔ)音交互技術(shù),5米內(nèi)的嘈雜環(huán)境中,仍可以有卓越的遠(yuǎn)場(chǎng)語(yǔ)音喚醒性能、精準(zhǔn)的遠(yuǎn)近場(chǎng)語(yǔ)音識(shí)別,實(shí)現(xiàn)輕松喚醒,無(wú)懼環(huán)境,想說(shuō)就說(shuō),聲隨心動(dòng),保證遠(yuǎn)場(chǎng)語(yǔ)音交互的完美體驗(yàn)。而且,相比4麥、6麥、8麥陣列方案的成本偏高,3麥陣列方案價(jià)格更加親民,相比2麥又有效果優(yōu)勢(shì)。
不僅如此,為了釋放ID設(shè)計(jì)的無(wú)限空間,聲智科技針對(duì)小體積智能音箱尺寸特性,進(jìn)行了獨(dú)家的技術(shù)優(yōu)化。小尺寸智能音箱的麥克風(fēng)陣列與喇叭的位置,以及ID結(jié)構(gòu)都較為受限,特別是麥克風(fēng)陣列與大音量喇叭相距很近,帶給語(yǔ)音交互技術(shù)處理極大的壓力,特別是自噪聲抑制和遠(yuǎn)場(chǎng)信號(hào)處理的難度極具增加。為了在這樣的特殊結(jié)構(gòu)設(shè)計(jì)獲得更好的語(yǔ)音交互效果,聲智科技獨(dú)家設(shè)計(jì)優(yōu)化,采用抗強(qiáng)噪喚醒技術(shù)(AKS技術(shù))、垂直抗強(qiáng)噪識(shí)別技術(shù)(VAN技術(shù))、OpenAEC技術(shù)等提升遠(yuǎn)場(chǎng)語(yǔ)音交互體驗(yàn)。
(2)好用:完整遠(yuǎn)場(chǎng)語(yǔ)音喚醒和識(shí)別服務(wù),又快又準(zhǔn)!
為了讓小度智能音箱更好用,提升產(chǎn)品的凈推薦值NPS,聲智科技通過(guò)SoundAI Voice Kit(以下簡(jiǎn)稱(chēng)SVK)為小度帶來(lái)更敏捷、更貼合人性化的語(yǔ)音交互設(shè)計(jì)。
SVK是一款集成聲波配網(wǎng)、波束形成、聲源測(cè)向、定向拾音、噪聲抑制、混響消除、回聲消除、語(yǔ)音喚醒、端點(diǎn)檢測(cè)、語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成、雙工通話(huà)等全鏈路的智能語(yǔ)音交互開(kāi)發(fā)套件,兼容主流智能語(yǔ)音硬件架構(gòu),支持DuerOS、AliGenies、小愛(ài)平臺(tái)、騰訊叮當(dāng)、Amazon Alexa等主流AI平臺(tái), 助力品牌廠(chǎng)商實(shí)現(xiàn)智能硬件產(chǎn)品的極速開(kāi)發(fā)和量產(chǎn)上市。
什么樣的響應(yīng)時(shí)間才能帶來(lái)完美的語(yǔ)音交互體驗(yàn)?人機(jī)語(yǔ)音交互是讓機(jī)器模擬人的行為,讓機(jī)器適應(yīng)人類(lèi)的交互習(xí)慣。大多數(shù)情況下,在生活中人與人對(duì)話(huà)時(shí),一個(gè)過(guò)快的回答會(huì)給用戶(hù)帶來(lái)輕浮感和搶話(huà)感,而一個(gè)過(guò)慢的回答會(huì)給用戶(hù)帶來(lái)遲緩感和愚鈍感。因此智能音箱的響應(yīng)時(shí)間對(duì)于用戶(hù)體驗(yàn)至關(guān)重要。
此次,小度智能音箱采用了聲智科技的SVK完整的遠(yuǎn)場(chǎng)語(yǔ)音喚醒、遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別(Far-Field ASR)服務(wù)。聲智科技精準(zhǔn)的“遠(yuǎn)場(chǎng)語(yǔ)音喚醒技術(shù)”和”遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別技術(shù)”,面向垂直領(lǐng)域深度優(yōu)化,達(dá)到平均96%以上的準(zhǔn)確率。而且,不僅識(shí)別率極大的提升,也帶來(lái)了更符合人性化的語(yǔ)音交互速度體驗(yàn),使得小度智能音箱從喚醒到內(nèi)容的全鏈條響應(yīng)速度達(dá)到全球極致的1.4S以?xún)?nèi),而用戶(hù)喚醒以后的機(jī)器應(yīng)答響應(yīng)時(shí)間更是做到了400~500毫秒的極致速度。
什么樣的語(yǔ)音喚醒體驗(yàn)才能帶來(lái)完美語(yǔ)音交互體驗(yàn)?語(yǔ)音喚醒是智能音箱用戶(hù)的第一體驗(yàn)。聲智科技通過(guò)寬場(chǎng)景高靈敏喚醒技術(shù),很好的平衡了喚醒率和誤喚醒率。眾所周知喚醒率和誤喚醒是一對(duì)蹺蹺板,當(dāng)喚醒效果很好的時(shí)候,誤喚醒通常也會(huì)很高,智能音箱毫無(wú)征兆的突然喚醒也是很麻煩的事情。為解決這個(gè)矛盾,聲智科技的技術(shù)不走討巧路線(xiàn),而是采用全新的喚醒模型,優(yōu)先保證用戶(hù)的體驗(yàn),在此基礎(chǔ)上再降低誤喚醒率,同時(shí)還要提升強(qiáng)噪環(huán)境下的喚醒率。
當(dāng)然,不同麥克風(fēng)器件的選擇帶來(lái)不同的語(yǔ)音交互效果,信噪比(SNR)70dB以上的麥克風(fēng)要比信噪比60DB的麥克風(fēng)的遠(yuǎn)場(chǎng)和抗噪效果更好,但是選用高信噪比的麥克風(fēng),其結(jié)果就是成本會(huì)高出很多。徹底屏蔽硬件的差異化,面向低成本高失真產(chǎn)品,努力幫助客戶(hù)降低成本,聲智科技推出了低成本高容錯(cuò)喚醒技術(shù)。即便在一致性和失真度非常大的情況下,也要出色的保證用戶(hù)體驗(yàn)的效果,這是聲智科技給所有客戶(hù)一直的承諾。
什么樣的語(yǔ)音識(shí)別體驗(yàn)才能帶來(lái)完美語(yǔ)音交互體驗(yàn)?由于遠(yuǎn)場(chǎng)智能產(chǎn)品的場(chǎng)景特殊性,遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別相對(duì)更加垂直,比如智能音箱的識(shí)別偏重于音樂(lè)和百科領(lǐng)域,智能汽車(chē)的識(shí)別偏重于地圖和音樂(lè)領(lǐng)域,而對(duì)于地域性的覆蓋,則是遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別著重考慮的,并不能簡(jiǎn)單把方言劃歸為一個(gè)技術(shù)系列,特別是消費(fèi)電子領(lǐng)域的高度標(biāo)準(zhǔn)化思維,對(duì)于遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的場(chǎng)景兼容更加看重。所以聲智科技的Far-Field ASR就要在垂直領(lǐng)域考慮更多場(chǎng)景難題,不僅如此,為保證云端服務(wù)的穩(wěn)定性和并發(fā)能力,聲智科技采用端云強(qiáng)耦的技術(shù)架構(gòu),合理在端云分配計(jì)算能力,與Amazon AWS、阿里云等主流云計(jì)算平臺(tái)采用相同的服務(wù)可靠性標(biāo)準(zhǔn),SLA高達(dá)99.99%。
(3)好玩:滿(mǎn)足兒童與極客不同需求,解決寬場(chǎng)景難題
真正的產(chǎn)品落地需要考慮眾多應(yīng)用場(chǎng)景的難題,聲智科技的Far-Field ASR就要在垂直領(lǐng)域考慮更多場(chǎng)景難題,比如老人和小孩的識(shí)別怎么辦?南方和北方的語(yǔ)言差異怎么辦?而并非只是簡(jiǎn)單的技術(shù)疊加。
智能音箱市場(chǎng)的用戶(hù)群中有20%+是兒童,如何滿(mǎn)足兒童用戶(hù)群體的需求,提供零溝通距離,優(yōu)質(zhì)精選內(nèi)容,保證健康安全又不失好玩有趣的語(yǔ)音交互體驗(yàn)?聲智科技推出了遠(yuǎn)近場(chǎng)的兒童語(yǔ)音識(shí)別技術(shù),針對(duì)兒童的語(yǔ)音特點(diǎn),例如:兒童生理上發(fā)育不夠成熟,不善于掌握發(fā)音部位與方法,輔音發(fā)音分化不明顯。而且,兒童發(fā)音單音重復(fù)較多,往往發(fā)出單個(gè)的、重疊的音,他們會(huì)說(shuō)“車(chē)車(chē)”、“糖糖”、“兔兔”、“飯飯”,而不說(shuō)“汽車(chē)”、“糖”、“兔子”、“飯”這樣的兒童的交流方式,聲智科技進(jìn)行聲學(xué)模型優(yōu)化訓(xùn)練,升級(jí)打造ASR技術(shù),使得兒童識(shí)別率更準(zhǔn)確,更貼合兒童的交互習(xí)慣。
除了兒童模式,小度智能音箱還推出了極客模式。極客模式下,一次喚醒之后,用戶(hù)可以進(jìn)行多輪對(duì)話(huà)。針對(duì)用戶(hù)多輪對(duì)話(huà)的語(yǔ)音交互需求,聲智科技推出了支持多輪對(duì)話(huà)的端云交互技術(shù),從麥克風(fēng)陣列、語(yǔ)音喚醒、端點(diǎn)檢測(cè)和語(yǔ)音識(shí)別四個(gè)技術(shù)鏈條進(jìn)行深度優(yōu)化,滿(mǎn)足了百度對(duì)于用戶(hù)體驗(yàn)的極致追求。其中,端點(diǎn)檢測(cè)技術(shù)既要保證響應(yīng)速度,又要準(zhǔn)確識(shí)別斷句以保證語(yǔ)言連貫性,在復(fù)雜場(chǎng)景下的技術(shù)實(shí)現(xiàn)非常困難。聲智科技率先突破這些技術(shù)難關(guān),將會(huì)推動(dòng)智能音箱技術(shù)向著更加智能的方向快速發(fā)展。
隨著用戶(hù)認(rèn)知度提升、整體產(chǎn)業(yè)鏈的成熟、用戶(hù)體驗(yàn)提升等因素,2018年智能音箱將會(huì)持續(xù)爆發(fā)。但語(yǔ)音交互技術(shù)仍需繼續(xù)發(fā)力,聲智科技作為國(guó)內(nèi)知名的語(yǔ)音交互技術(shù)提供商,將持續(xù)聚焦在技術(shù)領(lǐng)域,與眾多合作伙伴一道推動(dòng)智能語(yǔ)音行業(yè)的發(fā)展。
-
智能語(yǔ)音
+關(guān)注
關(guān)注
10文章
786瀏覽量
48813 -
語(yǔ)音交互
+關(guān)注
關(guān)注
3文章
286瀏覽量
28037 -
智能音箱
+關(guān)注
關(guān)注
31文章
1783瀏覽量
78662
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論