在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌全神經(jīng)元的設(shè)備端語(yǔ)音識(shí)別器再推新品

MqC7_CAAI_1981 ? 來(lái)源:YXQ ? 2019-03-28 17:33 ? 次閱讀

在近二十年來(lái),尤其是引入深度學(xué)習(xí)以后,語(yǔ)音識(shí)別取得了一系列重大突破,并一步步走向市場(chǎng)并搭載到消費(fèi)級(jí)產(chǎn)品中。然而在用戶(hù)體驗(yàn)上,「遲鈍」可以算得上這些產(chǎn)品最大的槽點(diǎn)之一,這也意味著語(yǔ)音識(shí)別的延遲問(wèn)題已經(jīng)成為了該領(lǐng)域研究亟待解決的難點(diǎn)。日前,谷歌推出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)變換器(RNN-T)的全神經(jīng)元設(shè)備端語(yǔ)音識(shí)別器,能夠很好地解決目前語(yǔ)音識(shí)別所存在的延遲難題。谷歌也將這項(xiàng)成果發(fā)布在了官方博客上。

2012 年,語(yǔ)音識(shí)別研究表明,通過(guò)引入深度學(xué)習(xí)可以顯著提高語(yǔ)音識(shí)別準(zhǔn)確率,因此谷歌也較早地在語(yǔ)音搜索等產(chǎn)品中采用深度學(xué)習(xí)技術(shù)。而這也標(biāo)志著語(yǔ)音識(shí)別領(lǐng)域革命的開(kāi)始:每一年,谷歌都開(kāi)發(fā)出了從深度神經(jīng)網(wǎng)絡(luò)(DNN)到循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)、卷積網(wǎng)絡(luò)(CNNs)等一系列新的架構(gòu),進(jìn)一步地提高了語(yǔ)音識(shí)別的質(zhì)量。然而在此期間,延遲問(wèn)題依舊是該領(lǐng)域需要攻克的主要難點(diǎn)——當(dāng)語(yǔ)音助手能夠?qū)崿F(xiàn)快速回答問(wèn)題時(shí),用戶(hù)會(huì)感覺(jué)它有幫助得多。

日前,谷歌正式宣布推出端到端、全神經(jīng)元的設(shè)備端語(yǔ)音識(shí)別器,為 Gboard 中的語(yǔ)音輸入提供支持。在谷歌 AI 最近的一篇論文《移動(dòng)設(shè)備的流媒體端到端語(yǔ)音識(shí)別》(Streaming End-to-End Speech Recognition for Mobile Devices,論文閱讀地址:https://arxiv.org/abs/1811.06621)中,其研究團(tuán)隊(duì)提出了一種使用循環(huán)神經(jīng)網(wǎng)絡(luò)變換器(RNN-T,https://arxiv.org/pdf/1211.3711.pdf)技術(shù)訓(xùn)練的模型,該技術(shù)也足夠精簡(jiǎn)可應(yīng)用到手機(jī)端上。這就意味著語(yǔ)音識(shí)別不再存在網(wǎng)絡(luò)延遲或故障問(wèn)題——新的識(shí)別器即便處于離線狀態(tài)也能夠運(yùn)行。該模型處理的是字符水平的語(yǔ)音識(shí)別,因此當(dāng)人在說(shuō)話時(shí),它會(huì)逐個(gè)字符地輸出單詞,這就跟有人在實(shí)時(shí)鍵入你說(shuō)的話一樣,同時(shí)還能達(dá)到你對(duì)鍵盤(pán)聽(tīng)寫(xiě)系統(tǒng)的預(yù)期效果。

谷歌全神經(jīng)元的設(shè)備端語(yǔ)音識(shí)別器再推新品

該圖對(duì)比了識(shí)別同一句語(yǔ)音時(shí),服務(wù)器端語(yǔ)音識(shí)別器(左邊)以及新的設(shè)備端語(yǔ)音識(shí)別器(右邊)的生成情況。

關(guān)于語(yǔ)音識(shí)別的一點(diǎn)歷史

傳統(tǒng)而言,語(yǔ)音識(shí)別系統(tǒng)由幾個(gè)部分組成:一個(gè)將語(yǔ)音分割(一般為 10 毫秒的框架)映射到音素的聲學(xué)模型;一個(gè)將因素合成單詞的發(fā)音模型;以及一個(gè)表達(dá)給定短語(yǔ)可能性的語(yǔ)言模型。在早期的系統(tǒng)中,對(duì)這些組成部分的優(yōu)化都是單獨(dú)進(jìn)行的。

在 2014 年左右,研究人員就開(kāi)始重點(diǎn)訓(xùn)練單個(gè)神經(jīng)網(wǎng)絡(luò),來(lái)直接將一個(gè)輸入語(yǔ)音波形映射到一個(gè)輸出句子。研究人員采用這種通過(guò)給定一系列語(yǔ)音特征生成一系列單詞或字母的序列到序列(sequence-to-sequence)方法開(kāi)發(fā)出了「attention-based」(https://arxiv.org/pdf/1506.07503.pdf)和「listen-attend-spell」(https://arxiv.org/pdf/1508.01211.pdf)模型。雖然這些模型在準(zhǔn)確率上表現(xiàn)很好,但是它們一般通過(guò)回顧完整的輸入序列來(lái)識(shí)別語(yǔ)音,同時(shí)當(dāng)輸入進(jìn)來(lái)的時(shí)候也無(wú)法讓數(shù)據(jù)流輸出一項(xiàng)對(duì)于實(shí)時(shí)語(yǔ)音轉(zhuǎn)錄必不可少的特征。

與此同時(shí),當(dāng)時(shí)的一項(xiàng)叫做CTC(connectionist temporal classification)的技術(shù)幫助將生產(chǎn)式識(shí)別器的延遲時(shí)間減半。事實(shí)證明,這項(xiàng)進(jìn)展對(duì)于開(kāi)發(fā)出 CTC 最新版本(改版本可以看成是 CTC 的泛化)中采用的 RNN-T 架構(gòu)來(lái)說(shuō),是至關(guān)重要的一步。

循環(huán)神經(jīng)網(wǎng)絡(luò)變換器(RNN-T)

RNN-T 是不采用注意力機(jī)制的序列到序列模型的一種形式。與大多數(shù)序列到序列模型需要處理整個(gè)輸入序列(本文案例中的語(yǔ)音波形)以生成輸出(句子)不同,RNN-T 能持續(xù)地處理輸入的樣本和數(shù)據(jù)流,并進(jìn)行符號(hào)化的輸出,這種符號(hào)化的輸出有助于進(jìn)行語(yǔ)音聽(tīng)寫(xiě)。在谷歌研究人員的實(shí)現(xiàn)中,符號(hào)化的輸出就是字母表中的字符。當(dāng)人在說(shuō)話時(shí),RNN-T 識(shí)別器會(huì)逐個(gè)輸出字符,并進(jìn)行適當(dāng)留白。在這一過(guò)程中,RNN-T 識(shí)別器還會(huì)有一條反饋路徑,將模型預(yù)測(cè)的符號(hào)輸回給自己以預(yù)測(cè)接下來(lái)的符號(hào),具體流程如下圖所示:

谷歌全神經(jīng)元的設(shè)備端語(yǔ)音識(shí)別器再推新品

RNN-T 的表示:用 x 表示輸入語(yǔ)音樣本;用 y 表示預(yù)測(cè)的符號(hào)。預(yù)測(cè)的符號(hào)(Softmax 層的輸出)y(u-1)通過(guò)預(yù)測(cè)網(wǎng)絡(luò)被輸回給模型,確保預(yù)測(cè)同時(shí)考慮到當(dāng)前的語(yǔ)音樣本以及過(guò)去的輸出。預(yù)測(cè)和解碼網(wǎng)絡(luò)都是LSTM RNN,聯(lián)合的模型則是前饋網(wǎng)絡(luò)(feedforward network ,相關(guān)論文查看地址:https://www.isca-speech.org/archive/Interspeech_2017/pdfs/0233.PDF)。預(yù)測(cè)網(wǎng)絡(luò)由 2 個(gè)擁有 2048 個(gè)單元的層和 1 個(gè)有著 640 個(gè)維度的投射層組成。解碼網(wǎng)絡(luò)則由 8 個(gè)這樣的層組成。圖源:Chris Thornton

有效地訓(xùn)練這樣的模型本來(lái)就已經(jīng)很難了,然而使用谷歌開(kāi)發(fā)的這項(xiàng)能夠進(jìn)一步將單詞錯(cuò)誤率減少 5% 的新訓(xùn)練技術(shù),對(duì)計(jì)算能力也提出了更高的要求。對(duì)此,谷歌開(kāi)發(fā)了一種平行實(shí)現(xiàn)的方法,讓 RNN-T 的損失函數(shù)能夠大批地在谷歌的高性能云平臺(tái) TPUv2 芯片上高效運(yùn)行。

離線識(shí)別

在傳統(tǒng)的語(yǔ)音識(shí)別引擎中,上文中提到的聲學(xué)、發(fā)音和語(yǔ)言模型被「組合」成一個(gè)邊緣用語(yǔ)音單元及其概率標(biāo)記的大搜索圖(search graph)。在給定輸入信號(hào)的情況下,當(dāng)語(yǔ)音波形抵達(dá)識(shí)別器時(shí),「解碼器」就會(huì)在圖中搜索出概率最大的路徑,并讀出該路徑所采用的單詞序列。一般而言,解碼器假設(shè)基礎(chǔ)模型由 FST(Finite State Transducer)表示。然而,盡管現(xiàn)在已經(jīng)有精密的解碼技術(shù),但是依舊存在搜索圖太大的問(wèn)題——谷歌的生成式模型的搜索圖大小近 2GB。由于搜索圖無(wú)法輕易地在移動(dòng)電話上托管,因此采用這種方法的模型只有在在線連接的情況中才能正常工作。

為了提高語(yǔ)音識(shí)別的有效性,谷歌研究人員還試圖通過(guò)直接將在設(shè)備上托管新模型來(lái)避免通信網(wǎng)絡(luò)的延遲及其固有的不可靠性。因此,谷歌提出的這一端到端的方法,不需要在大型解碼器圖上進(jìn)行搜索。相反,它采取對(duì)單個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行一系列搜索的方式進(jìn)行解碼。同時(shí),谷歌研究人員訓(xùn)練的 RNN-T 實(shí)現(xiàn)了基于服務(wù)器的傳統(tǒng)模型同樣的準(zhǔn)確度,但是該模型大小僅為 450MB,本質(zhì)上更加密集、更加智能地利用了參數(shù)和打包信息。不過(guò),即便對(duì)于如今的智能手機(jī)來(lái)說(shuō),450 MB 依舊太大了,這樣的話當(dāng)它通過(guò)如此龐大的網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)信號(hào)傳輸時(shí),速度就會(huì)變得很慢。

對(duì)此,谷歌研究人員通過(guò)利用其于 2016 年開(kāi)發(fā)的參數(shù)量化(parameter quantization )和混合內(nèi)核(hybrid kernel)技術(shù)(https://arxiv.org/abs/1607.04683),來(lái)進(jìn)一步縮小模型的大小,并通過(guò)采用 ensorFlow Lite 開(kāi)發(fā)庫(kù)中的模型優(yōu)化工具包來(lái)對(duì)外開(kāi)放。與經(jīng)過(guò)訓(xùn)練的浮點(diǎn)模型相比,模型量化的壓縮高出 4 倍,運(yùn)行速度也提高了 4 倍,從而讓 RNN-T 比單核上的實(shí)時(shí)語(yǔ)音運(yùn)行得更快。經(jīng)過(guò)壓縮后,模型最終縮小至 80MB。

谷歌全新的全神經(jīng)元設(shè)備端 Gboard 語(yǔ)音識(shí)別器,剛開(kāi)始僅能在使用美式英語(yǔ)的 Pixel 手機(jī)上使用。考慮到行業(yè)趨勢(shì),同時(shí)隨著專(zhuān)業(yè)化硬件和算法的融合不斷增強(qiáng),谷歌表示,希望能夠?qū)⑦@一技術(shù)應(yīng)用到更多語(yǔ)言和更廣泛的應(yīng)用領(lǐng)域中去。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6176

    瀏覽量

    105680
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    38

    文章

    1742

    瀏覽量

    112745

原文標(biāo)題:語(yǔ)音識(shí)別如何突破延遲瓶頸?谷歌推出了基于 RNN-T 的全神經(jīng)元設(shè)備端語(yǔ)音識(shí)別器

文章出處:【微信號(hào):CAAI-1981,微信公眾號(hào):中國(guó)人工智能學(xué)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    神經(jīng)元芯片的主要特點(diǎn)和優(yōu)勢(shì)

    的生物復(fù)雜性存在顯著差異。神經(jīng)元芯片通過(guò)集成多個(gè)處理、存儲(chǔ)、通信接口以及輸入輸出(I/O)接口等模塊,形成了一個(gè)功能強(qiáng)大的單芯片系統(tǒng),能夠支持復(fù)雜的網(wǎng)絡(luò)通信和控制任務(wù)。
    的頭像 發(fā)表于 07-12 16:42 ?1235次閱讀

    神經(jīng)元是什么?神經(jīng)元神經(jīng)系統(tǒng)中的作用

    神經(jīng)元,又稱(chēng)神經(jīng)細(xì)胞,是神經(jīng)系統(tǒng)的基本結(jié)構(gòu)和功能單位。它們負(fù)責(zé)接收、整合、傳導(dǎo)和傳遞信息,從而參與和調(diào)控神經(jīng)系統(tǒng)的各種活動(dòng)。神經(jīng)元在形態(tài)上高
    的頭像 發(fā)表于 07-12 11:49 ?1466次閱讀
    <b class='flag-5'>神經(jīng)元</b>是什么?<b class='flag-5'>神經(jīng)元</b>在<b class='flag-5'>神經(jīng)</b>系統(tǒng)中的作用

    人工神經(jīng)元模型的基本構(gòu)成要素

    人工神經(jīng)元模型是人工智能領(lǐng)域中的一個(gè)重要概念,它模仿了生物神經(jīng)元的工作方式,為機(jī)器學(xué)習(xí)和深度學(xué)習(xí)提供了基礎(chǔ)。本文將介紹人工神經(jīng)元模型的基本構(gòu)成要素。 神經(jīng)元的基本概念
    的頭像 發(fā)表于 07-11 11:28 ?1391次閱讀

    人工神經(jīng)元模型的基本原理是什么

    人工神經(jīng)元模型是人工智能領(lǐng)域中的一個(gè)重要概念,它模仿了生物神經(jīng)系統(tǒng)中的神經(jīng)元行為,為機(jī)器學(xué)習(xí)和深度學(xué)習(xí)提供了基礎(chǔ)。 一、人工神經(jīng)元模型的歷史 神經(jīng)
    的頭像 發(fā)表于 07-11 11:26 ?831次閱讀

    人工神經(jīng)元模型由哪兩部分組成

    人工神經(jīng)元模型是深度學(xué)習(xí)、機(jī)器學(xué)習(xí)和人工智能領(lǐng)域的基礎(chǔ),它模仿了生物神經(jīng)元的工作原理,為構(gòu)建復(fù)雜的神經(jīng)網(wǎng)絡(luò)提供了基礎(chǔ)。 一、人工神經(jīng)元模型的起源 生物
    的頭像 發(fā)表于 07-11 11:24 ?1019次閱讀

    生物神經(jīng)元模型包含哪些元素

    進(jìn)行信息傳遞。神經(jīng)元的基本結(jié)構(gòu)包括以下幾個(gè)部分: 1.1 細(xì)胞體(Soma):細(xì)胞體是神經(jīng)元的中心部分,包含細(xì)胞核和其他細(xì)胞。細(xì)胞體的主要功能是合成和儲(chǔ)存蛋白質(zhì),為神經(jīng)元提供能量和物
    的頭像 發(fā)表于 07-11 11:21 ?1097次閱讀

    人工智能神經(jīng)元的基本結(jié)構(gòu)

    人工智能神經(jīng)元的基本結(jié)構(gòu)是一個(gè)復(fù)雜而深入的話題,涉及到計(jì)算機(jī)科學(xué)、數(shù)學(xué)、神經(jīng)科學(xué)等多個(gè)領(lǐng)域的知識(shí)。 引言 人工智能(Artificial Intelligence,簡(jiǎn)稱(chēng)AI)是計(jì)算機(jī)科學(xué)的一個(gè)分支
    的頭像 發(fā)表于 07-11 11:19 ?1428次閱讀

    人工神經(jīng)元由哪些部分組成

    網(wǎng)絡(luò)的基礎(chǔ)。這些網(wǎng)絡(luò)能夠處理和分析大量數(shù)據(jù),從而實(shí)現(xiàn)諸如圖像識(shí)別語(yǔ)音識(shí)別和自然語(yǔ)言處理等功能。 2. 神經(jīng)元的生物學(xué)基礎(chǔ) 在討論人工神經(jīng)元
    的頭像 發(fā)表于 07-11 11:17 ?725次閱讀

    人工神經(jīng)元模型的基本原理及應(yīng)用

    人工神經(jīng)元模型是人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要概念,它模仿了生物神經(jīng)元的工作方式,為計(jì)算機(jī)提供了處理信息的能力。 一、人工神經(jīng)元模型的基本原理 生物神經(jīng)元的結(jié)構(gòu)和功能 生物
    的頭像 發(fā)表于 07-11 11:15 ?1038次閱讀

    人工神經(jīng)元模型的三要素是什么

    人工神經(jīng)元模型是人工智能和機(jī)器學(xué)習(xí)領(lǐng)域中非常重要的概念之一。它模仿了生物神經(jīng)元的工作方式,通過(guò)數(shù)學(xué)和算法來(lái)實(shí)現(xiàn)對(duì)數(shù)據(jù)的處理和學(xué)習(xí)。 一、人工神經(jīng)元模型的基本概念 1.1 生物神經(jīng)元與人
    的頭像 發(fā)表于 07-11 11:13 ?993次閱讀

    神經(jīng)元的分類(lèi)包括哪些

    神經(jīng)元神經(jīng)系統(tǒng)的基本功能單位,它們通過(guò)電信號(hào)和化學(xué)信號(hào)進(jìn)行信息傳遞和處理。神經(jīng)元的分類(lèi)非常復(fù)雜,可以根據(jù)不同的標(biāo)準(zhǔn)進(jìn)行分類(lèi)。 一、神經(jīng)元的基本概念 1.1
    的頭像 發(fā)表于 07-03 11:36 ?1405次閱讀

    神經(jīng)元的結(jié)構(gòu)及功能是什么

    的細(xì)胞,具有獨(dú)特的形態(tài)結(jié)構(gòu)。神經(jīng)元的基本結(jié)構(gòu)包括細(xì)胞體、樹(shù)突和軸突。 (1)細(xì)胞體:細(xì)胞體是神經(jīng)元的中心部分,包含細(xì)胞核和其他細(xì)胞。細(xì)胞核負(fù)責(zé)控制細(xì)胞的生長(zhǎng)、分裂和基因表達(dá)。細(xì)胞體的大小和形狀因
    的頭像 發(fā)表于 07-03 11:33 ?1439次閱讀

    神經(jīng)元的基本作用是什么信息

    的作用。 一、神經(jīng)元的結(jié)構(gòu) 神經(jīng)元是一種高度分化的細(xì)胞,具有獨(dú)特的形態(tài)和功能。神經(jīng)元的基本結(jié)構(gòu)包括細(xì)胞體、樹(shù)突和軸突。 細(xì)胞體:細(xì)胞體是神經(jīng)元的中心部分,包含細(xì)胞核和其他細(xì)胞
    的頭像 發(fā)表于 07-03 11:29 ?1007次閱讀

    神經(jīng)元的信息傳遞方式是什么

    、樹(shù)突和軸突三部分組成。 1.1 細(xì)胞體 細(xì)胞體是神經(jīng)元的中心部分,包含細(xì)胞核和其他細(xì)胞。細(xì)胞核負(fù)責(zé)控制細(xì)胞的生長(zhǎng)和分裂,其他細(xì)胞則負(fù)責(zé)細(xì)胞的代謝和能量供應(yīng)。 1.2 樹(shù)突 樹(shù)突是神經(jīng)元
    的頭像 發(fā)表于 07-03 11:27 ?1400次閱讀

    神經(jīng)元神經(jīng)網(wǎng)絡(luò)的區(qū)別與聯(lián)系

    在人工智能和機(jī)器學(xué)習(xí)的領(lǐng)域中,神經(jīng)元神經(jīng)網(wǎng)絡(luò)是兩個(gè)至關(guān)重要的概念。雖然它們都與人腦中的神經(jīng)系統(tǒng)有著密切的聯(lián)系,但在實(shí)際應(yīng)用和理論研究中,它們各自扮演著不同的角色。本文旨在深入探討神經(jīng)元
    的頭像 發(fā)表于 07-01 11:50 ?1059次閱讀
    主站蜘蛛池模板: 久久久噜噜噜久久久| 色se01短视频永久免费| 欧美三级中文字幕hd| 日本亚洲成人| 免费欧美| 国产在线精彩视频二区| 天堂成人一区二区三区| 性做久久久久久免费观看| 98色花堂国产第一页| 欧美xxx69| 亚洲成成品网站有线| 国产成人啪午夜精品网站| 欧美aaaaaaaaaa| 五月天激情开心网| 欧美三级视频网| 国产视频一区二| 天天躁狠狠躁夜夜躁| 国产午夜不卡在线观看视频666| 天天色天天干天天| 六月丁香综合网| 黄色网欧美| 张柏芝三级无删减在线观看| 四虎精品成在线播放| 两性色午夜视频免费网| www.色在线观看| 91老色批网站免费看| 丁香花五月天婷婷| 天天干夜夜操视频| 伊人色强在线网| 国产叼嘿免费视频网站| 色久优优| 女性一级全黄生活片免费看| 国产精欧美一区二区三区| 天天射天天射天天射| 啪啪午夜视频| 亚洲产国偷v产偷v自拍色戒| 五月天丁香色| 久久人视频| 特黄特黄一级高清免费大片| 黄 在线| 一级毛片成人免费看a|