在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

對于谷歌應用傳統的自動語音識別(ASR)系統的解析

zhKF_jqr_AI ? 2017-12-31 01:22 ? 次閱讀

目前,谷歌的各種語音搜索應用還在使用傳統的自動語音識別(ASR)系統,它包括一個包括聲學模型(AM )、一個發音模型(PM)和一個語言模型(LM),它們都是彼此獨立訓練的,而且需要研究人員在不同數據集上進行手動調試。例如,當聲學模型采集到一些聲波特征,它會參考上下文中的音素,有時甚至是一些無關的音素來生成一系列subword單元預測。之后,發音模型會在手工設計的詞典中為預測音素映射序列,最后再由語言模型根據序列概率分配單詞。

和聯合訓練所有組件相比,這種對各模型進行獨立訓練其實是一種次優的選擇,它會使整個過程更復雜。在過去幾年中,端對端系統開發越來越受歡迎,它們的思路是把這些獨立的組件組合成一個單一系統共同學習,但一個不可忽視的事實是,雖然端對端模型在論文中表現出了一定的希望,但沒人真正確定它們比傳統的做法效果更優。

為了驗證這一點,近日,谷歌推薦了一篇由Google Brain Team發表的新論文:State-of-the-art Speech Recognition With Sequence-to-Sequence Models,介紹了一種新的、在性能上超越傳統做法的端對端語音識別模型。論文顯示,相較于現在最先進的語音識別工具,谷歌新模型的字錯誤率(WER)只有5.6%,比前者的6.7%提升了16%。此外,在沒有任何預測評分的前提下,用于輸出初始字假設的端對端模型在體量上是傳統工具的十八分之一,因為它不包含獨立的語言模型和發音模型。

這個新模型的系統建立在Listen-Attend-Spell(LAS)端到端體系結構上,該結構由3部分組成,其中Listen組件的編碼器和標準聲學模型類似,把時頻語音信號x作為輸入,并用一組神經網絡層將輸入映射為一個高水平的表征henc。Attend接收前者編碼器的輸出,并用henc來學習輸入x和預測subword單元{yn, … y0}之間的對齊。其中每個subword單元通常是字形或詞形。組合,Attend組件將輸出傳輸給Spell組件(解碼器),它類似語言模型,能產生一組預測字詞的概率分布。

01254K933-0.png

不同于傳統的獨立訓練,LAS的所有組件都在一個單一的端到端神經網絡中聯合訓練,這意味著它更簡單方便。此外,由于LAS是一個徹底的神經網絡,所以它不需要外部增設手工組件,例如有窮狀態轉移機、lexicon或TN模型。最后,LAS不需要像傳統模型一樣用單獨系統生成的決策樹或time alignment來做Bootstrap,它可以在給定文本轉錄和相對應音頻資料的情況下直接訓練。

在論文中,谷歌大腦團隊還介紹他們在LAS中引入各類新穎的結構對神經網絡做了調整,包括改進傳遞給解碼器的attention vector,以及用更長的subword單元對網絡進行訓練(如wordpiece)。他們也用了大量優化訓練方法,其中就有使用最低錯詞率進行訓練。這些創新都是端到端模型較傳統性能提升16%的原因。

這項研究另一個值得興奮的點是多方言和多語言系統,這可能開啟一些潛在應用,由于它是一個經優化的單個神經網絡,模型的簡單性使它獨具吸引力。在LAS中,研究人員可以將所有方言、語言數據整合在一起進行訓練,而無需針對各個類別單獨設置AM、PM和LM。據論文介紹,經測試,谷歌的這個模型在7種英語方言、9種印度語言上表現良好,并超越了對照組的單獨訓練模型。

雖然這個數據結果令人興奮,但這暫時還不是一個真正成熟的工作,因為它還不能實時處理語音,而這是它被用于語音搜索的一個重大前提。此外,這些模型生成的數據和實際數據仍存在不小的差距,它們只學習了22000個音頻文本對話,在語料庫數據積累上遠比不上傳統方法。當面對一些罕見的詞匯時,比如一些人工設計的專業名詞、專有名詞,端到端模型還不能正確編寫。因此,為了讓它們能更實用、適用,谷歌大腦的科學家們未來仍將面臨諸多問題。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6168

    瀏覽量

    105372
  • 語音識別
    +關注

    關注

    38

    文章

    1739

    瀏覽量

    112656
  • 語音搜索
    +關注

    關注

    0

    文章

    6

    瀏覽量

    7822

原文標題:谷歌大腦發力語音搜索:一個用于語音識別的端到端模型

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    手機語音識別應用中DSP該怎么選擇?

      隨著DSP技術的進步,計算能力更強、功耗更低和體積更小的DSP已經出現,使3G手機上植入更精確更復雜的自動語音識別(ASR)功能成為可能。目前,基本
    發表于 09-02 07:03

    TWEN-ASR ONE 語音識別系列教程(1)——運行第一個語音程序

    文章目錄前言一、TWEN-ASR開發板介紹二、程序編寫、下載、調試三、運行測試四、總結前言????語音識別這個詞,相信大家都不陌生,現在流行的智能音箱基本都有語音
    發表于 06-16 18:10

    HarmonyOS開發-語音識別

    1. 在使用語音識別API時,將實現ASR的相關的類添加至工程。// 提供ASR引擎執行時所需要傳入的參數類import ohos.ai.asr
    發表于 03-22 09:54

    語音識別技術原理簡介

    語音識別技術原理簡介         自動語音識別技術(Auto
    發表于 03-06 10:38 ?1.1w次閱讀

    語音識別技術,語音識別技術是什么意思

    語音識別技術,語音識別技術是什么意思  語音識別技術,也被稱為
    發表于 03-06 11:16 ?2840次閱讀

    ASR語音識別技術的介紹應用和優勢及實際案例分析

    ASR(Automatic Speech Recognition) 自動語音識別技術是基于關鍵詞語列表識別的技術。每次
    發表于 10-17 08:00 ?30次下載

    ASR語音技術的原理以及未來發展趨勢分析

    自動語音識別(ASR)是一種將口語轉換為文本的過程。該技術正在不斷應用于即時通訊應用程序、搜索引擎、車載系統和家庭
    發表于 03-21 10:35 ?4141次閱讀

    LU-ASR01語音識別模塊使用說明

    模塊語音識別LU-ASR01智能控制聲控圖形編程零基開發板使用說明。
    發表于 04-13 09:10 ?224次下載

    探索自動語音識別技術的獨特應用

      自動語音識別ASR )正在成為日常生活的一部分,從與數字助理交互到聽寫文本信息。由于以下方面的最新進展, ASR 研究繼續取得進展:
    的頭像 發表于 10-11 09:55 ?905次閱讀

    解決自動語音識別部署難題

    成功部署自動語音識別ASR )應用程序可能是令人沮喪的體驗。例如,考慮到存在許多不同的方言和發音, ASR
    的頭像 發表于 10-11 10:56 ?993次閱讀
    解決<b class='flag-5'>自動</b><b class='flag-5'>語音</b><b class='flag-5'>識別</b>部署難題

    什么是自動語音識別ASR)?如何使用深度學習和GPU加速ASR

    ASR 是自然語言中一項頗具挑戰性的任務,它由語音分割、聲學建模和語言建模等一系列子任務組成,根據噪聲和未分割的輸入數據形成預測(標簽序列)。
    發表于 02-28 15:01 ?5610次閱讀
    什么是<b class='flag-5'>自動</b><b class='flag-5'>語音</b><b class='flag-5'>識別</b>(<b class='flag-5'>ASR</b>)?如何使用深度學習和GPU加速<b class='flag-5'>ASR</b>

    ASR語音識別技術應用

    語音識別技術應用的分析: 一、ASR語音識別技術原理 ASR
    的頭像 發表于 11-18 15:12 ?633次閱讀

    ASR在智能家居中的應用

    隨著科技的飛速發展,人工智能技術(AI)已經滲透到我們生活的方方面面,其中自動語音識別(Automatic Speech Recognition,簡稱ASR)技術在智能家居領域的應用尤
    的頭像 發表于 11-18 15:15 ?466次閱讀

    ASR和機器學習的關系

    自動語音識別ASR)技術的發展一直是人工智能領域的一個重要分支,它使得機器能夠理解和處理人類語言。隨著機器學習(ML)技術的迅猛發展,ASR
    的頭像 發表于 11-18 15:16 ?324次閱讀

    ASR傳統語音識別的區別

    ASR(Automatic Speech Recognition,自動語音識別)與傳統語音
    的頭像 發表于 11-18 15:22 ?464次閱讀
    主站蜘蛛池模板: 91黄色影院| 国产chinesehd精品酒店| 在线另类| 一本到卡二卡三卡视频| 久久免费看| 加勒比一区二区| 免费人成在线观看网站| 天天拍天天操| 日韩高清成人毛片不卡| 欧美色欧美亚洲高清在线视频| 伊人一区二区三区| 毛片免| 日本夜夜操| 抽搐一进一出gif免费男男| 男女爱爱免费高清| 欧美疯狂爱爱xxxxbbbb| 精品国产污污免费网站入口| 免费三级黄色| 九九精品在线观看| 亚洲国产成人久久77| 成人欧美一区二区三区视频| 国产午夜小视频| 亚洲第一看片| 99se亚洲综合色区| 69 hd xxxx日本| 欧美日韩高清一本大道免费| 手机看片国产免费永久| www色在线| 丁香五六月婷婷| 91拍拍在线观看| 美剧免费在线观看| 国产午夜爽爽窝窝在线观看| 五月激情五月婷婷| 五月天丁香婷婷综合| 美女扒开尿口给男人桶动态图| 婷婷综合久久中文字幕| freesexvideo性残疾| 亚洲先锋资源| 噜噜吧噜噜色| 6080午夜| 女人夜夜春|