在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

更改CTC規則以減少訓練和解碼中的內存消耗

星星科技指導員 ? 來源:NVIDIA ? 作者:Aleksandr Laptev ? 2022-10-11 11:19 ? 次閱讀

訓練自動語音識別( ASR )模型的損失函數并不是一成不變的。舊的損失函數規則不一定是最優的。考慮一下 connectionist temporal classification ( CTC ),看看改變它的一些規則如何能夠減少 GPU 內存,這是訓練和推斷基于 CTC 的模型所需的內存,等等。

聯結主義時間分類綜述

若你們要訓練一個 ASR 模型,無論是卷積神經網絡還是遞歸神經網絡、transformer 還是組合,你們很可能是用 CTC 損失訓練它。

CTC 簡單方便,因為它不需要每幀關于“什么聲音何時發音”(所謂的音頻文本時間對齊)的信息。在大多數情況下,這種知識是不可用的,就像在一個典型的 ASR 音頻數據集中,關聯文本沒有時間標記。

真正的時間校準并不總是微不足道的。假設大部分錄音沒有講話,結尾只有一個簡短短語。 CTC 損失并不能告訴模型何時準確地發出預測。相反,它允許每一種可能的對齊,并且只調整這些對齊的形式。

下面是 CTC 如何管理所有可能的方式來將音頻與文本對齊。

首先,對目標文本進行標記化,即將單詞切成字母或單詞片段。結果單元的數量(無論它們是什么)應小于音頻“時間段”的數量:長度為 0.01 到 0.08 秒的音頻段。

如果時間段少于單位,則算法失敗。在這種情況下,你應該縮短時間。否則,只有 RNN 傳感器可以挽救您。如果時間框架與單位一樣多,那么只能有一個對齊(百萬分之一的情況)。

大多數時候,時間段比單位要長得多,因此一些幀沒有單位。對于這種空幀, CTC 有一個特殊的 單元。本單元告訴您,在這個特定的框架下,模型沒有任何內容可以提供給您。這可能是因為沒有演講,或者模型太懶,無法預測有意義的東西。 CTC 最重要的規則 提供了如果模型不想做什么也不能預測的能力。

其他規則與單元延續有關。假設您的單元是一個持續時間超過一幀的元音。模型應在兩幀中的哪一幀上輸出單元? CTC 允許在多個連續幀上進行相同的單位發射。但是,應該將相同的連續單元合并為一個單元,以將識別結果轉換為一系列類似文本的單元。

現在,如果標記化文本本身包含相同的重復單位,如“ ll ”或“ pp ”,該怎么辦?如果不進行處理,這些單元將合并為一個單元,即使它們不應該合并。對于這種特殊情況, CTC 有一條規則,如果目標文本有重復的單位,那么在推理過程中這些單位必須用 分隔。

綜上所述,在幾乎每一幀中,模型都可以從上一幀 發射相同的單元,或者如果下一幀與上一幀不同,則可以發射下一個單元。這些規則比 規則更為復雜,對于反恐委員會來說,它們并不完全必要。

反恐委員會的執行

以下是如何表示 CTC 損失。與機器學習中的大多數損失函數一樣,它通常表示為一個動態算法,將這些規則應用于訓練語句或模型的 softmax 輸出。

在訓練中,損失值和梯度由適用于 CTC 規則的 Baum–Welch algorithm 根據所有可能路線的條件概率計算得出。 CTC 實現通常有數百到數千行代碼,很難修改。

幸運的是,還有另一種執行反恐委員會的方法。除了其他應用領域外,加權有限狀態傳感器( WFST )方法允許模型將動態算法表示為一組圖形和相關圖形操作。這種方法使您能夠通過將 CTC 規則應用于特定的音頻和文本,并通過計算損失和梯度來解耦 CTC 規則。

CTC WFST 應用程序

有了 WFST ,您可以輕松地采用 CTC 規則,并使用不同的標準,如最大互信息( MMI )。這些模型通常具有比 CTC 模型更低的字錯誤率( WER )。 MMI 將先前的語言信息納入培訓過程。

與 CTC 相比, MMI 不僅最大化了最可行路徑的概率,而且最小化了其他路徑的概率。為此, MMI 有一個所謂的分母圖,它可以在訓練期間占用大量 GPU 內存。幸運的是,可以修改一些 CTC 規則以減少分母內存消耗,而不會影響語音識別的準確性。

此外, CTC 規則的 WFST 表示,或所謂的 topology ,可用于對 CTC 模型進行 WFST 解碼。為此,您可以將 N -gram 語言模型轉換為 WFST 圖,并將其與拓撲圖組合在一起。生成的解碼圖可以傳遞給,例如, Riva CUDA WFST Decoder 。

解碼圖可能很大,以至于無法放入 GPU 內存。但通過一些 CTC 拓撲修改,您可以減少 CTC 的解碼圖形大小。

CTC 拓撲

圖 1 顯示了 CTC 拓撲, Correct CTC 。這是一個帶自循環的有向完整圖,因此對于 N 單元(包括空白),有 N 狀態和弧的平方數。

正確的反恐委員會是最常用的反恐委員會代表。看看這個拓撲產生的典型大小。對于 LibriSpeech 4 字語言模型和 256 個模型詞匯單元,解碼圖大小為~ 16Gb 。對于型號詞匯表大小為 2048 的 32Gb GPU ,僅當批次大小為 1 時,才可以進行冷啟動 MMI 培訓。

pYYBAGNE4KeAIR2SAABkOZo58fQ220.png

圖 1.三單元詞匯表的正確 CTC 示例:《 blank 》、 a 和 B

通過刪除一些 CTC 規則來減少 Correct CTC 引起的內存消耗。首先,使用 刪除重復單元的強制分隔。如果沒有這個規則,您最終會得到一個名為 CompactCTC 的拓撲(圖 2 )。它有 3 個 N – 2 個弧用于 N 單元。

poYBAGNE4KiAVCoDAABMwGpmxHU560.png

圖 2.緊湊型 CTC 示例

盡管有純

latex.php?latex=%5Cepsilon&bg=ffffff&fg=000&s=0&c=20201002

(虛擬)弧,但這種拓撲結構可用于訓練和解碼,不會對識別質量產生負面影響。如果您想知道這是如何工作的,請參閱 CTC Variations Through New WFST Topologies 或 執行 NVIDIA NeMo 。

使用 Compact CTC 的解碼圖形大小比使用 Correct CTC 的小四分之一。它還需要 2x 更少的 GPU 內存用于 MMI 訓練。

現在在多個連續幀上丟棄相同的單位發射,只保留 規則。這樣,您得到的拓撲只有一個狀態和 N 單元的 N 弧。

這是可能的最小 CTC 拓撲,所以我們稱之為最小 CTC (圖 3 )。它需要更少的 GPU 內存用于 MMI 訓練(與 Correct CTC 相比減少了 4 倍),但與基線相比,使用 Minimal CTC 拓撲的 MMI 訓練模型的精度會降低。

最小的拓撲還產生最小的解碼 WFST ,其大小為基線圖的一半。用 Minimal CTC 編譯的解碼圖與用 Correct CTC 或 Compact CTC 構建的模型不兼容。

pYYBAGNE4KiARRqzAAAyO9aVCPM137.png

圖 3.最小 CTC 示例

最后,我回到了 Correct CTC ,但這次離開了強制分離重復單元,并放棄了單元繼續。名為 Selfless CTC 的拓撲結構旨在彌補 Minimal CTC 的缺點。

圖 1 和圖 4 顯示, Correct CTC 和 Selfles CTC 僅在非 自我循環中有所不同。這兩種拓撲結構還提供了相同的 MMI 模型精度,如果模型具有較長的上下文窗口,則可以提供更好的精度。然而, Selfless CTC 在解碼時也與 Minimal CTC 兼容。通過 Minimal CTC ,您只需增加 0.2% 的 WER ,即可將圖形大小減少 2 倍。

poYBAGNE4KmAB21gAAEQ9NSYTg8888.png

圖 4.Selfless CTC 示例;基于正確的 CTC

結論

有幾個技巧可以提高性能:

在解碼圖構造和 MMI 訓練中,使用 Compact CTC 代替 Correct CTC 。

為了最大程度地減小解碼圖形的大小,請使用 Selfles CTC 訓練您的模型,并使用 Minimal CTC 解碼。

損失函數不是一成不變的:嘗試使用現有損失函數的 WFST 表示法并創建新的表示法。這很有趣!

關于作者

Aleksandr Laptev 是 ITMO 大學的博士生,也是 NVIDIA 的高級研究科學家。他的科學興趣是自動語音識別、語音合成( TTS )和自然語言處理。他撰寫開放獲取科學文章,為開放源代碼軟件做出貢獻,并參加國際語音識別比賽。他目前的研究領域是可微加權有限狀態傳感器。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5021

    瀏覽量

    103261
  • 語音識別
    +關注

    關注

    38

    文章

    1742

    瀏覽量

    112719
收藏 人收藏

    評論

    相關推薦

    示波器全內存解碼的奧秘

    應該減少時基),就能回歸最佳解碼狀態。這也是第二點描述的全內存解碼約束。  我們是怎么做到既抱著魚又把熊掌吃到的?  保持
    發表于 11-27 22:31

    PCB規則以及異形板拼板教材

    PCB規則以及異形板拼板教材
    發表于 07-25 10:06

    語音編碼和解碼免費Speex音頻編解碼器的微控制器

    良好的聲音質量,語音編碼和解碼免費Speex音頻編解碼器的微控制器
    發表于 05-29 11:52

    如何去減少語音解碼設計的動態功耗?

    如何去減少語音解碼設計的動態功耗?
    發表于 06-04 06:27

    如何在CubeIDE更改內存區域?

    如果我需要更改項目中的內存區域(例如,對于只讀內存,我需要 0x8080000 開始,0x40000 大小),我該如何在 CubeIDE 執行?(補充)我找到了構建分析器,但字段不可
    發表于 01-16 07:09

    減少電流消耗的技巧和竅門有哪些?

    據我所知,CPU 在使用 I2C 時在空閑和活動之間切換(如果我錯了請糾正我),這反過來會消耗相當大的功率(大約為 20-30 mA,具體取決于模塊)。就我而言,在 I2C 通信期間實現低電流消耗的唯一方法是使用 ULP。除了使用 ULP 之外,還有其他
    發表于 04-12 06:34

    解碼會占用多少內存?使用vpp進行圖像處理最大可能會消耗多少內存

    解碼會占用多少內存?使用vpp進行圖像處理,最大可能會消耗多少內存
    發表于 09-19 07:24

    LC7461紅外遙控器和解碼程序

    LC7461紅外遙控器和解碼程序 //遙控解碼子程序,LC7461,用戶碼為11C//external interrupt0
    發表于 11-28 10:59 ?1849次閱讀

    什么是音頻的編碼和解碼/HZ(赫茲)

    什么是音頻的編碼和解碼/HZ(赫茲)    編碼和解碼:在數字音頻技術,用數字大小來代替聲音強弱高低的模擬電壓,并對音頻
    發表于 02-05 11:28 ?1632次閱讀

    圖像壓縮編碼和解碼原理

    圖像壓縮編碼和解碼原理 本節介紹圖像壓縮
    發表于 09-27 08:45 ?4379次閱讀
    圖像壓縮編碼<b class='flag-5'>和解碼</b>原理

    音頻編碼和解碼原理

    音頻編碼和解碼原理 每張CD光盤重放雙聲道立體聲信號可達74分鐘。VCD視盤機要
    發表于 09-27 08:52 ?6831次閱讀
    音頻編碼<b class='flag-5'>和解碼</b>原理

    基于STM32的BMP圖片解碼系統

    設計了一種基于 STM32 處理器的便攜式 BMP 圖片解碼系統。在設計過程采用了從SD卡讀取編碼的同時同步解碼的方法,有效地減少了系統
    發表于 05-30 16:06 ?263次下載
    基于STM32的BMP圖片<b class='flag-5'>解碼</b>系統

    如何改進光耦電路 減少電流消耗

    本設計方案闡述了一個簡單改進光耦電路的方法。減少電流消耗
    發表于 03-15 11:23 ?3362次閱讀
    如何改進光耦電路 <b class='flag-5'>減少</b>電流<b class='flag-5'>消耗</b>

    Linux進程的內存消耗和泄漏詳解

    當我們評估進程消耗多少內存時,就是指在用戶空間消耗內存,即虛擬地址在0~3G的部分,對應的物理地址內存。內核空間的
    的頭像 發表于 05-14 10:07 ?2703次閱讀
    Linux進程的<b class='flag-5'>內存</b><b class='flag-5'>消耗</b>和泄漏詳解

    解決USB音頻DAC和解碼器設計的計數錯誤

    電子發燒友網站提供《解決USB音頻DAC和解碼器設計的計數錯誤.pdf》資料免費下載
    發表于 10-21 10:03 ?0次下載
    解決USB音頻DAC<b class='flag-5'>和解碼</b>器設計<b class='flag-5'>中</b>的計數錯誤
    主站蜘蛛池模板: 色又色| 午夜三级视频| 福利影院在线| 5060精品国产福利午夜| 4438x亚洲最大| 亚洲成成品网站有线| 啪一啪日一日| 日本在线不卡一区| 最新日韩中文字幕| 五月激情综合| 最近高清免费观看视频大全| 丁香综合| 午夜特级毛片| 欧美一级免费看| 最近在线观看免费完整视频| 在线亚洲一区| 国产在线欧美精品卡通动漫| 亚洲高清免费在线观看| 色久月| 久久大伊人| 在线视频 亚洲| 美女天天操| 69日本xxxxxxxxx19| 最新天堂| 人与牲动交bbbbxxxx| 国产手机在线国内精品| 亚洲天堂va| 狠狠久| 亚色最新网址| 性69交片免费看| 女人张开腿等男人桶免费视频| 国产精品三级在线播放| 天天弄| 欧美中出| 亚洲天堂最新地址| 欧美一区二区高清| 俺去俺来也www色官网免费的| 免免费看片| 欧美日本一区二区三区生| 三级视频网站| 成年大片免费视频播放手机不卡 |