在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

能夠直接翻譯兩種語言間語音的模型

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2021-10-26 15:57 ? 次閱讀

語音轉語音翻譯 (S2ST) 是打破世界各地人與人之間語言障礙的關鍵。自動 S2ST 系統通常由語音識別、機器翻譯和語音合成子系統級聯組成。然而,此類級聯系統可能會面臨較長的延遲、信息(尤其是副語言和非語言信息)丟失,以及各子系統之間的錯誤疊加等問題。

2019 年,我們推出了 Translatotron,這是首款能夠直接翻譯兩種語言間語音的模型。此款直接 S2ST 模型能夠有效地進行端到端訓練,并擁有一個獨特功能——在生成的翻譯語音中保留源說話者聲音(非語言信息)。

Translatotron

https://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html

不過,盡管該模型能夠生成聽起來自然的高保真翻譯語音,但與強大的基準級聯 S2ST 系統(例如,由語音轉文字直接翻譯模型[1、2]和 Tacotron 2 TTS 模型組成的系統)相比,其表現仍然欠佳。

1

https://arxiv.org/abs/1703.08581

2

https://arxiv.org/abs/1811.02050

Tacotron 2

https://ai.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html

在“Translatotron 2:穩健的語音轉語音直接翻譯 (Translatotron 2:Robust direct speech-to-speech translation)” 一文中,我們介紹了 Translatotron 的一個改進版本。該版本的表現得到顯著提高,同時我們還應用了一種新的方法來將源說話者的聲音轉換到翻譯的語音中。即使輸入語音中存在多位說話者輪流說話的情況,經過修訂的語音轉換方法也能取得成功,同時還能減少濫用的可能性,并且更加符合我們的 AI 原則。使用三個不同語料庫進行的實驗一致表明,Translatotron 2 在翻譯質量、語音自然度和語音穩健性方面的表現明顯優于原始版本 Translatotron。

Translatotron 2:穩健的語音轉語音直接翻譯

https://arxiv.org/abs/2107.08661

AI 原則

https://ai.google/responsibilities/

Translatotron 2

Translatotron 2 由四個主要組件組成:語音編碼器、目標音素 (Phoneme) 解碼器、目標語音合成器,以及將它們連接起來的注意力模塊。編碼器、注意力模塊和解碼器的組合類似于典型的語音轉文字直接翻譯 (ST) 模型。合成器則使用編碼器和注意力模塊的輸出作為條件。

Translatotron 2 的模型架構

(將西班牙語語音翻譯為英語語音)

相較于 Translatotron ,Translatotron 2 的更高表現主要源于以下三點新變化:

1. 盡管在原始版本 Translatotron 中,目標音素解碼器的輸出僅用作輔助損失使用,但在 Translatotron 2 中,它是聲譜圖合成器的輸入之一。這一強大條件使 Translatotron 2 更易于訓練,且表現更好。

2. 與 Tacotron 2 TTS 模型類似,原始版本 Translatotron 中的聲譜圖合成器基于注意力,因此其也存在類似 Tacotron 2 所表現出的穩健性問題。相比之下,Translatotron 2 中使用的是基于持續時間的聲譜圖合成器(類似于 Non-Attentive Tacotron 使用的聲譜圖合成器),這能夠大大提高合成語音的穩健性。

3. Translatotron 和 Translatotron 2,都使用基于注意力的連接到編碼的源語音。然而,在 Translatotron 2 中,這種基于注意力的連接由音素解碼器而非聲譜圖合成器驅動,這確保了聲譜圖合成器所獲取的聲學信息與其合成的翻譯內容相一致,從而有助于在不同說話者輪流說話時保留每位說話者的聲音。

更強大、更負責任的聲音保留

原始版本 Translatotron 能夠在生成的翻譯語音中保留源說話者的聲音,方法是將其解碼器限定于由單獨訓練的說話者編碼器生成的說話者嵌入向量之上。然而,如果使用目標說話者的錄音片段作為說話者編碼器的參考音頻,或者目標說話者的嵌入向量直接可用,則這種方法還能以不同說話者的聲音生成翻譯后的語音。雖然這一功能非常強大,但有可能遭到濫用,如使用任意內容制作欺詐音頻,這會給生產部署帶來問題。

為解決這一問題,Translatotron 2 這樣設計:只使用一個語音編碼器,該編碼器同時負責語言理解和語音錄制。這樣,訓練后的模型便無法用于重現非源語音。這種方法也可以應用于原始版本 Translatotron。

為了在翻譯過程中保留說話者的聲音,研究人員通常傾向于使用兩端都是同一位說話者聲音的平行說話內容來訓練 S2ST 模型。這樣一個兩邊都有人類錄音的數據集很難收集,因為它需要大量流利的雙語使用者。為了避免這一難題,我們使用了 PnG NAT 的修改版本,這是一種能夠跨語言語音轉換來合成此類訓練目標的 TTS 模型。我們的修改版 PnG NAT 模型采用了與舊版 TTS 工作方式相同(即使用的策略與原始版本 Translatotron 相同)的單獨訓練的說話者編碼器,因此能夠實現零樣本語音傳輸。

舊版 TTS 工作方式

https://arxiv.org/abs/1806.04558

以下是使用 Translatotron 2 進行語音轉語音直接翻譯的示例,其中保留了源說話者的聲音:

輸入(西班牙語):

TTS 合成的參考音頻(英語):

Translatotron 2 預測(英語):

Translatotron 預測(英語):

當輸入語音包含多個說話者輪流說話時,為了使 S2ST 模型能夠在翻譯后的語音中保留每個說話者的聲音,我們提出了一種簡單的基于串聯的數據增強技術,稱為 ConcatAug。該方法會對成對的訓練示例隨機采樣,并將源語音、目標語音和目標音素序列串聯成新的訓練示例,以增強訓練數據。由此得到的樣本在源語音和目標語音中都包含兩位說話者的聲音,這使模型能夠根據不同說話者輪流說話的示例進行學習。以下來自 Translatotron 2 的音頻樣本展示了不同說話者輪流說話的場景:

輸入(西班牙語):

TTS 合成的參考音頻(英語):

Translatotron 2(采用 ConcatAug)預測(英語):

Translatotron 2(未采用 ConcatAug)預測(英語):

點擊此處獲取更多音頻樣本。

此處

https://google-research.github.io/lingvo-lab/translatotron2/

表現

在我們衡量的各個方面,Translatotron 2 的表現都大大優于原始版本 Translatotron:更高的翻譯質量(以 BLEU 衡量,數值越高越好),更好的語音自然度(以 MOS 衡量,數值越高越好),以及更強的語音穩健性(以 UDR 衡量,數值越低越好)。它在難度更大的 Fisher 語料庫上表現尤為出色。Translatotron 2 在翻譯質量和語音質量方面的表現接近強大的基準級聯系統,并且在語音穩健性方面優于級聯基準。

UDR

https://arxiv.org/abs/2010.04301

Fisher 語料庫

https://catalog.ldc.upenn.edu/LDC2014T23

使用兩個西班牙語-英語語料庫評估的翻譯質量

(以 BLEU 衡量,數值越高越好)

使用兩個西班牙語-英語語料庫評估的語音自然度

(以 MOS 衡量,數值越高越好)

使用兩個西班牙語-英語語料庫評估的語音穩健性

(以 UDR 衡量,數值越低越好)

多語言語音翻譯

除了西班牙語到英語的 S2ST,我們還評估了 Translatotron 2 在多語言情境中的表現,該模型接收四種不同語言的語音輸入并將其翻譯為英語。由于事先未提供輸入語音的語言,這迫使模型需要自行檢測語言。

源語言frdeesca

Translatotron 2 27.018.827.722.5

Translatotron18.910.818.813.9

ST(Wang

等人,2020)27.018.928.023.9

訓練目標 82.186.085.189.3

使用 CoVoST 2 語料庫評估的多語言 X=》En S2ST 表現

Wang 等人

https://arxiv.org/abs/2007.10310

CoVoST 2

https://arxiv.org/abs/2007.10310

在此任務中,Translatotron 2 的表現同樣明顯優于原始版本 Translatotron。盡管 S2ST 和 ST 之間的結果沒有直接可比性,但接近的數字表明Translatotron 2的翻譯質量與基準語音轉文字翻譯模型相當。這些結果表明,Translatotron 2 在多語言 S2ST 上也非常有效。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語音
    +關注

    關注

    3

    文章

    385

    瀏覽量

    38061
  • AI
    AI
    +關注

    關注

    87

    文章

    30998

    瀏覽量

    269328
  • 模型
    +關注

    關注

    1

    文章

    3254

    瀏覽量

    48889

原文標題:Translatotron 2:高質量、穩健、負責任的語音轉語音直接翻譯

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一文理解多模態大語言模型——下

    /understanding-multimodal-llms ? 《一文理解多模態大語言模型 - 上》介紹了什么是多模態大語言模型,以及構建多模態 LLM 有
    的頭像 發表于 12-03 15:18 ?136次閱讀
    一文理解多模態大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>——下

    語音識別與自然語言處理的關系

    在人工智能的快速發展中,語音識別和自然語言處理(NLP)成為了個重要的技術支柱。語音識別技術使得機器能夠理解人類的
    的頭像 發表于 11-26 09:21 ?427次閱讀

    PCM5242 OUT LN和OUT LP之間能夠直接接16-32Ω的耳機,能夠驅動嗎?

    PCM5242數據表中的說的 輸出4.2-VRMS 這個指的是 OUT LN 和OUT LP之間的電壓還OUT LN 和GND 的之間的電壓?OUT LN和OUT LP之間能夠直接接16-32Ω的耳機,能夠驅動嗎?
    發表于 10-25 06:46

    請問如何將HSPICE和 IBIS兩種模型怎么轉換成TINA軟件中用?

    TI網站里,給出了一些期間的HSPICE和IBIS模型,但是現有的仿真工具 只有TINA這種,請問如何將HSPICE和 IBIS兩種模型怎么轉換成TINA軟件中用? 請高手給予解答。感謝!
    發表于 09-02 07:56

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    的表達方式和生成能力。通過預測文本中缺失的部分或下一個詞,模型逐漸掌握語言的規律和特征。 常用的模型結構 Transformer架構:大語言模型
    發表于 08-02 11:03

    DeepL推出新一代翻譯編輯大型語言模型

    在人工智能與語言處理領域,DeepL再次以其創新實力引領潮流,宣布成功推出新一代面向翻譯與編輯應用的大型語言模型。這一里程碑式的進展,不僅鞏固了DeepL作為頂尖
    的頭像 發表于 07-19 15:56 ?684次閱讀

    超ChatGPT-4o,國產大模型竟然更懂翻譯,8款大模型深度測評|AI 橫評

    隨著AI工具的不斷增多,各家模型的能力也日益提升,現在無論哪款大模型幾乎都能夠處理各種翻譯難題。在AI浪潮當下,越來越多的論文和前沿信息需要快速翻譯
    的頭像 發表于 07-14 08:04 ?128次閱讀
    超ChatGPT-4o,國產大<b class='flag-5'>模型</b>竟然更懂<b class='flag-5'>翻譯</b>,8款大<b class='flag-5'>模型</b>深度測評|AI 橫評

    求助,TTS能夠直接使用IO口輸出到PA嗎?

    TTS能夠直接使用IO口輸出到PA嗎?不經過I2C和I2S解碼芯片
    發表于 06-28 06:02

    語言模型(LLM)快速理解

    歷史可以追溯到早期的語言模型和機器翻譯系統,但其真正的起點可以說是隨著深度學習技術的興起而開始。1.1統計語言模型在深度學習技術出現之前,
    的頭像 發表于 06-04 08:27 ?1001次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>(LLM)快速理解

    【大語言模型:原理與工程實踐】大語言模型的應用

    丹尼爾·卡尼曼在《思考,快與慢》中提出了著名的“系統1與系統2”理論。該理論指出,人類大腦的決策系統存在兩種模式:一是快速的、感性的系統1,它幫助我們處理簡單的決策;另一是緩慢的、理性的系統2
    發表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的評測

    的作用。同時,模型在多語言方面的表現直接決定了其在全球范圍內的適用性和普及度。為了全面評估大語言模型
    發表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    的,與上下文語境無關,因此不適用于一詞多義的情況。例如,“蘋果”在“我去吃個蘋果”與“這個蘋果手機好用嗎”這個句子中的語義明顯不同,但靜態詞向量語言模型僅利用同一個向量表示詞的語義,難以刻畫同一個詞在
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    ,大語言模型還具備出色的關聯和關系理解能力,能夠捕捉數據的隱含關系和語義聯系,進行高級關聯推理。它還支持多步推理,能在推理過程中進行多個步驟的演繹和分析。最后,通過學習大規模數據,大
    發表于 05-04 23:55

    你好 tms570能夠直接運行在片內 sram上嗎?

    你好 tms570能夠直接跑在sram上嗎? 從flash加載程序1之后,程序1把程序2搬移到sram中,然后在sram中運行程序。TMS570支持這樣運行不?
    發表于 01-19 09:24

    重塑翻譯與識別技術:開源語音識別模型Whisper的編譯優化與部署

    模型介紹Whisper模型是一個由OpenAI團隊開發的通用語音識別模型。它的訓練基于大量不同的音頻數據集,是一個多任務模型,可以執行
    的頭像 發表于 01-06 08:33 ?3701次閱讀
    重塑<b class='flag-5'>翻譯</b>與識別技術:開源<b class='flag-5'>語音</b>識別<b class='flag-5'>模型</b>Whisper的編譯優化與部署
    主站蜘蛛池模板: 日本黄色免费在线观看| 久久人人做人人玩人精品| 欲色综合| 一级做a爱过程免费视| 九九九国产在线| 在线黄色免费网站| 香蕉爱爱视频| 三级网在线| 免费观看黄色在线视频| 黄色免费小视频| 国产精品国产主播在线观看| 成人亚洲网| 午夜100| 女同久久| 欧美yw193.c㎝在线观看| 午夜嘿嘿| 亚洲成a人片在线观看尤物| 三级网址在线| 狠狠色丁香六月色| 中文字幕自拍| 欧美午夜精品久久久久久黑人| 成人黄色在线| 视频在线二区| 五月婷婷综合色| 免费看 s色| 自拍偷拍福利视频| 黄色成人免费网站| 亚洲一级免费视频| 亚洲成年人在线| 久久伊人男人的天堂网站| 18视频免费网址在线观看| 久久久久久全国免费观看| xxxx日本69| 亚洲成熟| 美女视频一区| 一级美女视频| 大桥未久加勒比女热大陆在线| 亚洲福利秒拍一区二区| 婷婷综合久久中文字幕蜜桃三| 免费在线观看你懂的| 又黄又湿又爽吸乳视频|