在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

百度研究院推出了他們有關TTS的成果——ClariNet

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-07-26 09:12 ? 次閱讀

語音合成,也被稱作TTS(text-to-speech),該技術的應用目前已十分廣泛了,例如智能家居設備和智能助手等,論智也曾報道過很多相關研究項目。

百度研究者利用少量樣本實現語音克隆

谷歌發布新語音合成模型Tacotron 2:這竟是機器說的話?

谷歌大腦發力語音搜索:一個用于語音識別的端到端模型

近日,百度研究院推出了他們有關TTS的成果——ClariNet,成為百度在TTS研究上的又一里程碑。此前基于神經內網絡的TTS模型是將優化的文本到聲譜圖和波形合成模型分開來的,這可能會導致不理想的表現。而ClariNet第一次做到了用完全的端到端TTS模型,直接將文本轉換成波形圖,并且只需要一個神經網絡即可。它的全卷積結構能夠從零開始快速地訓練。ClariNet在語音的自然度方面成功地超越了其他方法。以下是論智對這篇論文的編譯。

論文摘要

WaveNet是DeepMind去年推出的基于深度學習的語音生成模型,它可以生成平行的語音波形,即整個句子中所有的詞語都可以同時生成對應的波形。現在,我們提出了一種替代WaveNet的方法,我們從自回歸的WaveNet中提取一個高斯逆自回歸流(Gaussian Inverse autoregressive flow),并且以閉合形式計算KL散度,簡化了訓練算法并且提供了非常高效的蒸餾過程。除此之外,我們還提出了首個針對語音合成的文本到波形的神經架構(text-to-wave),這是全卷積的,并且可以快速地從零開始進行端到端訓練。除此之外,我們還成功地在模型的隱藏表示中創建了并行波形生成器。

并行波形生成

在模型中,我們用高斯自回歸WaveNet作為“老師網絡”,將高斯逆自回歸流作為“學生網絡”。2018年,Oord等人提出了概率密度蒸餾法來降低逆自回歸流(IAF)的最大可能學習中的難度。蒸餾過程中,學生網絡IAF試著將它自己的樣本分布與在自回歸的WaveNet中訓練的樣本相匹配。然而,學生網絡IAF的輸出邏輯分布和教師網絡WaveNet的輸出之間的KL散度是不相容的,必須使用蒙特卡羅方法進行大概計算。而最終并行的WaveNet需要在蒸餾過程中進行雙次采樣:首先要將白噪聲輸入到學生網絡中,然后從學生網絡的輸出分布中選擇多個不同樣本對KL散度進行估計。

但是在我們的模型中,加入了高斯設置,密度蒸餾方法只需要一個白噪聲樣本,然后將其輸入封閉的KL散度計算中。我們的學生IAF網絡在蒸餾過程中和老師WaveNet使用同一個條件網絡(2D卷積層)。

Text-to-Wave架構

我們的卷積text-to-wave架構如下圖所示:

它是基于另一個基于注意力的卷積TTS模型——Deep Voice 3創建的。Deep Voice 3能夠將文本特征(例如字符、音素、強調等)轉換成波譜特征(例如log-mel聲譜和log-linear聲譜)。這些波普特征可以輸入到訓練波形合成的模型中,例如WaveNet。相反,我們直接將從注意力機制中學習到的隱藏表示輸入到神經語音編碼器中,用端到端的方式從零訓練整個模型。

我們所提出的架構包含四個部分:

編碼器:一個和Deep Voice 3相同的編碼器,它可以將文本特征編寫進內部的隱藏表示。

解碼器:同樣和Deep Voice 3相同,可以用自回歸的方式將編碼器中的內容加碼城log-mel聲譜。

Bridge-net:這是一個卷積中間處理模塊,它可以從解碼器中處理隱藏表示,并且預測log-linear聲譜。與解碼器不同的是,它并非是因果聯系的,并且可以使用未來的語境。另外,它還可以從框架層到采樣層對隱藏表示進行上采樣。

語音編碼器:高斯自回歸WaveNet可以合成波形,但是只能在上采樣后的隱藏表示中實現。而它可以由自回歸語音編碼器的學生IAF網絡替換。

實驗過程

我們進行了幾組實驗來評估所提出的并行波形生成方法和text-to-wave結構。我們用了20個小時的英文演講作為訓練數據,下采樣后音頻變為24kHz。

首先我們測試了生成語音的自然程度,用MOS分數表示:

結果表示,高斯自回歸WaveNet和MoGul以及softmax輸出水平相當,比MoL要好。

接著我們將一個60層的并行學生網絡從20層的高斯自回歸WaveNet中進行蒸餾,它包括6個堆疊的高斯逆自回歸流,每個流都由一個10層的WaveNet進行參數化。我們測試了前向和逆向KL散度,結果如下:

兩種蒸餾方法都得到了不錯的分數,我們希望未來加入感知和對比損失后會進一步提升。

最后我們從零訓練了text-to-wave模型,并將其與Deep Voice 3中的同類模型相比,結果如下:

該分數表明text-to-wave模型明顯比其他模型表現得好,并且有經過蒸餾的語音編碼器的模型呢自回歸神經編碼器的表現水平相當。

結語

百度在語音合成方面的確做出了許多努力,今年三月,他們還推出了神經語音克隆系統,只需輸入少量樣本就能合成逼真語音。而今天的ClariNet是語音合成的又一里程碑,是該領域第一個真正的端到端模型,在GPU上取得了更高質量的結果。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3650

    瀏覽量

    134761
  • 百度
    +關注

    關注

    9

    文章

    2272

    瀏覽量

    90490
  • 深度學習
    +關注

    關注

    73

    文章

    5507

    瀏覽量

    121291

原文標題:語音合成的里程碑:百度推出首個完全端到端的TTS模型

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    中馬研究院正式掛牌成立

    `  12月30日下午,中馬研究院于園區正式掛牌成立,園區管委會副主任楊健豪、主任助理曹全來出席并為研究院揭牌,園區管委會經濟發展局全體成員見證揭牌。  中馬研究院旨在打造“立足中馬、面向東盟的新型
    發表于 01-07 16:02

    百度深度學習研究院科學家深度講解人工智能

    的研發經驗。在過去的工作中,他發表過論文十余篇,申請中國專利超過100項,其中已經授權的有95項。他曾任職百度深度學習研究院,負責人臉識別方向,曾經多次帶領團隊在主流的人臉檢測、人臉識別競賽上取得
    發表于 07-19 10:01

    百度深度學習研究院科學家分享:機器視覺開發實戰經驗

    其實就是計算機科學的一個分支,將來也是會成為人類社會基礎設施的一部分。現在我們邀請來百度深度學習研究院科學家,為大家分享人工智能視覺開發的經驗。點擊報名直播觀看:http
    發表于 07-20 11:06

    延遲和指令呈現百度人工智能交互設計的最新研究

    有屏智能設備的多維對話:延遲和指令呈現百度人工智能交互設計最新研究
    發表于 05-25 09:46

    王勁為何離開百度_百度的巨變真的和空降的陸奇有關

    和E-Loan等。2000年,王勁回到中國,歷任阿里巴巴資深技術總監、EBay中國CTO,EBay中國研發中心總經理、谷歌中國工程研究院副院長。2010年4月15日,王勁加入百度,任百度技術副總裁,2013年12月晉升為
    發表于 12-24 14:22 ?1348次閱讀

    百度最新AI算法就能克隆任何人的聲音!只需 3.7 秒!

    Deep Voice是百度AI研究院一個由深度神經網絡構建的高質量語音轉(TTS )系統。該系統不僅提高的模擬的時間,百度還優化了它出錯的概率。甚至還在一個單GPU服務器上,把推斷規模
    的頭像 發表于 04-02 10:55 ?1.5w次閱讀

    百度推出NCRF算法,癌癥轉移檢測準確率喜人

    昨天,百度研究院宣布他們開發了一種深度學習算法,在檢測乳腺癌的微轉移方面超過了人類病理學醫生的表現。
    的頭像 發表于 06-26 15:25 ?5900次閱讀

    百度深度學習研究院科學家分享:機器視覺開發實戰!

    具有16年的計算機視覺和人工智能方向的研發經驗,在過去的工作中,他發表過論文十余篇,申請中國專利超過100項,其中已經授權的有95項。他曾任職百度深度學習研究院,負責人臉識別方向,曾經多次帶領團隊在主流的人臉檢測、
    的頭像 發表于 07-19 15:43 ?336次閱讀

    百度研究院召開大會 發現了窺視人工智能的新視角

    10個月前,百度研究院在硅谷召開了一場全員大會,院長王海峰宣布了兩個新動態,一是設立商業智能實驗室和機器人與自動駕駛實驗室,二是Kenneth Ward Church、浣軍、熊輝三位世界級人工智能領域的科學家加盟百度
    發表于 11-15 10:47 ?2143次閱讀

    百度研究院迎來9位世界級AI科學家,深遠布局前瞻性研究

    2018-11-15 09:27 | 查看: 32 | 評論: 0 | 來自: 今日頭條 摘要 : 作為百度發展人工智能的核心機構,百度研究院又完成了一次重要的實力擴充。美國當地時間11月13日
    發表于 11-26 20:49 ?316次閱讀

    百度再添9位世界級AI科學家加盟

    美國時間11月13日,百度研究院在美國硅谷召開會議,宣布百度研究院顧問委員會正式成立,并宣布在2018年陸續迎來9位世界級科學家加盟。當天,百度
    發表于 03-01 17:23 ?782次閱讀

    百度研究院對AI產業的預測

    百度研究院發布2020十大科技趨勢預測,從2019年科技的蓬勃發展中提前展望2020。作為2019年最受關注的科技熱詞之一,“AI”自然成為了焦點。百度
    的頭像 發表于 12-26 16:06 ?3761次閱讀

    百度研究院2023科技趨勢預測發布

    來源: 百度AI 1月5日,百度研究院發布2023年十大科技趨勢預測,今年上榜的十大科技趨勢涵蓋了大模型生態、數實融合、虛實共生、自動駕駛、機器人、科學計算、量子計算、隱私計算、科技倫理
    的頭像 發表于 01-06 17:15 ?604次閱讀

    百度研究院2023科技趨勢預測發布

    來源:百度AI1月5日,百度研究院發布2023年十大科技趨勢預測,今年上榜的十大科技趨勢涵蓋了大模型生態、數實融合、虛實共生、自動駕駛、機器人、科學計算、量子計算、隱私計算、科技倫理和科技可持續發展
    的頭像 發表于 01-13 11:05 ?551次閱讀
    <b class='flag-5'>百度</b><b class='flag-5'>研究院</b>2023科技趨勢預測發布

    百度蛋白大語言模型研究成果登上Nature子刊封面

    百度最新研究成果登上Nature子刊封面,文心生物計算大模型獲國際頂刊認可!
    的頭像 發表于 11-25 11:25 ?1272次閱讀
    <b class='flag-5'>百度</b>蛋白大語言模型<b class='flag-5'>研究成果</b>登上Nature子刊封面
    主站蜘蛛池模板: 亚洲第一网站快活影院| 全部免费特黄特色大片视频| 久久久久久9| 久久鬼| 国产拍拍视频| 在线观看免费xx高清视频| 午夜影吧| 久久视频精品36线视频在线观看| 欧美成人猛男性色生活| 国产情侣出租屋露脸实拍| 色在线视频观看| 亚州人成网在线播放| 一卡二卡三卡四卡无卡在线| 婷婷久久综合网| 国产精品久久久久久久久齐齐| 狠狠色色综合网站| 一级女性黄 色生活片| 免费污视频在线| 18免费视频| 四虎影永久在线观看精品| 亚洲国产香蕉视频欧美| 天堂在线中文字幕| 你懂在线| 国产caob| 欧美成人三级网站| 另类五月| 在线播放亚洲视频| 日成人网| 欧美zooz人禽交免费| 欧美在线一区二区三区| 国产一区美女| 天天黄色| 操女人网址| 亚洲国产综合人成综合网站00| 日本黄色a级| 成年毛片| 九九热在线精品| 色噜噜亚洲男人的天堂| 四虎在线最新永久免费播放| 久久精品99无色码中文字幕| 亚洲色图20p|