語音合成,也被稱作TTS(text-to-speech),該技術的應用目前已十分廣泛了,例如智能家居設備和智能助手等,論智也曾報道過很多相關研究項目。
百度研究者利用少量樣本實現語音克隆
谷歌發布新語音合成模型Tacotron 2:這竟是機器說的話?
谷歌大腦發力語音搜索:一個用于語音識別的端到端模型
近日,百度研究院推出了他們有關TTS的成果——ClariNet,成為百度在TTS研究上的又一里程碑。此前基于神經內網絡的TTS模型是將優化的文本到聲譜圖和波形合成模型分開來的,這可能會導致不理想的表現。而ClariNet第一次做到了用完全的端到端TTS模型,直接將文本轉換成波形圖,并且只需要一個神經網絡即可。它的全卷積結構能夠從零開始快速地訓練。ClariNet在語音的自然度方面成功地超越了其他方法。以下是論智對這篇論文的編譯。
論文摘要
WaveNet是DeepMind去年推出的基于深度學習的語音生成模型,它可以生成平行的語音波形,即整個句子中所有的詞語都可以同時生成對應的波形。現在,我們提出了一種替代WaveNet的方法,我們從自回歸的WaveNet中提取一個高斯逆自回歸流(Gaussian Inverse autoregressive flow),并且以閉合形式計算KL散度,簡化了訓練算法并且提供了非常高效的蒸餾過程。除此之外,我們還提出了首個針對語音合成的文本到波形的神經架構(text-to-wave),這是全卷積的,并且可以快速地從零開始進行端到端訓練。除此之外,我們還成功地在模型的隱藏表示中創建了并行波形生成器。
并行波形生成
在模型中,我們用高斯自回歸WaveNet作為“老師網絡”,將高斯逆自回歸流作為“學生網絡”。2018年,Oord等人提出了概率密度蒸餾法來降低逆自回歸流(IAF)的最大可能學習中的難度。蒸餾過程中,學生網絡IAF試著將它自己的樣本分布與在自回歸的WaveNet中訓練的樣本相匹配。然而,學生網絡IAF的輸出邏輯分布和教師網絡WaveNet的輸出之間的KL散度是不相容的,必須使用蒙特卡羅方法進行大概計算。而最終并行的WaveNet需要在蒸餾過程中進行雙次采樣:首先要將白噪聲輸入到學生網絡中,然后從學生網絡的輸出分布中選擇多個不同樣本對KL散度進行估計。
但是在我們的模型中,加入了高斯設置,密度蒸餾方法只需要一個白噪聲樣本,然后將其輸入封閉的KL散度計算中。我們的學生IAF網絡在蒸餾過程中和老師WaveNet使用同一個條件網絡(2D卷積層)。
Text-to-Wave架構
我們的卷積text-to-wave架構如下圖所示:
它是基于另一個基于注意力的卷積TTS模型——Deep Voice 3創建的。Deep Voice 3能夠將文本特征(例如字符、音素、強調等)轉換成波譜特征(例如log-mel聲譜和log-linear聲譜)。這些波普特征可以輸入到訓練波形合成的模型中,例如WaveNet。相反,我們直接將從注意力機制中學習到的隱藏表示輸入到神經語音編碼器中,用端到端的方式從零訓練整個模型。
我們所提出的架構包含四個部分:
編碼器:一個和Deep Voice 3相同的編碼器,它可以將文本特征編寫進內部的隱藏表示。
解碼器:同樣和Deep Voice 3相同,可以用自回歸的方式將編碼器中的內容加碼城log-mel聲譜。
Bridge-net:這是一個卷積中間處理模塊,它可以從解碼器中處理隱藏表示,并且預測log-linear聲譜。與解碼器不同的是,它并非是因果聯系的,并且可以使用未來的語境。另外,它還可以從框架層到采樣層對隱藏表示進行上采樣。
語音編碼器:高斯自回歸WaveNet可以合成波形,但是只能在上采樣后的隱藏表示中實現。而它可以由自回歸語音編碼器的學生IAF網絡替換。
實驗過程
我們進行了幾組實驗來評估所提出的并行波形生成方法和text-to-wave結構。我們用了20個小時的英文演講作為訓練數據,下采樣后音頻變為24kHz。
首先我們測試了生成語音的自然程度,用MOS分數表示:
結果表示,高斯自回歸WaveNet和MoGul以及softmax輸出水平相當,比MoL要好。
接著我們將一個60層的并行學生網絡從20層的高斯自回歸WaveNet中進行蒸餾,它包括6個堆疊的高斯逆自回歸流,每個流都由一個10層的WaveNet進行參數化。我們測試了前向和逆向KL散度,結果如下:
兩種蒸餾方法都得到了不錯的分數,我們希望未來加入感知和對比損失后會進一步提升。
最后我們從零訓練了text-to-wave模型,并將其與Deep Voice 3中的同類模型相比,結果如下:
該分數表明text-to-wave模型明顯比其他模型表現得好,并且有經過蒸餾的語音編碼器的模型呢自回歸神經編碼器的表現水平相當。
結語
百度在語音合成方面的確做出了許多努力,今年三月,他們還推出了神經語音克隆系統,只需輸入少量樣本就能合成逼真語音。而今天的ClariNet是語音合成的又一里程碑,是該領域第一個真正的端到端模型,在GPU上取得了更高質量的結果。
-
編碼器
+關注
關注
45文章
3650瀏覽量
134761 -
百度
+關注
關注
9文章
2272瀏覽量
90490 -
深度學習
+關注
關注
73文章
5507瀏覽量
121291
原文標題:語音合成的里程碑:百度推出首個完全端到端的TTS模型
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論