殿上欢,好看的历史书籍推荐,欢乐颂小说结局是什么

CSDN 出品的《2018-2019 中國人工智能產業路線圖》V2.0 版即將重磅面世！

V1.0 版發布以來，我們有幸得到了諸多讀者朋友及行業專家的鼎力支持，在此表示由衷感謝。此次 V2.0 版路線圖將進行新一輪大升級，內容包括 3 大 AI 前沿產業趨勢分析，10 位 AI 特邀專家的深度技術分析，15 家一線互聯網企業的 AI 實力大巡展，以及 20 個 AI 優秀應用案例，力求為讀者呈現更全面的中國人工智能產業發展概況和趨勢判斷。

V2.0 版將于 11 月 8 日舉辦的 2018 AI 開發者大會上正式發布，在此之前，我們將不間斷公布精要內容，以饗讀者。此為 V2.0 版中深度技術分析系列稿件第 2 篇，作者為 CSDN 特邀 AI 專家標貝科技聯合創始人&CTO 李秀林。

作者簡介：李秀林，中國科學院博士，15 年語音相關技術研發和學術研究，申請專利三十余項，在國內外語音界有很高的知名度；曾帶領團隊獲得百度百萬美元大獎。2006 年—2013 年，松下研發中心高級研發經理；2013 年—2016 年，百度語音合成技術負責人；2016 年—2018 年，滴滴研究院語音團隊負責人&首席算法工程師；2018 年3 月加盟標貝科技，作為聯合創始人兼CTO。

▌一、語音合成技術簡介

語音，在人類的發展過程中，起到了巨大的作用。語音是語言的外部形式，是最直接地記錄人的思維活動的符號體系，也是人類賴以生存發展和從事各種社會活動最基本、最重要的交流方式之一。而讓機器開口說話，則是人類千百年來的夢想。語音合成（Text To Speech），是人類不斷探索、實現這一夢想的科學實踐，也是受到這一夢想不斷推動、不斷提升的技術領域。

在漫長的探索過程中，真正產生實用意義的合成系統，產生于 20 世紀 70 年代。受益于計算機技術和信號處理技術的發展，第一代參數合成系統--共振峰合成系統誕生了。它利用不同發音的共振峰信息，可以實現可懂的語音合成效果，但整體音質方面，還難以滿足商用的要求。

進入 90 年代，存儲技術得到了長足發展，從而誕生了拼接合成系統。拼接合成系統，利用 PSOLA 算法，將存儲的原始發音片段進行調整后拼接起來，從而實現了相較于共振峰參數合成效果更好的音質。

之后，語音合成技術不斷向前發展，參數合成、拼接合成兩條主要的技術路線都取得了長足進展，相互競爭、相互促進，使得合成語音的質量大幅提升，語音合成技術在眾多場景中得以應用。整體上看，主要包括如下幾個方面：

從規則驅動轉向數據驅動：在早期的系統中，大多需要大量的專家知識，對發音或者聲學參數進行調整，不但費時費力，而且難以滿足對不同上下文的覆蓋，也在一定程度上影響技術的實施。隨著技術的發展，越來越多的數據得以應用到系統中，以語音合成音庫為例，從最初的幾百句話，發展到后來的幾千、幾萬句規模，使得發音樣本數量大大增加，基于統計模型的技術得以廣泛應用。從最初的樹模型、隱馬爾可夫模型、高斯混合模型，到近幾年的神經網絡模型，大大提升了語音合成系統對語音的描述能力。

不斷提升的可懂且舒適的合成效果：語音合成系統的合成效果評價，一般是通過主觀評測實驗，利用多個參試人員對多個語音樣本進行打分。如果語音樣本來自不同的系統，則稱為對比評測。為了提升語音的音質，參數合成系統中先后采用過 LPC 合成器、STRAIGHT 合成器、以 wavenet 為代表的神經網絡聲碼器等；拼接合成系統中則采用不斷擴大音庫規模、改善上下文覆蓋的策略，都取得了明顯的效果。在理想情況下，用戶希望語音合成的語音，能夠以假亂真，達到真人發音水平。隨著技術的不斷發展，這一目標已經越來越近。在一種極端情況下，一組樣本來自合成系統，一組樣本來自真人發音，那么所做的對比評測，即可視為語音合成系統的圖靈測試。如果用戶無法準確分辨哪些語音樣本是機器生成的，哪些是人類產生的，那么就可以認為這一合成系統通過了圖靈測試。

文本處理能力不斷增強：人類在朗讀文本時，實際上是有一個理解的過程。要想讓機器也能較好地朗讀，這個理解過程必不可少。在語音合成系統中，一般會包括一個文本處理的前端，對輸入文本進行數字、符號的處理，分詞斷句，以及多音字處理等一系列環節。通過利用海量的文本數據和統計模型技術，合成系統中文本處理的水平已經可以滿足大多數場景下的商業應用要求。更進一步地，自然語言理解技術，還可以用于預測句子的焦點、情緒、語氣語調等，但由于這部分受上下文的影響很大，而這類數據又相對較少，所以目前這部分情感相關的技術還不夠成熟。

圖 1. 語音合成系統框圖

以上，是語音合成技術的發展概況。接下來，我們來探討一下最近幾年深度學習技術對合成技術發展的影響。

▌二、深度學習與語音合成

深度學習技術，對語音合成的影響，主要分為兩個階段：

第一階段：錦上添花。從 2012 年開始，深度學習技術在語音領域逐漸開始受到關注并得以應用。這一階段，深度學習技術的主要作用，是替換原有的統計模型，提升模型的刻畫能力。比如用 DNN 替代時長模型，用 RNN 替代聲學參數模型等。語音的生成部分，仍然是利用拼接合成或者聲碼器合成的方式，與此前的系統沒有本質差異。對比兩種系統發現，在仔細對比的情況下，替代后的系統的效果略好于原系統，但整體感覺差異不大，未能產生質的飛躍。

第二階段：另辟蹊徑。這一階段的很多研究工作，都具有開創性，是對語音合成的重大創新。2016 年，一篇具有標志性的文章發表，提出了 WaveNet 方案。2017 年初，另一篇標志性的文章發表，提出了端到端的 Tacotron 方案。2018 年初，Tacotron2 將兩者進行了融合，形成了目前語音合成領域的標桿性系統。在此過程中，也有 DeepVoice，SampleRNN, Char2Wav 等很多有價值的研究文獻陸續發表，大大促進了語音合成技術的發展，吸引了越來越多的研究者參與其中。

圖 2. WaveNet 中的帶洞卷積結構

WaveNet是受到 PixelRNN 的啟發，將自回歸模型應用于時域波形生成的成功嘗試。利用 WaveNet 生成的語音，在音質上大大超越了之前的參數合成效果，甚至合成的某些句子，能夠到達以假亂真的水平，引起了巨大的轟動。其中，所采用的帶洞卷積（dilated convolution）大大提升了感受野，以滿足對高采樣率的音頻時域信號建模的要求。WaveNet 的優點非常明顯，但由于其利用前 N-1 個樣本預測第 N 個樣本，所以效率非常低，這也是 WaveNet 的一個明顯缺點。后來提出的 Parallel WaveNet 和 ClariNet，都是為了解決這個問題，思路是利用神經網絡提煉技術，用預先訓練好的 WaveNet 模型（teacher）來訓練可并行計算的 IAF 模型（student），從而實現實時合成，同時保持近乎自然語音的高音質。

Tacotron是端到端語音合成系統的代表，與以往的合成系統不同，端到端合成系統，可以直接利用錄音文本和對應的語音數據對，進行模型訓練，而無需過多的專家知識和專業處理能力，大大降低了進入語音合成領域的門檻，為語音合成的快速發展提供了新的催化劑。

圖 3. Tacotron 的端到端網絡結構

Tacotron 把文本符號作為輸入，把幅度譜作為輸出，然后通過 Griffin-Lim 進行信號重建，輸出高質量的語音。Tacotron 的核心結構是帶有注意力機制的 encoder-decoder 模型，是一種典型的 seq2seq 結構。這種結構，不再需要對語音和文本的局部對應關系進行單獨處理，極大地降低了對訓練數據的處理難度。由于 Tacotron 模型比較復雜，可以充分利用模型的參數和注意力機制，對序列進行更精細地刻畫，以提升合成語音的表現力。相較于 WaveNet 模型的逐采樣點建模，Tacotron 模型是逐幀建模，合成效率得以大幅提升，有一定的產品化潛力，但合成音質比 WaveNet 有所降低。

Tacotron2是基于 Tacotron 和 WaveNet 進行融合的自然結果，既充分利用了端到端的合成框架，又利用了高音質的語音生成算法。在這一框架中，采用與 Tacotron 類似的結構，用于生成 Mel 譜，作為 WaveNet 的輸入，而 WaveNet 則退化成神經網絡聲碼器，兩者共同組成了一個端到端的高音質系統。

圖 4. Tacotron 2 的網絡結構

▌三、語音合成的應用

語音合成技術，已經成功應用在很多領域，包括語音導航、信息播報等。對于語音合成的應用前景，標貝科技有著自己的看法。因為標貝科技既是語音數據服務商，同時也是語音合成整體解決方案提供商，所以對于語音合成的應用前景，也做過很多思考。目前語音合成的聲音，從合成效果上，已經可以滿足大多數用戶的需求，但是從音色選擇上，還不夠豐富；從發音方式上，還是偏單調。針對這種情況，標貝科技推出了“聲音超市」，為合作伙伴提供了一個可供選擇的，所聽即所得的聲音平臺。我們認為，語音合成會以更貼近場景需求的合成效果，在如下的三大場景中得以廣泛應用：語音交互、閱讀&教育、泛娛樂。

語音交互

近年來，隨著人工智能概念的推廣，語音交互成為了一個熱點，智能助手、智能客服等應用層出不窮。語音交互中，主要有三個關鍵技術，語音識別、語音合成和語義理解，語音合成在其中的作用顯而易見。受限于語義理解的技術發展水平，目前的應用主要是聚焦于不同的垂直領域，用于解決某些特定領域的問題，還存在一定的局限性。

閱讀&教育

閱讀是一個長期且廣泛的需求，我們每天都需要通過閱讀獲取大量的信息，既有碎片化的信息獲取，也有深度閱讀；既包括新聞、朋友圈、博文，也包括小說、名著；有的是為了與社會同步，有的是消磨時光，有的是為了提升自我修養。在這種多維度的信息需求當中，語音合成技術提供了一種「簡單」的方式，一種可以「并行」輸入的方式，同時也是一種「廉價」的方式。相較于傳統的閱讀，自有其優勢。在開車時、散步時、鍛煉時，都可以輕松獲取信息。

在教育方面，尤其是語言教育方面，模仿與交互是必不可少的鍛煉方式。目前的教育方式中，想學到標準的發音，是需要大量的成本的，比如各種課外班，甚至一對一教育。隨著語音合成技術的不斷進步，以假亂真的合成效果，一方面可以大大增加有聲教育素材，另一方面，甚至可以部分取代真人對話的教育內容。

泛娛樂

泛娛樂是之前與語音合成交叉較少的場景，但我們認為這恰恰是一個巨大的有待開發的市場。我們已經擁有豐富的聲音 IP 資源，并且可以通過聲音超市進行展示，供大家選購自己喜歡的聲音。這些都是為了將語音合成技術廣泛應用到泛娛樂領域所做的準備。以配音領域為例，利用語音合成技術，可以大大降低配音的成本和周期；以目前火爆的短視頻為例，利用語音合成技術可以非常容易地為自己的視頻配上有趣的聲音來展現內容；以虛擬主持人為例，利用語音合成技術，可以提升信息的時效性，同時大大緩解主持人的工作壓力，降低其工作強度。

總之，隨著語音合成技術的快速發展，所生成的語音會越來越自然生動，也會越來越有情感表現力。我們堅信，技術的進步，會不斷沖破原有的障礙，滿足越來越多的用戶需求，使得更好的應用不斷涌現，實現用聲音改變生活的美好愿景！

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1792

文章
47514

瀏覽量
239229
語音合成

語音合成

+關注

關注
2

文章
90

瀏覽量
16178
深度學習

深度學習

+關注

關注
73

文章
5510

瀏覽量
121341

原文標題：方興未艾的語音合成技術與應用

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關注！文章轉載請注明出處。

CAN總線的語音合成模塊研制技術

發表于 09-14 21:09

語音合成芯片，求討論~

合成芯片的公司有一個對外介紹這個對各個行業領域有著至關重要作用的機會、平臺。最終達到目的：讓更多人享受到這個技術帶來的便利，讓更多技術人員解決語音上的麻煩問題！

發表于 12-03 12:12

語音合成芯片，求討論~

發表于 12-03 12:14

基于語音合成技術的車載終端系統該怎樣去設計？

什么是語音合成技術？基于語音合成技術的車載終端系統該怎樣去設計？

發表于 05-12 07:25

蘋果Siri深度學習語音合成技術揭秘

Siri 是一個使用語音合成技術與人類進行交流的個人助手。從 iOS 10 開始，蘋果已經在 Siri 的語音中用到了深度

發表于 05-26 07:20 ?3412次閱讀

蘋果Siri<b class='flag-5'>深度</b><b class='flag-5'>學習語音</b><b class='flag-5'>合成</b><b class='flag-5'>技術</b>揭秘

語音合成技術是如何應用在我們生活中的

隨著科技的不斷發展，語音合成技術越來越成為我們生活中不可或缺的一部分。語音合成

發表于 04-24 10:41 ?2615次閱讀

TTS語音合成技術及其應用

TTS語音合成技術是一種將文本轉換為自然語音的技術，它利用計算機技術和人工智能

發表于 06-24 02:28 ?1244次閱讀

語音合成數據的重要性：打造自然流暢的語音合成體驗

語音合成技術的快速發展為我們帶來了更多便利和豐富的語音交互體驗。然而，要實現高質量、自然流暢的語音

發表于 06-24 03:07 ?621次閱讀

TTS語音合成技術的挑戰和未來發展

TTS語音合成技術在實現過程中面臨著一些挑戰和問題。首先，TTS語音合成技術需要處理自然語言理

發表于 06-24 03:18 ?1199次閱讀

語音合成技術與語音合成數據，賦予聲音新的可能性

隨著科技的不斷進步，語音合成技術成為人機交互和智能應用領域的重要創新。在這個領域中，語音合成數據扮演著至關重要的角色，為

發表于 06-28 23:56 ?610次閱讀

語音合成技術的簡介與未來發展

語音合成是一種通過計算機技術生成人類可聽的語音的技術。它將文本轉換為語音，從而實現

發表于 09-15 18:17 ?2259次閱讀

語音合成技術的應用與挑戰

語音合成技術是一種通過計算機技術生成人類可聽的語音的技術，它已經廣泛應用于各個領域。本文將介紹

發表于 09-16 14:46 ?1377次閱讀

基于深度學習的語音合成技術的進展與未來趨勢

近年來，深度學習技術在語音合成領域取得了顯著的進展。基于深度

發表于 09-16 14:48 ?1136次閱讀

語音合成技術在智能駕駛中的應用與展望

一、引言隨著科技的飛速發展，語音合成技術逐漸成為人機交互領域的重要分支。在智能駕駛環境中，語音合成

發表于 02-01 17:50 ?554次閱讀

語音合成技術在智能駕駛中的創新與應用

的發展趨勢。二、語音合成技術的創新語音質量的提升：隨著深度

發表于 02-01 18:09 ?684次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

語音合成技術簡介,深度學習技術對合成技術發展的影響

評論

CAN總線的語音合成模塊研制技術

語音合成芯片，求討論~

語音合成芯片，求討論~

基于語音合成技術的車載終端系統該怎樣去設計？

蘋果Siri深度學習語音合成技術揭秘

語音合成技術是如何應用在我們生活中的

TTS語音合成技術及其應用

語音合成數據的重要性：打造自然流暢的語音合成體驗

TTS語音合成技術的挑戰和未來發展

語音合成技術與語音合成數據，賦予聲音新的可能性

語音合成技術的簡介與未來發展

語音合成技術的應用與挑戰

基于深度學習的語音合成技術的進展與未來趨勢

語音合成技術在智能駕駛中的應用與展望

語音合成技術在智能駕駛中的創新與應用