在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

TTS和ASR的概念區別!TTS的評判標準

nlfO_thejiangme ? 來源:未知 ? 作者:李倩 ? 2018-10-13 09:52 ? 次閱讀

TTS(Text-To-Speech,語音合成),目前是一個“小而美”的AI領域,但我個人覺得非常有意思,感覺TTS在未來會被行業真正重視起來,并且會出現做得不錯的創業公司

本文,是作者收集了很多線上/線下的相關信息后,提煉出的AI產品經理“最必要”了解的TTS技術知識和行業現狀(多了沒必要,少了又不足以入門、準備面試或工作實戰);不僅幫大家節省了時間,更是過濾了很多無用信息和過于技術的內容。

目錄

一、核心概念

二、當前技術邊界

三、瓶頸和機會(重點)

一、核心概念

1、TTS和ASR的概念區別

我們比較熟悉的ASR技術(Automatic Speech Recognition,語音識別),是將聲音轉化為文字,可類比于人類的耳朵。

而TTS技術(Text-To-Speech,語音合成),是將文字轉化為聲音(朗讀出來),類比于人類的嘴巴。大家在Siri等各種語音助手中聽到的聲音,都是由TTS來生成的,并不是真人在說話。

TTS的技術實現方法,主要有兩種:“拼接法”和“參數法”。

2、拼接法

1)定義:從事先錄制的大量語音中,選擇所需的基本單位拼接而成。這樣的單位可以是音節、音素等等;為了追求合成語音的連貫性,也常常用使用雙音子(從一個音素的中央到下一個音素的中央)作為單位。

2)優點:語音質量較高

3)缺點:數據庫要求太大。一般需要幾十個小時的成品預料。企業級商用的話,需要至少5萬句,費用成本在幾百萬元。

3、參數法

1)定義:根據統計模型來產生每時每刻的語音參數(包括基頻、共振峰頻率等),然后把這些參數轉化為波形。主要分為3個模塊:前端、后端和聲碼器。

前端做的事情,是把文本進行解析,決定每個字的發音是什么,這句話用什么樣的語氣語調,用什么樣的節奏來讀,哪些地方是需要強調的重點等等。常見的語氣相關的數據描述包含但不限于下面這些:韻律邊界,重音,邊界調,甚至情感。 還有更多的信息甚至是難以客觀描述的,目前的算法只能暫且忽略。

注:拼接法和參數法,都有前端模塊,拼接和參數的區別主要是后端聲學建模方法的區別。

2)優點:數據庫要求相對較小一些。

如果只需要出聲(做demo),大概500句就可以,但是效果肯定不行。

通用TTS,一般至少需要5000句,6個小時(一般錄制800句話,需要1個小時)。——從前期的準備、找人、找錄音場地、錄制、數據篩選、標注,最終成為“可以用的數據”,可能至少需要3個月。(訊飛在各方面比較成熟,用時會短很多)

個性化TTS,大多數是用“參數”方法的。(adobe、微軟也有嘗試過拼接法,不過相對參數方法來說不是太成熟,效果也并不是太通用)

3)缺點:質量比拼接法差一些。因為受制于發聲算法,有損失。

因為主要弱點和難點就是聲碼器。聲碼器的作用是復現聲音信號,難在重現聲音細節,并且讓人聽不出各種雜音、沉悶、機械感等等。目前常見的聲碼器都是對聲音信號本身作各種理論模型以及簡化假設,可以說對細節的描述近似于忽略。

注:DeepMind的WaveNet,基本解決了聲碼器的問題。因為他們直接對語音樣本進行預測,不依賴任何發音理論模型。最后出來的音質細節十分豐富,基本達到了與原始語音類似的音質水準(所謂質量提高了50%,就是這里),而且幾乎可以對任意聲音建模(這就太牛了)。

4、TTS的評判標準

1)主觀測試(自然度),以MOS為主

A)MOS(Mean Opinion Scores),專家級評測(主觀);1-5分,5分最好。

注:微軟小冰公開宣傳是4.3分,但有業內朋友認為,也不能據此就說其“絕對”比科大訊飛好,因為每次評審的專家人選都不一樣。說白了,目前整個AI行業內,還是各家說自己好的節奏。

B)ABX,普通用戶評測(主觀)。讓用戶來試聽兩個TTS系統,進行對比,看哪個好。

C)每次主觀測評應該有區分。比如這次著重聽多音字,下次主要聽語氣詞等。

2)客觀測試

A)對合成系統產生的聲學參數進行評估,一般是計算歐式距離等(RMSE,LSD)。

B)對合成系統工程上的測試:實時率(合成耗時/語音時長)、首包響應時間(用戶發出請求到用戶感知到的第一包到達時間)、內存占用、CPU占用、3*24小時crash率等。

二、技術邊界

1、通用TTS

1)在用戶預期不苛刻的場景(APP/硬件),能滿足商業化需求,比如語音助手/滴滴/高德/智能音箱/機器人);但如果用戶預期非常高的話,是很難滿足的,因為還是會有“機器感/機械感”,不能非常自然的模擬人聲。

2)目前行業各家公司的產品效果差不多,都基本能商用。

2、個性化TTS

1)在用戶預期不苛刻的場景,能“基本”滿足商業化需求,但是效果沒通用TTS那么好。但如果用戶預期非常高的話,暫時是滿足不了的。

2)目前行業內能成熟商用的,主要還是科大訊飛,也有些創業公司在這個領域有所布局,如微量分貝(HEARD)這家致力于海量內容音頻化的企業,對聲音進行了分門別類的生成和儲備,他們瞄準的企業級需求也會更為個性化、品牌化,諸如阿里巴巴旗下的“動物園”品牌(如天貓、閑魚、盒馬、菜鳥等),都會生成諸如“小豬佩奇”這樣的角色化TTS 并被商用。

3、情感TTS

1)目前業界的情感合成更多了,是因為數據本身變多了、更有節奏了,超過了傳統的播音風格,但并不是真正的“喜怒哀樂”等情感合成(想高興就高興的這種智能)。

2)在情感TTS的理論方面,學術界是有儲備的,但是,整個行業目前都沒怎么做(或者沒做好),是因為情感TTS很依賴“情感意圖識別”,“情感特征挖掘”、“情感數據”以及“情感聲學技術”等,是個系統工程。其中第1點,即是和自然語言處理相關,比如需要知道“什么時侯該高興或悲傷”;同時,具有情感演繹的語音數據的儲備,也非常重要。

三、瓶頸和機會

主要有5個方向的瓶頸(同時也是機會)。

1、基礎技術

1)TTS技術正處于重大變革:端到端(End-to-End)的TTS建模方法,加上WaveNet 的聲碼器思想,是未來TTS的發展方向。

端到端TTS,一般指tacotron,tacotron只是Google提出的合并了原先時長模型和聲學模型的中段結構,可以接任何TTS前端和TTS后端。TTS前端如中文分詞、注音、詞性,都會提升tacotron性能;后端,參數、拼接、wavenet都可以選用。

關于WaveNet技術的商業化:Google今年初將第二代WaveNet技術商業化了,速度比第一代快一萬倍。而國內各家公司,基本也仿制出來了(論文算法),但工程化還需要時間,而且成本還是太高,短期內應該沒法商用。

關于效果:TTS最終效果好壞,技術只占50%不到,在技術都差不多的情況下,聲優質量和數據量最重要,其次是相同部署規模和成本的TTS才能相互比較,即,不能簡單的說哪家公司的效果比另一家更好,a)比如,拿百度/騰訊/阿里/圖靈等很多家AI公司的WaveNet v1的效果,一般都能超過訊飛線上的接口,但部署成本高幾萬倍,且不實時;WaveNet V2商業化以后,雖然能實時,但部署成本至少也比高配拼接TTS高10倍左右。b)成本,部分和采樣率相關,例如,訊飛/百度TTS的采樣率都是16k,如果用24k和48k,主觀體驗至少強50%,但成本會翻倍;也就是說,其他AI公司的24kTTS的MOS,能吊打訊飛/百度的API,但不能說他們的技術就比訊飛/百度強,因為在商業化時,會犧牲效果來降低成本。

2)如何讓離線版效果達到在線版水平。很多客戶希望(奢望)有離線版本,并且效果和在線版本一樣好……現階段來說,可能真是“臣妾做不到啊”。

2、數據缺乏

一方面,特別是個性化TTS,需要數據量更大。比如默認男孩聲音,要轉成女孩,就比較難。

另一方面,數據的獲取(制作)成本和周期,也是各家在初期的競爭著力點,比如,一般來說,一款(套)TTS數據,至少需要先錄制2-3萬句話,再加上數據標注,通常耗時在3個月以上(且需要主播全力配合),對于30小時的數據,價格通常在30-50萬,而上文提到的微量分貝(HEARD)這家公司,調動了8000+位優質播音人員,在給不同內容配音的同時,也做了大量結構化數據的存儲(庫存化)。

這樣,針對大部分客戶的數據需求,并不需要再找主播進行錄制,而是直接從倉庫調取數據進行解凍即可(數據標注);通過將這種“邊進行業務邊賺取數據”的流程標準化,其獲取數據的成本大大降低到行業的五分之一,并且一旦有需求,可以在1個月內進行交付。這家公司在南方搭建的數據標注工場的規模,也是巨大的,包括華為等公司都從其采購語音合成數據。

3、人才匱乏

不僅沒法跟NLP、CV等熱門AI人才比,就算跟同樣不算熱門的ASR比,TTS的人才都還要少一些。

4、產品化難度

由于技術限制,現階段不可能有非常完美的TTS效果,所以:

1)盡量選擇用戶預期不苛刻的場景,或者在產品體驗設計時,管理好用戶預期(比如打車軟件,郭德綱/林志玲的聲音,差不多就行)。

2)選擇“參數法”還是“拼接法”,和公司的技術儲備、成本、以及產品目標相關。在垂直領域,現有的TTS技術(參數或者拼接)都可以針對產品做得很好。現在行業還沒有太好的效果,很大原因是因為產品經理還沒有深入介入,有很多細節的坑要踩(產品設計+工程化實現)——未來應該會有驚艷的產品出現。

3)體驗細節設計,和一般互聯網產品很不同,比如:

A)文案設計,非常重要;因為在語音交互場景,不能太長,用戶沒耐心和時間聽完的。

B)可以加入背景音樂,掩蓋雜音等細節瑕疵。

C)特殊場景,還有特別的需求,比如遠場場景和戴耳機場景相比,還是會有區別的。

D)中英文混合TTS。比如用戶想播首英語歌曲,困難在于:所有中文的發音當中,中文和英文合拍念出來是很難的,為什么呢?因為往往錄音的人。錄中文是一批人,錄英文又是一批人。兩種語言結合起來,再用機器學習學出來,聲音就會變得非常怪。這方面,小雅音箱曾經花了很大的精力和成本去“死磕”解決。

5、商業化壓力

1)如果要有足夠的市場競爭力,至少需要12個月的時間,2~6人團隊(如果有人做過前端相關工作,會節省巨大成本——工作量主要在中文前端NLP部分,比如分詞、注音、詞性文本規整化等),幾百萬資金投入(1個GPU一年十萬,支持并發只有幾十個)。并且,大公司的先發優勢巨大,小公司必須切細分場景。

2)我個人認為,個性化TTS、情感TTS會在各細分場景得到更大的應用,比如知識付費、明星IP、智能硬件、車聯網、實體/虛擬機器人等。

附:相關資料

1、相關高校及實驗室

語音合成涉及專業領域較廣,包含語言學、聽覺與發聲機理、自然語言分析、深度學習、信號處理等諸多領域,是一門綜合性學科。

國際上,英國愛丁堡大學Simon King教授,卡耐基梅隆大學Alan W Black教授, 日本和歌山大學Kawahara教授,谷歌Heiga Zen所在的實驗室均為國際頂級實驗室。

國內來說,中國學術屆也一直走在行業的前列,國際語音合成挑戰賽blizzard challenge已經連續10多年冠軍在中國。國內大部分的語音合成人才,均來自于中科大、中科院自動化所、中科院聲學所、清華大學、西北工業大學等幾家單位,比如西北工業大學的謝磊老師組,已向語音合成屆輸送了大量人才,在微軟、百度、搜狗、小米、IBM、訊飛、流利說、出門問問、獵戶星空、同盾等公司的核心崗位上,都有來自西工大的學生。

2、參考文章

《目前,人工智能語音在說中文時的語氣感覺上還比較機械,怎樣使人工智能語音的語氣更自然一些?》http://t.cn/RFnP7EH

《如何評價谷歌下一代語音合成系統WaveNet?》http://t.cn/RFnPUkA

《TTS(Text-To-Speech)的原理是什么?》http://t.cn/RFnPfP1

《百度Deep Voice作者與Bengio團隊探討五大技術細節,端到端的語音合成還有多遠?》http://t.cn/RoUvHAg

3、相關產品

訊飛配音app、訊飛朗讀助手app、閃電配(http://www.soundems.com )等。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31077

    瀏覽量

    269411
  • 語音識別
    +關注

    關注

    38

    文章

    1742

    瀏覽量

    112709
  • TTS
    TTS
    +關注

    關注

    0

    文章

    42

    瀏覽量

    10801

原文標題:語音合成(TTS)技術的概念、技術邊界與未來機會

文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    使用google-translate和wwe合并后無法使用google-tts怎么解決?

    我打算使用lyrat-mini做一個使用喚醒詞喚醒然后后續通過google-sr和google-tts進行交流的聊天機器人,但是當我合并了adf的例子中的wwe和google-translate之后
    發表于 06-28 06:05

    整合離線語音識別ASRTTS,內存映射時發生內存不足怎么解決?

    整合TTSASR,發現識別模型和TTS字典映射沖突,應該是只有4M的數據空間可以映射導致的,換了16M模組也不行,應該不是flash的問題,測試找到返回錯誤0x101的位置是 按頁映射的函數里
    發表于 06-28 07:34

    求助,TTS能夠直接使用IO口輸出到PA嗎?

    TTS能夠直接使用IO口輸出到PA嗎?不經過I2C和I2S解碼芯片
    發表于 06-28 06:02

    【WRTnode2R申請】TTS中文語音處理

    申請理由:想用WRTnode做TTS中文語音處理項目描述:想用WRTnode做TTS中文語音處理
    發表于 09-10 11:26

    怎樣通過ekho8.0去實現tts技術呢

    本文通過ekho8.0實現的tts技術能夠準確讀出英文、初步實現語法語義分析。能識別大部分多音字成語、正確讀出年月日。并且由于ekho采用基于人錄音的語料庫的聲音較其他大部分開源TTS引擎都平滑自然。支持普通話、***話、客家話、藏語和英語等。
    發表于 11-04 06:01

    TTS文字轉語音模塊的學習資料分享

    引言這個計劃到今天也就完成了,原本按照計劃是要實行三步走策略:1.TTS文字轉語音模塊的學習2.LD3320 語音識別模塊的學習3.單片機吧兩者結合起來騷想法之后浮現了一個騷想法:我只接就把語音識別
    發表于 02-15 06:01

    CB5654開發應用TTS

    前段時間實現一個播放SD的里的音樂的功能!今天試著實現讀取SD卡里的文件,并用TTS播放文件內容!從文檔里我們可以知道該功能只用到了部分功能,如圖: 比如文件內容如下:沁園春·雪作者*** 朝代
    發表于 03-08 06:37

    基于TTS技術和腦電采集設備的精神疲勞實驗系統設計

    在精神疲勞研究中,能客觀地反映精神疲勞狀態的實驗系統是研究的基礎。本文基于語音合成技術TTS,結合腦電采集設備,利用Microsoft Speech SDK語音開發包、TTS引擎和微軟MFC基礎類庫,
    發表于 04-15 18:53 ?19次下載
    基于<b class='flag-5'>TTS</b>技術和腦電采集設備的精神疲勞實驗系統設計

    LP-TTS V2.0中文語音合成模塊使用說明.pdf

    TTS語音合成模塊syn6288資料
    發表于 05-21 11:04 ?27次下載

    液晶電源p42TTS-0060電路圖紙

    p42TTS-0060電路圖紙免費下載。
    發表于 12-27 11:45 ?0次下載

    使用balena部署Basics Station TTS LoRa網關

    電子發燒友網站提供《使用balena部署Basics Station TTS LoRa網關.zip》資料免費下載
    發表于 06-15 10:10 ?0次下載
    使用balena部署Basics Station <b class='flag-5'>TTS</b> LoRa網關

    TTS語音合成技術及其應用

    TTS語音合成技術是一種將文本轉換為自然語音的技術,它利用計算機技術和人工智能技術來模擬人聲的發音和語調。該技術通過將文本轉換為音素序列,并使用聲學模型對每個音素進行參數化,最終生成自然語音
    的頭像 發表于 06-24 02:28 ?1230次閱讀

    TTS語音合成技術的挑戰和未來發展

    TTS語音合成技術在實現過程中面臨著一些挑戰和問題。 首先,TTS語音合成技術需要處理自然語言理解和語音識別等復雜的問題,如何提高技術的準確率和效率是TTS語音合成技術需要解決的問題之一。其次
    的頭像 發表于 06-24 03:18 ?1176次閱讀

    基于GPS和TTS的自動報站器方案設計

    電子發燒友網站提供《基于GPS和TTS的自動報站器方案設計.pdf》資料免費下載
    發表于 10-08 10:21 ?0次下載
    基于GPS和<b class='flag-5'>TTS</b>的自動報站器方案設計

    玩轉語音合成芯片(TTS芯片),看這一篇就夠了

    什么是語音合成芯片:語音合成芯片也稱為TTS芯片,即文字轉語音芯片,是一種能夠將輸入的文字信息轉換為語音輸出的芯片。通過TTS芯片,我們可以將文字信息轉化為自然語音,實現人機語音交互。
    的頭像 發表于 03-19 18:13 ?1448次閱讀
    玩轉語音合成芯片(<b class='flag-5'>TTS</b>芯片),看這一篇就夠了
    主站蜘蛛池模板: 日本免费大黄在线观看| 日韩美女三级| 国产乱人视频在线看| 性free中国美女hd| www.亚洲一区| 在线观看免费视频一区| 国产男人搡女人免费视频| 中文字幕三级久久久久久| 女人十六毛片| 亚洲综合日韩欧美一区二区三| 亚洲合集综合久久性色| 四虎影院海外永久| 萌白酱白丝护士服喷水铁牛tv| 寄宿日记免费看| 97色涩| 韩日中文字幕| 操妞网| 手机看片精品国产福利盒子| 久久狠狠第一麻豆婷婷天天| 欧美1819| 狠狠色噜噜噜噜狠狠狠狠狠狠奇米| 亚欧成人乱码一区二区| 日a在线| 欧美高清性色生活| 国产精品乳摇在线播放| 手机看片1024福利| 欧美性受视频| 中国xxxxx高清免费看视频| 清朝荒淫牲艳史在线播放| 亚洲伦理一区二区| 欧美在线一区二区三区| 欧美一二三区| 成 人 免 费 黄 色| 日本久操视频| 你懂的手机在线观看| 国产三级精品播放| 午夜特片网| 1024手机在线观看视频| 中国农村一级片| 欧美日韩亚洲国内综合网俺| freesexvideo性残疾|