在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

了解獨特的文本轉(zhuǎn)語音應(yīng)用

NVIDIA英偉達 ? 來源:未知 ? 2023-06-28 21:10 ? 次閱讀

虛擬助手在用戶發(fā)出命令后就會作出語音回復(fù)。而生成語音回復(fù)的技術(shù)被稱為文本轉(zhuǎn)語音(TTS)

TTS 應(yīng)用能夠讓輔助器具使用者訪問更多內(nèi)容,因此非常實用。最新的 TTS 技術(shù)可以從一段幾分鐘的音頻數(shù)據(jù)中生成合成聲音,非常適合僅留存了有限錄音的失音者。

事實上,TTS 的應(yīng)用正在因技術(shù)進步而不斷增長:

  • 在幾毫秒內(nèi)運行端到端 TTS 流程,以實現(xiàn)自然互動。

  • 在推斷時自定義 AI 模型和流程,以產(chǎn)生具有表現(xiàn)力的合成語音。

  • 部署在所有云、數(shù)據(jù)中心、邊緣或嵌入式設(shè)備上。

本文將說明語音合成系統(tǒng)如何運作,然后介紹 TTS 技術(shù)的常見用途和新用途。

語音合成系統(tǒng)如何工作

顧名思義,文本轉(zhuǎn)語音或語音合成是將書面文本轉(zhuǎn)換成自然、類似人類的語音音頻的過程。在端到端 TTS 流程中用于實現(xiàn)這一轉(zhuǎn)換的關(guān)鍵模型和模塊包括:

  • 文本規(guī)范化和預(yù)處理:將數(shù)字和縮略語變成文字。

  • 文本編碼:將文本轉(zhuǎn)換為輸入到聲譜圖生成器的編碼向量。

  • 聲譜圖生成器:從編碼文本向量中生成聲譜圖。

  • 語音編碼器模型:輸入聲譜圖并生成一個人們可以聽到的合成語音。

一般來說,TTS 是虛擬助手、數(shù)字人和服務(wù)機器人等應(yīng)用的最終階段。

常見的 TTS 應(yīng)用

2021 年 IDC 對話式 AI 采用情況調(diào)查共調(diào)研了 251 家公司,其中 74.5% 在語音對話式 AI 解決方案中使用 TTS,68.5% 在無障礙解決方案中使用 TTS(圖 1)。

9681e75a-15b4-11ee-962d-dac502259ad0.png

圖 1. IDC 關(guān)于常見 TTS 用例的調(diào)查

語音合成的功能用途正得到許多行業(yè)的認(rèn)可,人們可能已經(jīng)看到過以下 TTS 技術(shù)用例。

虛擬網(wǎng)紅

虛擬網(wǎng)紅正在改變未來與企業(yè)或名人溝通的方式。虛擬網(wǎng)紅也稱為虛擬品牌大使或品牌代言人,它們可以協(xié)助公司推廣產(chǎn)品和服務(wù),名人也可以通過它們與粉絲保持全天候的聯(lián)系。

在這些用例中 TTS 技術(shù)生成了自定義聲音,然后被整合到動畫虛擬網(wǎng)紅或數(shù)字大使身上。

文本敘述

文本敘述能夠大聲朗讀所有類型的文本。這項 TTS 功能可用于網(wǎng)站及閱讀類應(yīng)用,為喜歡音頻類節(jié)目的人帶來了福音。有視覺障礙的人也可以使用文字?jǐn)⑹雎牭剿麄兿矚g的內(nèi)容。

TTS 用于在這些應(yīng)用程序上將文本轉(zhuǎn)換成語音并朗讀出來。但這項工作并不像表面上那么簡單。為了提升收聽體驗,此類應(yīng)用的聲音必須抑揚頓挫、富有節(jié)奏和表現(xiàn)力。

常見的語音轉(zhuǎn)文本準(zhǔn)確性問題

對于生活在現(xiàn)代社會的人來說,最流行和具有吸引力的媒介莫過于音頻和視頻內(nèi)容。TTS 技術(shù)可以幫助內(nèi)容創(chuàng)作者為視頻配音或創(chuàng)建播客。

為了獲得更多的受眾,創(chuàng)作者還可以使用 TTS 技術(shù)將博客、新聞文章等文本內(nèi)容轉(zhuǎn)換成音頻。

TTS 的使用十分靈活,用戶可以在變聲器等應(yīng)用中改變語音的音調(diào)、節(jié)奏和音量,使聲音變得更具表現(xiàn)力。

獨特的 TTS 應(yīng)用

除了這些日常應(yīng)用外,企業(yè)家們正在探索各種新穎的 TTS 應(yīng)用。下文將介紹開發(fā)獨特語音合成技術(shù)的公司。

用于智慧醫(yī)院的語音通知亭:Artisight

Artisight 是一個應(yīng)用于醫(yī)院的物聯(lián)網(wǎng)傳感器網(wǎng)絡(luò),可改善醫(yī)院的運營、財務(wù)業(yè)績和患者體驗。該公司幫助美國許多頂尖醫(yī)院提高運營效率,同時通過任務(wù)自動化給患者帶來更好的體驗,比如呼叫患者到掛號窗口和化驗等。

醫(yī)院可以使用 TTS 技術(shù)與患者和訪客分享有關(guān)醫(yī)院服務(wù)、設(shè)施位置和一般健康公告的信息。該技術(shù)也可以使用多種語言幫助可能不會說醫(yī)院當(dāng)?shù)卣Z言的人。

視頻 1. Artisight “診所協(xié)調(diào)員”解決方案演示

上面的視頻演示了醫(yī)院通知亭的文字轉(zhuǎn)語音技術(shù)如何讀出患者排隊單上的號碼。

挑戰(zhàn)和解決方案

過去,醫(yī)院接待人員需要手動登記患者信息并在輪到患者就診時通知他們。這種耗時的登記流程降低了醫(yī)院的效率和患者的滿意度。

Artisight 開發(fā)的語音簽到、通知亭等智慧醫(yī)院解決方案可提升患者的體驗。

Artisight 和 NVIDIA Riva 賦能的通知亭實現(xiàn)了有效、快速的患者登記流程,將等待時間縮短了一半并避免了數(shù)據(jù)輸入錯誤,最終提高了員工的工作效率和患者的滿意度。

為數(shù)字虛擬形象提供類似人類聲音:NVIDIA

TTS 技術(shù)使計算機能夠?qū)嫖淖洲D(zhuǎn)換成語音,進而讓數(shù)字人能夠“開口說話”并以更加自然、有代入感的方式與用戶交流。

為了取得用戶的信任,數(shù)字人所說的話必須高度準(zhǔn)確,尤其是當(dāng)它們被用于教育、娛樂或其他互動用途時。使用 TTS 技術(shù)生成自然、類似人類的語音可以幫助數(shù)字人吸引用戶的注意力和興趣。

正如 NVIDIA Omniverse Avatar Cloud Engine(ACE)演示所示,AI 虛擬形象Toy Jensen 能夠理解黃仁勛的問題并作出自然的回答。Toy Jensen 的聲音使用 NVIDIA Riva 創(chuàng)建。

視頻 2. 用于構(gòu)建實時、交互式 AI 助手的 NVIDIA Omniverse ACE 平臺

挑戰(zhàn)和解決方案

開發(fā)用于數(shù)字人的 TTS 可能有一定的難度,尤其是在創(chuàng)造自然、真實的語音方面,并且難度取決于地區(qū)和語言。這是因為使用傳統(tǒng)和統(tǒng)計算法創(chuàng)建的 TTS 系統(tǒng)可能導(dǎo)致語音聽起來像是機器人或機械發(fā)出的,而用戶對此可能不會“買賬”。

此外,由于 TTS 系統(tǒng)受數(shù)據(jù)集、所使用的模型和模塊類型等諸多因素影響,因此要為數(shù)字人應(yīng)用創(chuàng)建靈活的自適應(yīng)語音具有一定的難度。這使開發(fā)者難以生成具有細微差別和富有表現(xiàn)力的語音。

最后,數(shù)字人需要在不犧牲質(zhì)量的情況下實時生成大量語音,因此創(chuàng)建高效、可擴展的 TTS 系統(tǒng)至關(guān)重要。

NVIDIA 為數(shù)字人和虛擬形象生成了自定義語音,比如使用 Riva 生成的 Toy Jensen 和 Violet。Riva 可幫助開發(fā)只需短短幾毫秒就能實時運行且精準(zhǔn)的 TTS 流程,滿足實現(xiàn)自然語音的必要條件,還可以靈活調(diào)整音調(diào)、持續(xù)時間和音量等,使生成的聲音更具表現(xiàn)力。

開始使用語音合成

用戶現(xiàn)在就可以開始將 TTS 功能集成到應(yīng)用中,例如閱讀內(nèi)容或生成數(shù)字網(wǎng)紅獨特聲音等。NVIDIA Riva 等 SDK 可以幫助用戶開發(fā)出提供高準(zhǔn)確度并進行高性能推理的應(yīng)用。

點擊“閱讀原文”試用 NVIDIA Riva TTS。

掃描下方海報二維碼觀看 NVIDIA 創(chuàng)始人兼 CEO 黃仁勛在 COMPUTEX 2023 的主題演講直播回放,主題演講中文字幕版已上線,了解 AI、圖形及其他領(lǐng)域的最新進展!


原文標(biāo)題:了解獨特的文本轉(zhuǎn)語音應(yīng)用

文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英偉達
    +關(guān)注

    關(guān)注

    22

    文章

    3796

    瀏覽量

    91316

原文標(biāo)題:了解獨特的文本轉(zhuǎn)語音應(yīng)用

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    HarmonyOS NEXT 應(yīng)用開發(fā)練習(xí):AI智能語音播報

    (Text-To-Speech,文本轉(zhuǎn)語音)技術(shù)將文本轉(zhuǎn)換為語音進行播報。 當(dāng)然除了基本的文本輸入和播報功能外,我們還增加了
    發(fā)表于 01-06 15:33

    ASR語音識別技術(shù)應(yīng)用

    ASR(Automatic Speech Recognition)語音識別技術(shù),是計算機科學(xué)與人工智能領(lǐng)域的重要突破,能將人類語音轉(zhuǎn)換為文本,廣泛應(yīng)用于智能家居、醫(yī)療、交通等多個領(lǐng)域。以下是對ASR
    的頭像 發(fā)表于 11-18 15:12 ?816次閱讀

    助盲環(huán)境感知裝置設(shè)計方案

    今天為大家?guī)淼氖莵碜詣?chuàng)作者X同學(xué)的作品:助盲環(huán)境感知裝置. 這個裝置主要利用Grove Vision AI V2-Camera module識別環(huán)境中的物體,并利用XIAO ESP32S3和樹莓派進行語音輸出,結(jié)合了物體檢測和文本轉(zhuǎn)語
    的頭像 發(fā)表于 11-05 11:42 ?249次閱讀
    助盲環(huán)境感知裝置設(shè)計方案

    TMS320C6000 MCBSP轉(zhuǎn)語音帶音頻處理器(VBAP)接口

    電子發(fā)燒友網(wǎng)站提供《TMS320C6000 MCBSP轉(zhuǎn)語音帶音頻處理器(VBAP)接口.pdf》資料免費下載
    發(fā)表于 10-26 10:17 ?0次下載
    TMS320C6000 MCBSP<b class='flag-5'>轉(zhuǎn)語音</b>帶音頻處理器(VBAP)接口

    WT2605C TTS在線語音合成芯片:賦能多行業(yè)領(lǐng)域,引領(lǐng)產(chǎn)品智能化

    在當(dāng)今科技日新月異的時代,語音技術(shù)正逐步滲透到我們生活的方方面面,而TTS(Text-To-Speech,文本語音)技術(shù)作為其中的重要一環(huán),更是以其獨特的魅力改變了人機交互的方式。W
    的頭像 發(fā)表于 09-12 15:54 ?341次閱讀
    WT2605C TTS在線<b class='flag-5'>語音</b>合成芯片:賦能多行業(yè)領(lǐng)域,引領(lǐng)產(chǎn)品智能化

    收款機TTS語音芯片新方案:WT3000T8,雙語合成流暢,字庫解碼多樣!

    一:方案背景概述隨著科技的飛速發(fā)展,人工智能和語音識別技術(shù)在各個領(lǐng)域都得到了廣泛應(yīng)用。其中,文本轉(zhuǎn)語音(TTS)技術(shù)以其獨特的優(yōu)勢,在收款機語音
    的頭像 發(fā)表于 07-27 08:38 ?675次閱讀
    收款機TTS<b class='flag-5'>語音</b>芯片新方案:WT3000T8,雙語合成流暢,字庫解碼多樣!

    【算能RADXA微服務(wù)器試用體驗】+ GPT語音與視覺交互:4,文字轉(zhuǎn)語音

    文字轉(zhuǎn)語音使用的技術(shù)簡稱為TTS。一般情況下我用的都是在線的EDGE-TTS服務(wù)。但非常幸運的是,BM1684X上居然有適配好的本地運行TTS,那自然是要體驗一番。 先轉(zhuǎn)到project文件夾
    發(fā)表于 07-15 23:18

    Jacob:從ElevenLabs解決的行業(yè)問題來看,AI創(chuàng)業(yè)的思路與互聯(lián)網(wǎng)時代并不相同

    人聲是最原始、最個性的表達方式之一,為了提高效率,很多時候我們會使用合成語音來代替人聲,涉及到的商業(yè)場景有很多,例如虛擬智能助理、客戶呼叫中心、有聲讀物和媒體內(nèi)容創(chuàng)作。文本轉(zhuǎn)語音(TTS)是合成
    的頭像 發(fā)表于 07-10 08:05 ?232次閱讀
    Jacob:從ElevenLabs解決的行業(yè)問題來看,AI創(chuàng)業(yè)的思路與互聯(lián)網(wǎng)時代并不相同

    收款機TTS語音芯片新方案:WT3000T8,雙語合成流暢,字庫解碼多樣!

    不同播報要求下語音占用大量資源空間的問題。可以實現(xiàn)低成本低功耗的文本轉(zhuǎn)語音,支持中英文兩種功能,實現(xiàn)播報語音自由配置無需通過升級方式替換語音
    的頭像 發(fā)表于 06-26 11:17 ?683次閱讀
    收款機TTS<b class='flag-5'>語音</b>芯片新方案:WT3000T8,雙語合成流暢,字庫解碼多樣!

    訊飛星火長文本功能全新升級

    科大訊飛近日宣布,其首個長文本、長圖文、長語音大模型已完成全新升級。這一大模型不僅具備強大的學(xué)習(xí)能力,可以快速吸收海量文本、圖文資料以及會議錄音等多元化信息,更能在各行業(yè)場景中提供精準(zhǔn)、專業(yè)的回答。
    的頭像 發(fā)表于 05-06 11:22 ?566次閱讀

    科大訊飛創(chuàng)新推出長文本、長圖文、長語音大模型,解決落地難題

    近期,科大訊飛推出了首個支持長文本、長圖及語音大數(shù)據(jù)處理的大模型,該系統(tǒng)融合了多元化數(shù)據(jù)源,包括海量文字、圖片以及會議音頻等,能為各行業(yè)場景提供專業(yè)化、精準(zhǔn)化的答案。
    的頭像 發(fā)表于 04-28 09:32 ?383次閱讀

    WT3000T8-TTS語音合成芯片及應(yīng)用場景介紹

    TTS語音合成芯片是一種能夠?qū)?b class='flag-5'>文本信息轉(zhuǎn)化為自然語音的專用芯片。它通過內(nèi)置的語音合成算法和音頻處理單元,實現(xiàn)了文本
    的頭像 發(fā)表于 04-18 18:03 ?910次閱讀

    轉(zhuǎn)語音合成芯片(TTS芯片),看這一篇就夠了

    什么是語音合成芯片:語音合成芯片也稱為TTS芯片,即文字轉(zhuǎn)語音芯片,是一種能夠?qū)⑤斎氲奈淖中畔⑥D(zhuǎn)換為語音輸出的芯片。通過TTS芯片,我們可以將文字信息轉(zhuǎn)化為自然
    的頭像 發(fā)表于 03-19 18:13 ?1448次閱讀
    玩<b class='flag-5'>轉(zhuǎn)語音</b>合成芯片(TTS芯片),看這一篇就夠了

    快速全面了解大模型長文本能力

    那關(guān)于LLM的長文本能力,目前業(yè)界通常都是怎么做的?有哪些技術(shù)點或者方向?今天我們就來總結(jié)一波,供大家快速全面了解
    發(fā)表于 02-22 14:04 ?877次閱讀
    快速全面<b class='flag-5'>了解</b>大模型長<b class='flag-5'>文本</b>能力

    亞馬遜發(fā)布史上最大文本轉(zhuǎn)語音模型BASE TTS

    亞馬遜的人工智能研究團隊近日宣布,他們成功開發(fā)出了迄今為止規(guī)模最大的文本轉(zhuǎn)語音模型——BASE TTS。這款新模型擁有高達9.8億個參數(shù),不僅在規(guī)模上超越了之前的所有版本,還在能力上實現(xiàn)了質(zhì)的飛躍。
    的頭像 發(fā)表于 02-20 17:04 ?874次閱讀
    主站蜘蛛池模板: 久青草国产高清在线视频| 黄色a三级免费看| 亚洲国产成人久久精品图片| 国产在线精品观看一区| 在线观看色视频| 午夜美女写真福利写视频| 四虎在线成人免费网站| 日韩免费毛片全部不收费| 欧美黄色片视频| 欧美成人猛男性色生活| 国产午夜免费视频片夜色| 午夜一级成人| 欧美另类图片亚洲偷| 亚洲综合精品成人啪啪| 中文字幕一区二区三区免费看| 男女视频在线观看| 婷婷免费视频| 性孕妇洗澡video国产| 色综合 成人| 噜噜噜 综合 亚洲| japan高清视频乱xxxxx| 天天视频国产免费入口| 国产精品天天干| 日本不卡一区二区三区在线观看| 依人成人| 亚洲国产欧美精品一区二区三区 | 免费黄色成人| 在线观看视频播放| 国产性老妇女做爰在线| 唯美久草| 韩国三级在线视频| 国产三级日本三级在线播放| 久久国产精品夜色| 精品在线视频一区| 永久在线观看| 国产精品超清大白屁股| 亚洲一区二区欧美| 特级全黄一级毛片视频| 狠狠色视频| 深夜视频在线播放视频在线观看免费观看 | 女人午夜啪啪性刺激免费看|