有声,完美世界txt全集下载,将夜猫腻小说

人工智能（ AI ）已經將合成語音從單調的機器人呼叫和幾十年前的 GPS 導航系統轉變為智能手機和智能揚聲器中虛擬助理的優美音調。

對于組織來說，為其特定行業和領域使用定制的最新語音 AI 技術從未如此容易。

語音 AI 正被用于 power 虛擬助理，擴展呼叫中心，使數字化身人性化，增強 AR 體驗，并通過自動化臨床記錄為患者提供無摩擦的醫療體驗。

根據 Gartner Research ，到 2023 年，客戶將傾向于使用語音接口啟動 70% 的自助式客戶互動（ 2019 年為 40% ）。對個性化和自動化體驗的需求只會繼續增長。

在這篇文章中，我將討論語音 AI ，它是如何工作的，語音識別技術的好處，以及語音 AI 用例的示例。

什么是語音人工智能，其好處是什么？

語音 AI 將 AI 用于基于語音的技術：自動語音識別（ ASR ），也稱為語音對文本和文本對語音（ TTS ）。例如，虛擬會議中的自動實時字幕顯示，以及向虛擬助理添加基于語音的界面。

Sim i 通常，基于語言的應用程序，如聊天機器人、文本分析和數字助理，將語音 AI 與自然語言處理（ NLP ）一起作為大型應用程序或系統的一部分。有關更多信息，請參閱對話 AI 詞匯表。

語音 AI 有很多好處：

High availability ：語音 AI 應用程序可以在人工代理時間內外響應客戶呼叫，使聯絡中心能夠更高效地運行。

Real-time insights：實時記錄被指定為以客戶為中心的業務分析的輸入，如情緒分析、客戶體驗分析和欺詐檢測。

Instant scalability：在高峰時，語音 AI 應用程序可以自動擴展，以處理客戶的數萬個請求。

Enhanced experiences ：語音人工智能通過減少等待時間、快速解決客戶查詢并提供可定制語音界面的人性化交互，提高了客戶滿意度。

數字可訪問性：從語音到文本再到文本再到語音應用，語音 AI 工具正在幫助那些有閱讀和聽力障礙的人從生成的語音和書面文本中學習。

誰在使用語音 AI 以及如何使用？

今天，語音 AI 正在徹底改變世界上最大的行業，如金融、電信和統一通信即服務（ UCaaS ）。

從深度學習、基于語音的技術起步的公司以及擴展現有基于語音的 conversational AI 平臺的成熟公司都受益于語音 AI 。

以下是語音 AI 提高效率和業務成果的一些具體示例。

呼叫中心轉錄

全球約有 1000 萬呼叫中心代理每天接聽 20 億個電話。呼叫中心用例包括以下所有內容：

趨勢分析

法規遵從性

實時安全或欺詐分析

實時情緒分析

實時翻譯

例如，自動語音識別記錄客戶和呼叫中心代理之間的實時對話，以進行文本分析，然后用于為代理提供快速解決客戶查詢的實時建議。

臨床記錄

在醫療保健領域，語音 AI 應用程序改善了患者與醫療專業人員和理賠代表的聯系。 ASR automates note-taking 在患者 – 醫生對話和索賠代理信息提取期間。

虛擬助理

每個行業都有虛擬助理，可以增強用戶體驗。 ASR 用于為虛擬助手轉錄音頻查詢。然后，文本到語音

生成虛擬助理的合成語音。除了使交易情境人性化之外，虛擬助理還幫助視力受損者與非盲文文本、語音障礙者以及兒童進行互動。

語音 AI 是如何工作的？

語音 AI 使用自動語音識別和文本到語音技術為對話應用程序提供語音接口。典型的語音人工智能管道包括數據預處理階段、神經網絡模型訓練和后處理。

在本節中，我將討論 ASR 和 TTS 管道中的這些階段。

圖 3 ：。對話 AI 應用的語音接口

自動語音識別

為了讓機器能夠聽到并與人類對話，它們需要一種將聲音轉換為代碼的通用媒介。設備或應用程序如何通過聲音“看到”世界？

ASR pipeline 將包含語音的給定原始音頻文件處理并轉錄為相應的文本，同時最小化稱為字錯誤率（ WER ）的度量。

WER 用于測量和比較不同類型的語音識別系統和算法的性能。它是由錯誤數除以正在轉錄的剪輯中的單詞數來計算的。

ASR 管道必須完成一系列任務，包括特征提取、聲學建模以及語言建模。

圖 4 ：。 ASR 管道

特征提取任務涉及將原始模擬音頻信號轉換為頻譜圖，頻譜圖是表示信號在不同頻率下隨時間變化的響度的視覺圖表，類似于熱圖。轉換過程的一部分涉及傳統的信號預處理技術，如 standardization 和 windowing 。

然后使用 Acoustic modeling 來建模音頻信號與語言中語音單位之間的關系。它將音頻片段映射到最可能不同的語音單元和相應的字符。

ASR 管道中的最后一項任務涉及語言建模。 language model 添加了上下文表示并更正了聲學模型的錯誤。換句話說，當您擁有聲學模型中的字符時，您可以將這些字符轉換為單詞序列，這些單詞可以進一步處理為短語和句子。

歷史上，這一系列任務是使用生成方法執行的，該方法要求使用語言模型、發音模型和聲學模型將發音轉換為音頻波形。然后，可以使用高斯混合模型或隱馬爾可夫模型來嘗試查找最可能與音頻波形中的聲音匹配的單詞。

這種統計方法在實施和部署的時間和精力上不太準確，而且更加密集。當試圖確保音頻數據的每個時間步與字符的正確輸出相匹配時，尤其如此。

然而，端到端的深度學習模型，如連接主義時間分類（ CTC ）模型和注意序列到序列模型，可以直接從音頻信號生成轉錄本，并且具有較低的 WER 。

換言之， Jasper 、 QuartzNet 和 Citrinet 等基于深度學習的模型使公司能夠創建成本更低、功能更強大、更精確的語音 AI 應用程序。

文本到語音

TTS 或 speech synthesis 管道負責將文本轉換為自然發音的語音，這種語音是人工生成的，具有類似人類的語調和清晰的發音。

圖 5 ：。 TTS 管道

TTS 管道可能必須完成許多不同的任務，包括文本分析、 linguistic analysis 和波形生成。

在 text analysis 階段，原始文本（帶有符號、縮寫等）被轉換為完整的單詞和句子，擴展縮寫，并分析表達式。輸出被傳遞到語言分析中，以精煉語調、持續時間，并以其他方式理解語法結構。結果，產生 spectrogram 或 mel 頻譜圖以轉換為連續的類人音頻。

我之前介紹的方法是一個典型的兩步過程，需要一個合成網絡和一個 vocoder 網絡。這是兩個獨立的網絡，用于從文本生成頻譜圖（使用 Tacotron architecture 或 FastPitch ）和從頻譜圖或其他中間表示（如 WaveGlow 或 HiFiGAN ）生成音頻的后續目的。

除了兩階段方法外， TTS 管道的另一個可能實現涉及使用端到端的深度學習模型，該模型使用單個模型直接從文本生成音頻。神經網絡直接從文本 – 音頻對中訓練，不依賴中間表示。

端到端方法降低了復雜性，因為它減少了網絡之間的錯誤傳播，減少了對單獨培訓管道的需要，并最大限度地降低了手動注釋持續時間信息的成本。

傳統的 TTS 方法也傾向于產生更多機器人和不自然的聲音，影響用戶參與，尤其是面向消費者的應用程序和服務。

構建語音 AI 系統的挑戰

成功的語音 AI 應用程序必須啟用以下功能。

獲取最先進的模型

從頭開始創建訓練有素、準確的深度學習模型既昂貴又耗時。

通過在前沿模型發布后立即提供對其的訪問，即使是數據和資源受限的公司也可以在其產品和服務中使用高度精確、經過預訓練的模型和 transfer learning 。

高精度

要在全球或任何行業或領域部署，必須對模型進行定制，以適應多種語言（世界上 6500 種口語的一小部分）、方言、口音和上下文。一些域使用特定術語和技術術語。

實時性能

由多個深度學習模型組成的管道必須以毫秒為單位運行推斷，以實現實時交互，精確到 300 毫秒，因為大多數用戶在 100 毫秒左右開始注意到滯后和通信故障，在此之前，對話或體驗開始感覺不自然。

靈活且可擴展的部署

公司需要不同的部署模式，甚至可能需要混合使用云、內部部署和邊緣部署。成功的系統支持擴展到需求波動的數十萬并發用戶。

數據所有權和隱私

公司應該能夠為其行業和領域實施適當的安全實踐，例如在本地或組織的云中進行安全數據處理。例如，可能要求遵守 HIPAA 或其他法規的醫療保健公司限制數據訪問和數據處理。

語音 AI 的未來

由于計算基礎設施、語音 AI 算法的進步，對遠程服務的需求增加，以及現有和新興行業令人興奮的新用例，基于語音 AI 的產品和服務現在有了一個強大的生態系統和基礎設施。

當前的語音 AI 應用程序在推動業務成果方面功能強大，但下一代語音 AI 應用程序必須能夠處理多語言、多領域和多用戶對話。

能夠成功地將語音 AI 技術集成到其核心運營中的組織將具備良好的能力，能夠根據尚未列出的用例擴展其服務和產品。

關于作者

MikikoBazeley 是 Mailchimp 的高級 ML 操作和平臺工程師。她擁有豐富的工程師、數據科學家和數據分析師經驗，為初創公司和高增長公司利用機器學習和數據開發面向消費者和企業的產品。她積極貢獻有關開發 ML 產品的最佳實踐的內容，并在數據科學職業生涯中發言和指導非傳統候選人。

審核編輯：郭婷

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
87

文章
30979

瀏覽量
269250
機器學習

機器學習

+關注

關注
66

文章
8421

瀏覽量
132703
深度學習

深度學習

+關注

關注
73

文章
5504

瀏覽量
121213

發布于 :2024年08月21日 14:45:06

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

語音AI簡介

評論

解鎖個性化語音交互新時代：九芯智能語音云平臺，讓創意聲音觸手可及！

湯姆貓AI語音情感陪伴機器人搭載全志R128芯片

湯姆貓發布AI語音情感陪伴機器人研發進展

大聯大推出基于MediaTek Genio 130與ChatGPT的AI語音助理方案

AI潮流下的辦公“神器”選擇，沸蛇AI語音鼠標真正實現效率翻倍

AI降噪算法通信語音模塊A-59

基于瑞薩電子Reality AI Tools工具的語音反欺騙應用示例

杭州國芯微AIoT產品系列及方案列表

SoundHound AI語音助手賦能歐洲汽車，引領智能駕駛新風尚

啟英泰倫CI13LC系列：打造AI語音芯片性價比之王！

聆思CSK6視覺語音大模型AI開發板入門資源合集（硬件資料、大模型語音/多模態交互/英語評測SDK合集）

語音降噪的原理

蘋果iOS 18備忘錄將搭載AI升級功能，新增語音轉文字和文本摘要功能

USB AI話務語音降噪音頻方案

AI語音與機器視覺開發應用系統