【導讀】:日前,阿里巴巴達摩院機器智能實驗室推出了新一代語音識別模型DFSMN,據(jù)悉語音識別準確率達96.04%,未來將用于智能家居設備。
達摩院機器智能實驗室的語音識別團隊主導了這個模型的研發(fā),并宣布向全世界企業(yè)與個人開源。對比目前業(yè)界使用最為廣泛的LSTM模型,DFSMN模型訓練速度更快、識別準確率更高。采用全新DFSMN模型的智能音響或智能家居設備,相比前代技術深度學習訓練速度提到了3倍,語音識別速度提高了2倍。
在近期舉行的云棲大會武漢峰會上,裝有DFSMN語音識別模型的“AI收銀員”在與真人店員的PK中,在嘈雜環(huán)境下準確識別了用戶的語音點單,在短短49秒內點了34杯咖啡。此外,裝備這一語音識別技術的自動售票機也已在上海地鐵“上崗”。
著名語音識別專家,西北工業(yè)大學教授謝磊表示:“阿里此次開源的DFSMN模型,在語音識別準確率上的穩(wěn)定提升是突破性的。是近年來深度學習在語音識別領域最具代表性的成果之一。對全球學術界和AI技術應用都有巨大影響。”有業(yè)內人士稱,DFSMN有望成為繼傳統(tǒng)的LSTM模型后,成為全球語音識別領域最主要的聲學識別模型之一。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
相關推薦
準確率,可以從以下幾個方面進行改進。一、優(yōu)化算法與模型人臉識別的核心在于算法的優(yōu)化和模型的調整,目前深度學習技術在圖像識別中的應用取得了顯著
發(fā)表于 12-10 15:05
?147次閱讀
了人機交互的革命,使得機器能夠更加自然地與人類溝通。 語音識別技術概述 語音識別,也稱為自動語音識別
發(fā)表于 11-26 09:21
?382次閱讀
體驗。 語音識別技術的原理 語音識別技術的核心在于將聲波信號轉換為可理解的文本信息。這一過程通常包括以下幾個步驟: 聲學模型 :用于
發(fā)表于 11-26 09:20
?454次閱讀
識別技術。 構建更深更復雜的神經(jīng)網(wǎng)絡模型,利用大量數(shù)據(jù)進行訓練。 提高了語音識別的準確率和穩(wěn)定性。 傳統(tǒng)
發(fā)表于 11-18 15:22
?467次閱讀
,AI可能表現(xiàn)出較高的準確率。例如,在圖像識別、語音識別等領域,經(jīng)過大量訓練的AI系統(tǒng)通常能夠取得令人滿意的準確率。 然而,在其他領域或場景
發(fā)表于 10-17 16:30
?3131次閱讀
在杭州第四屆RISC-V中國峰會上,阿里達摩院再次展現(xiàn)技術實力,隆重推出了玄鐵處理器家族的最新成員——R908 CPU。此次發(fā)布標志著玄鐵系列在高端計算領域的全面升級,吸引了業(yè)界的廣泛矚目。
發(fā)表于 08-23 16:27
?1001次閱讀
了新的變革。?一、高識別準確率和快速響應?NRK3301語音識別芯片采用最新的神經(jīng)網(wǎng)絡(?TDNN)?算法,?具有高識別
發(fā)表于 08-03 08:07
?439次閱讀
離線語音識別芯片適用于智能家電等,特點為小詞匯量、低成本、安全性高、響應快,無需聯(lián)網(wǎng)。在線語音識別功能更廣泛、識別
發(fā)表于 07-22 11:33
?406次閱讀
隨著人工智能技術的飛速發(fā)展,語音識別和語音生成作為人機交互的重要組成部分,正逐漸滲透到我們生活的各個方面。而Transformer模型,自其
發(fā)表于 07-03 18:24
?1116次閱讀
語音識別技術是在智能會議系統(tǒng)中至關重要,準確的智能會議語音識別能力,意味著會議參與者可以通過語音
發(fā)表于 06-21 11:15
?347次閱讀
語音識別技術是在智能會議系統(tǒng)中至關重要,準確的智能會議語音識別能力,意味著會議參與者可以通過語音
發(fā)表于 06-21 11:13
?493次閱讀
近日,阿里巴巴達摩院(湖畔實驗室)攜手新加坡南洋理工大學等研究機構,共同推出了大模型知識鏈(CoK)框架。該框架不僅可實時檢索異構知識源,還能逐步糾正推理錯誤,有效提高了大
發(fā)表于 05-10 11:46
?695次閱讀
集上測試了NB模型的步態(tài)識別準確率。CASIA-B是一個大規(guī)模、多視角的步態(tài)識別數(shù)據(jù)集,共包含124個樣本,每個樣本都有10種步態(tài)序列,分為6個正常行走的序列(NM),2個身著長外套行
發(fā)表于 03-04 10:15
天眼查信息顯示,達摩院(上海)科技有限公司已正式成立,法定代表人為張建鋒,注冊資本為1000萬人民幣。該公司由阿里巴巴旗下阿里巴巴達摩
發(fā)表于 02-04 10:52
?1009次閱讀
模型介紹Whisper模型是一個由OpenAI團隊開發(fā)的通用語音識別模型。它的訓練基于大量不同的音頻數(shù)據(jù)集,是一個多任務
發(fā)表于 01-06 08:33
?3663次閱讀
評論