盗墓笔记小说txt下载,完美世界有声小说,君子以泽

阿里又出黑科技。新的唇語閱讀 AI 系統(tǒng)在識別準(zhǔn)確率表現(xiàn)上不僅超越基線標(biāo)準(zhǔn)，也優(yōu)于專家級人類水平，有望為全球近 5 億聽障人士帶來福音。

阿里巴巴又出黑科技，AI 看唇語知內(nèi)容！

實際上，能夠從視頻中讀取嘴唇的 AI 和機(jī)器學(xué)習(xí)算法并沒有什么不同。早在 2016 年，來自 Google 和牛津大學(xué)的研究人員就詳細(xì)介紹了一種系統(tǒng)，該系統(tǒng)可以 46.8％的準(zhǔn)確度注釋視頻錄像，這個表現(xiàn)明顯優(yōu)于專業(yè)唇語識別人士 12.4％準(zhǔn)確度。但是，即使是最先進(jìn)的系統(tǒng)，也難以克服唇語識別時的歧義問題，這使唇語 AI 的性能一直難以超越音頻語音識別。

為了追求更好的性能，浙江阿里巴巴公司和史蒂文斯理工學(xué)院的研究人員聯(lián)合設(shè)計了一種方法，稱為 LIBS，該方法利用從語音識別器中提取的特征作為唇語識別時的補(bǔ)充信息。研究人員表示，LIBS 系統(tǒng)在兩個基準(zhǔn)測試中都達(dá)到了業(yè)界領(lǐng)先的準(zhǔn)確度，在識別字符錯誤率方面，LIBS 分別較基線性能高出 7.66％和 2.75％。

LIBS 和其他類似的解決方案一樣，都可以幫助聽障人士觀看缺少字幕的視頻。據(jù)估計，全世界有 4.66 億人患有失能性聽力障礙，約占世界人口的5％。根據(jù)世界衛(wèi)生組織的數(shù)據(jù)，到 2050 年，這一數(shù)字可能會超過 9 億。

LIBS 會從說話人的視頻中以多種不同尺度提取有用的音頻信息，包括序列級、上下文級和幀級。然后，系統(tǒng)會識別這些信息之間的對應(yīng)關(guān)系，將數(shù)據(jù)與視頻數(shù)據(jù)進(jìn)行對齊（由于開頭或結(jié)尾有時會出現(xiàn)采樣率不一致、視頻和音頻序列的長度不一致等情況），并利用過濾技術(shù)來優(yōu)化蒸餾功能。

LIBS 系統(tǒng)架構(gòu)示意圖

LIBS 的語音識別器和口語閱讀器組件均基于注意力的 seq2seq 體系結(jié)構(gòu)，這是一種機(jī)器翻譯方法，可將序列的輸入（即音頻或視頻）映射到帶有標(biāo)簽的輸出和注意力值上。研究人員對上述內(nèi)容在 LRS2 和 CMLR 數(shù)據(jù)集上進(jìn)行了訓(xùn)練，LRS2 包含來自 BBC 的 45000 多個口語句子，CMLR 則是最大的中文普通話口語語料庫，包括了來自中國網(wǎng)絡(luò)電視臺網(wǎng)站的 10 萬余個自然句（包括 3000 多個漢字和 20000 多個短語）。

不過，研究團(tuán)隊也表示，由于某些句子長度太短，該模型難以在 LRS2 數(shù)據(jù)集上實現(xiàn)“合理的”結(jié)果。（解碼器從少于 14 個字符的句子中提取相關(guān)信息時會遇到困難。）但是，一旦對最大長度為 16 個單詞的句子進(jìn)行了預(yù)訓(xùn)練，解碼器將可以通過對上下文級別的知識進(jìn)行設(shè)置，提高 LRS2 數(shù)據(jù)中句子結(jié)尾部分的質(zhì)量。

研究人員在描述其工作的論文中寫道：“ LIBS 減少了對無關(guān)框架的關(guān)注。” “幀級知識提煉進(jìn)一步提高了視頻幀特征的可分辨性，使注意力更加集中。”

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
30947

瀏覽量
269213
語音識別

語音識別

+關(guān)注

關(guān)注
38

文章
1741

瀏覽量
112677
阿里

阿里

+關(guān)注

關(guān)注
6

文章
438

瀏覽量
32839

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

阿里讀唇AI幫助5億聽障人士

評論

阿里國際推出全球首個B2B AI搜索引擎Accio

阿里達(dá)成股東訴訟和解協(xié)議阿里同意支付超30億元和解

阿里巴巴季報出爐阿里云二季度營收增長6%

阿里云推出首個域名AI大模型應(yīng)用

Cohere融資5億美元,加速AI賽道競爭步伐

阿里巴巴完成50億美元可轉(zhuǎn)換優(yōu)先票據(jù)發(fā)行

阿里與京東將發(fā)行可轉(zhuǎn)債，擬募集超50億美元資金

阿里云 all in AI 的決心

阿里宣布派發(fā)約40億美元股息財報顯示AI相關(guān)收入實現(xiàn)三位數(shù)同比增長

虹軟PhotoStudio AI入駐阿里1688平臺，加碼B2B商拍服務(wù)！

創(chuàng)客打造智能眼鏡，助聽障人士理解手語

阿里云內(nèi)部全面推行AI寫代碼

阿里大模型“通義聽悟”升級

大模型初創(chuàng)公司MiniMax估值超25億美元

讓“聾人”看到聲音行空板 —“AI助聽器”