【導(dǎo)讀】2016年152層殘差網(wǎng)絡(luò)圖像識別精準(zhǔn)率96%,2017年語音識別基準(zhǔn)測試誤差率5.1%,2018年1月文本理解測試精準(zhǔn)率88.5%,3月機(jī)器翻譯研究系統(tǒng)精準(zhǔn)率達(dá)到69.9%,12月語音合成測試版在Azure正式上線,并首次達(dá)到超過專業(yè)翻譯人士的水平,微軟人工智能(AI)再次刷新世界紀(jì)錄。
12月18日,在IoT In Action峰會上,微軟全球資深院士首席語音科學(xué)家黃學(xué)東博士介紹智能語音和語言上的最新進(jìn)展。首款媲美專業(yè)發(fā)音人的實(shí)時在線語音合成系統(tǒng)預(yù)覽版在Azure上正式運(yùn)營服務(wù)。
黃學(xué)東博士表示,微軟在云服務(wù)上提供了世界級的語音合成服務(wù),所有的互聯(lián)網(wǎng)內(nèi)容提供商都可以享受這個世界級的技術(shù)。它不僅解決了過去20年機(jī)器語音識別錯誤率居高不下的難題,更是人工智能語音和語言上的一次歷史性突破——采用先進(jìn)深度網(wǎng)絡(luò)學(xué)習(xí),簡化了傳統(tǒng)語音合成的架構(gòu)。
從以上圖片可以看出,左邊紫色系統(tǒng)架構(gòu)下,微軟通過端到端的深度學(xué)習(xí)優(yōu)化,為大家提供前所未有的、最自然的語音合成系統(tǒng)。
“基于神經(jīng)網(wǎng)絡(luò)的語音合成系統(tǒng)”是業(yè)界第一個實(shí)時的在語音上上線的人工智能服務(wù)。黃學(xué)東博士指出,大家可以享受更好的語音合成質(zhì)量、更快的引擎性能、更廣的全球服務(wù)部署。所有的內(nèi)容提供商,不管是有沒有音頻、你的內(nèi)容都可以轉(zhuǎn)換成自然的聲音表達(dá),不管是在開車還是在睡覺,都可以享受高質(zhì)量的交互。
同時,微軟聯(lián)合全球合作伙伴一起推出強(qiáng)大的語音麥克風(fēng)陣列開發(fā)系統(tǒng)(Speech Devices SDK簡稱Speech DDK),它可以在25m之外都可以轉(zhuǎn)寫你的聲音,DDK不僅可供用戶免費(fèi)使用,還可以整合到任何硬件設(shè)備中去,通過微軟云服務(wù)為用戶提供最先進(jìn)的、世界一流的語音交互服務(wù)。
DDK讓智能音箱“說話”。這是一款眼觀六路的智能音箱系統(tǒng),為企業(yè)級的會議轉(zhuǎn)寫提供前所未有的智能服務(wù)。
可以看到,它不僅僅是業(yè)界第一臺多人原場會議轉(zhuǎn)錄系統(tǒng),而且是業(yè)界第一臺“睜開雙眼”的智能音箱。
隨著語音識別技術(shù)不斷取得進(jìn)步。放眼未來,各國間的語言溝通障礙不再有任何問題,人類離人工智能真正的目標(biāo)又將推進(jìn)一小步。
-
微軟
+關(guān)注
關(guān)注
4文章
6612瀏覽量
104165 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4774瀏覽量
100898 -
語音識別
+關(guān)注
關(guān)注
38文章
1742瀏覽量
112718 -
人工智能
+關(guān)注
關(guān)注
1792文章
47425瀏覽量
238962 -
語音合成
+關(guān)注
關(guān)注
2文章
90瀏覽量
16176
發(fā)布評論請先 登錄
相關(guān)推薦
評論