用過(guò)智能音箱的小伙伴可能會(huì)有過(guò)這樣的經(jīng)歷,當(dāng)你和朋友同時(shí)對(duì)它講話時(shí),它有時(shí)候同時(shí)面對(duì)兩位小主的臨幸會(huì)感覺(jué)很凌亂,不知道該聽(tīng)誰(shuí)的,分不清到底是誰(shuí)在向它發(fā)出指令誰(shuí)才是它的主人。
其實(shí)這涉及到語(yǔ)音識(shí)別領(lǐng)域一個(gè)重要的問(wèn)題Speaker diarization(即說(shuō)話人分類技術(shù)),這一技術(shù)的目的在于從音頻流中分離出不同人說(shuō)話的語(yǔ)音,并將分離出的語(yǔ)音歸并到所屬的說(shuō)話人上,其核心問(wèn)題在于解決“who speak when”。這一技術(shù)對(duì)于理解對(duì)話、視頻標(biāo)注以及移動(dòng)端語(yǔ)音識(shí)別具有重要的意義。
對(duì)于Speaker diarization來(lái)說(shuō),其處理過(guò)程一般分為四個(gè)步驟:
語(yǔ)音分割:將不同說(shuō)話人的語(yǔ)音片段分割出來(lái),在音頻流中標(biāo)記分割點(diǎn);
音頻特征抽?。豪弥T如MFCC、說(shuō)話人因子或i-vector等來(lái)從片段中抽取特征;
聚類:當(dāng)檢測(cè)到多個(gè)說(shuō)話人并獲取了對(duì)應(yīng)語(yǔ)音片段的特征后需要利用聚類方法將相應(yīng)的片段歸類到對(duì)應(yīng)的說(shuō)話人中去。
重分割:優(yōu)化聚類結(jié)果來(lái)提升說(shuō)話人分類的精度。
近年來(lái),基于神經(jīng)網(wǎng)絡(luò)的音頻處理系統(tǒng)促進(jìn)了這一領(lǐng)域的快速發(fā)展,但要訓(xùn)練一個(gè)在任意情況下能夠準(zhǔn)確快速識(shí)別分類說(shuō)話人的模型并不是一件簡(jiǎn)單的事情。與標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)分類任務(wù)不同的是,說(shuō)話人分類模型需要對(duì)新出現(xiàn)的說(shuō)話人有著足夠魯棒的識(shí)別和分類性能,而在訓(xùn)練的過(guò)程中卻無(wú)法囊括現(xiàn)實(shí)中各式各樣的說(shuō)話人。這在很大程度上限制了語(yǔ)音識(shí)別系統(tǒng)特別是在線系統(tǒng)的實(shí)時(shí)能力。
雖然已有很多工作在這個(gè)領(lǐng)域進(jìn)行了努力,但目前整個(gè)Speaker diarization系統(tǒng)中依然存在著非監(jiān)督學(xué)習(xí)的部分——聚類過(guò)程。聚類的表現(xiàn)對(duì)于整個(gè)系統(tǒng)有著重要的作用,但目前大多數(shù)算法都是無(wú)監(jiān)督的方法,這使得我們無(wú)法通過(guò)語(yǔ)音樣本的監(jiān)督學(xué)習(xí)來(lái)改進(jìn)這些算法。此外典型的聚類方法如k均值和譜聚類等非監(jiān)督算法對(duì)于在線說(shuō)話人識(shí)別時(shí),應(yīng)對(duì)不斷輸入的音頻流很難有效聚類。
為了進(jìn)一步提高模型的表現(xiàn),谷歌的研究人員提出了一種監(jiān)督學(xué)習(xí)方法來(lái)實(shí)現(xiàn)語(yǔ)音特征的聚類。在最近發(fā)表的論文“Fully Supervised Speaker Diarization”中,研究人員提出了一個(gè)名為unbounded interleaved-state recurrentneural network (UIS-RNN)的聚類算法來(lái)提高了模型的性能。在語(yǔ)音識(shí)別數(shù)據(jù)集上達(dá)到了7.6%的錯(cuò)誤率,超過(guò)了其先前基于聚類方法(8.8%)和深度網(wǎng)絡(luò)嵌入方法(9.9%)。
這一方法與通常聚類方法的主要區(qū)別在于研究人員使用了參數(shù)共享的循環(huán)神經(jīng)網(wǎng)絡(luò)為所有的說(shuō)話人(embeddings)建模,并通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)的不同狀態(tài)來(lái)識(shí)別說(shuō)話人,這就能將不同的語(yǔ)音片段與不同的人對(duì)應(yīng)起來(lái)。
具體來(lái)看,每一個(gè)人的語(yǔ)音都可以看做權(quán)值共享的RNN的一個(gè)實(shí)例,由于生成的實(shí)例不受限所以可以適應(yīng)多個(gè)說(shuō)話人的場(chǎng)景。將RNN在不同輸入下的狀態(tài)對(duì)應(yīng)到不同的說(shuō)話人即可實(shí)現(xiàn)通過(guò)監(jiān)督學(xué)習(xí)來(lái)實(shí)現(xiàn)語(yǔ)音片段的歸并。通過(guò)完整的監(jiān)督模型,可以得到語(yǔ)音中說(shuō)話人的數(shù)量,并可以通過(guò)RNN攜帶時(shí)變的信息,這將會(huì)對(duì)在線系統(tǒng)的性能帶來(lái)質(zhì)的提升。
這一論文的主要貢獻(xiàn)如下:
提出了無(wú)界間隔狀態(tài)(. Unbounded interleaved-state )RNN,一個(gè)可以通過(guò)監(jiān)督學(xué)習(xí)訓(xùn)練的對(duì)于時(shí)變數(shù)據(jù)分割和聚類的算法;
全監(jiān)督的說(shuō)話人分類系統(tǒng);
數(shù)據(jù)集上誤差提升到7.6%;
提高線上任務(wù)表現(xiàn)。
那么它具體是怎么工作的呢?假設(shè)我們有四個(gè)人同時(shí)對(duì)著這個(gè)AI說(shuō)話(這是個(gè)例子,模型其實(shí)可以處理更多的人)。那么每個(gè)人將會(huì)得到一個(gè)自己的RNN實(shí)例,擁有相同的初始狀態(tài)和參數(shù)。隨著語(yǔ)音片段的特征不斷被送入到網(wǎng)絡(luò)中而更新?tīng)顟B(tài)。
例如下面的藍(lán)色人在實(shí)例化后,他將一直保持RNN的狀態(tài),直到黃色的語(yǔ)音片段進(jìn)入并開(kāi)啟新的RNN實(shí)例,這時(shí)在最頂部輸出的狀態(tài)就成為了黃色了。但后面如果藍(lán)色繼續(xù)說(shuō)話,藍(lán)色RNN狀態(tài)也會(huì)相應(yīng)的重新轉(zhuǎn)移到藍(lán)色上。下圖最后的虛線顯示了y7各種不同的狀態(tài)。對(duì)于新出現(xiàn)的綠色說(shuō)話人來(lái)說(shuō),將重新開(kāi)啟一個(gè)新的實(shí)例。
利用RNN對(duì)說(shuō)話人語(yǔ)音進(jìn)行表示,將能夠利用RNN參數(shù)從不同的說(shuō)話人和言語(yǔ)中學(xué)習(xí)到高層級(jí)的知識(shí),這對(duì)于標(biāo)記豐富的數(shù)據(jù)集來(lái)說(shuō)將會(huì)得到更對(duì)更好的結(jié)果。利用帶有時(shí)間戳的說(shuō)話人標(biāo)簽數(shù)據(jù),可以通過(guò)隨機(jī)梯度下降法來(lái)訓(xùn)練模型,可用于新的說(shuō)話人,并提高在線任務(wù)的表現(xiàn)。
在未來(lái)研究人員將會(huì)改進(jìn)這一模型用于離線解碼上下文信息的整合;同時(shí)還希望直接利用聲學(xué)特征代替d-vectors作為音頻特征,這樣就能實(shí)現(xiàn)完整的端到端模型了。
其實(shí),谷歌先前的工作為這一方法打下了堅(jiān)實(shí)的基礎(chǔ)。去年的論文“SPEAKER DIARIZATION WITH LSTM”中就提出了利用LSTM與d-vertor結(jié)合來(lái)提升模型的表現(xiàn)。
但這篇論文中使用的聚類算法依然是無(wú)監(jiān)督的方法,這也為這次新工作的提出奠定了基礎(chǔ)。
除此之外,研究人員們還嘗試了利用視覺(jué)輔助的方法來(lái)識(shí)別誰(shuí)在說(shuō)話,并在論文“Looking to Listen at the Cocktail Party”中提出了利用視覺(jué)信息識(shí)別混合場(chǎng)景下說(shuō)話人的方法:
相信不久后,家里的各種小可愛(ài)智能音響將可以清楚的分辨出誰(shuí)是爸爸誰(shuí)是媽媽,誰(shuí)才是它的主人。對(duì)于嘈雜多人環(huán)境下語(yǔ)音指令的準(zhǔn)確性和對(duì)話系統(tǒng)的交互表現(xiàn)有著重要的作用。同時(shí)對(duì)于音視頻分析和音頻高維語(yǔ)義信息的抽取學(xué)習(xí)將會(huì)有很大的促進(jìn)作用。如果可以準(zhǔn)確識(shí)別對(duì)話中每個(gè)人的對(duì)話、時(shí)長(zhǎng)、分布,甚至可以分析出每個(gè)用戶的語(yǔ)言習(xí)慣、說(shuō)話節(jié)奏等高級(jí)特征,與其他技術(shù)結(jié)合將能夠在行為識(shí)別、情感分析甚至語(yǔ)音加密等方面帶來(lái)重要的影響。
-
谷歌
+關(guān)注
關(guān)注
27文章
6192瀏覽量
105804 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4779瀏覽量
101040 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24792
原文標(biāo)題:聽(tīng)不清誰(shuí)在講話?谷歌新模型助力分辨聲音的主人
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論