在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌的研究人員提出了一種監(jiān)督學(xué)習(xí)方法來(lái)實(shí)現(xiàn)語(yǔ)音特征的聚類

nlfO_thejiangme ? 來(lái)源:未知 ? 作者:李倩 ? 2018-11-16 11:13 ? 次閱讀

用過(guò)智能音箱的小伙伴可能會(huì)有過(guò)這樣的經(jīng)歷,當(dāng)你和朋友同時(shí)對(duì)它講話時(shí),它有時(shí)候同時(shí)面對(duì)兩位小主的臨幸會(huì)感覺(jué)很凌亂,不知道該聽(tīng)誰(shuí)的,分不清到底是誰(shuí)在向它發(fā)出指令誰(shuí)才是它的主人。

其實(shí)這涉及到語(yǔ)音識(shí)別領(lǐng)域一個(gè)重要的問(wèn)題Speaker diarization(即說(shuō)話人分類技術(shù)),這一技術(shù)的目的在于從音頻流中分離出不同人說(shuō)話的語(yǔ)音,并將分離出的語(yǔ)音歸并到所屬的說(shuō)話人上,其核心問(wèn)題在于解決“who speak when”。這一技術(shù)對(duì)于理解對(duì)話、視頻標(biāo)注以及移動(dòng)端語(yǔ)音識(shí)別具有重要的意義。

對(duì)于Speaker diarization來(lái)說(shuō),其處理過(guò)程一般分為四個(gè)步驟:

語(yǔ)音分割:將不同說(shuō)話人的語(yǔ)音片段分割出來(lái),在音頻流中標(biāo)記分割點(diǎn);

音頻特征抽?。豪弥T如MFCC、說(shuō)話人因子或i-vector等來(lái)從片段中抽取特征;

聚類:當(dāng)檢測(cè)到多個(gè)說(shuō)話人并獲取了對(duì)應(yīng)語(yǔ)音片段的特征后需要利用聚類方法將相應(yīng)的片段歸類到對(duì)應(yīng)的說(shuō)話人中去。

重分割:優(yōu)化聚類結(jié)果來(lái)提升說(shuō)話人分類的精度。

近年來(lái),基于神經(jīng)網(wǎng)絡(luò)的音頻處理系統(tǒng)促進(jìn)了這一領(lǐng)域的快速發(fā)展,但要訓(xùn)練一個(gè)在任意情況下能夠準(zhǔn)確快速識(shí)別分類說(shuō)話人的模型并不是一件簡(jiǎn)單的事情。與標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)分類任務(wù)不同的是,說(shuō)話人分類模型需要對(duì)新出現(xiàn)的說(shuō)話人有著足夠魯棒的識(shí)別和分類性能,而在訓(xùn)練的過(guò)程中卻無(wú)法囊括現(xiàn)實(shí)中各式各樣的說(shuō)話人。這在很大程度上限制了語(yǔ)音識(shí)別系統(tǒng)特別是在線系統(tǒng)的實(shí)時(shí)能力。

雖然已有很多工作在這個(gè)領(lǐng)域進(jìn)行了努力,但目前整個(gè)Speaker diarization系統(tǒng)中依然存在著非監(jiān)督學(xué)習(xí)的部分——聚類過(guò)程。聚類的表現(xiàn)對(duì)于整個(gè)系統(tǒng)有著重要的作用,但目前大多數(shù)算法都是無(wú)監(jiān)督的方法,這使得我們無(wú)法通過(guò)語(yǔ)音樣本的監(jiān)督學(xué)習(xí)來(lái)改進(jìn)這些算法。此外典型的聚類方法如k均值和譜聚類等非監(jiān)督算法對(duì)于在線說(shuō)話人識(shí)別時(shí),應(yīng)對(duì)不斷輸入的音頻流很難有效聚類。

為了進(jìn)一步提高模型的表現(xiàn),谷歌的研究人員提出了一種監(jiān)督學(xué)習(xí)方法來(lái)實(shí)現(xiàn)語(yǔ)音特征的聚類。在最近發(fā)表的論文“Fully Supervised Speaker Diarization”中,研究人員提出了一個(gè)名為unbounded interleaved-state recurrentneural network (UIS-RNN)的聚類算法來(lái)提高了模型的性能。在語(yǔ)音識(shí)別數(shù)據(jù)集上達(dá)到了7.6%的錯(cuò)誤率,超過(guò)了其先前基于聚類方法(8.8%)和深度網(wǎng)絡(luò)嵌入方法(9.9%)。

這一方法與通常聚類方法的主要區(qū)別在于研究人員使用了參數(shù)共享的循環(huán)神經(jīng)網(wǎng)絡(luò)為所有的說(shuō)話人(embeddings)建模,并通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)的不同狀態(tài)來(lái)識(shí)別說(shuō)話人,這就能將不同的語(yǔ)音片段與不同的人對(duì)應(yīng)起來(lái)。

具體來(lái)看,每一個(gè)人的語(yǔ)音都可以看做權(quán)值共享的RNN的一個(gè)實(shí)例,由于生成的實(shí)例不受限所以可以適應(yīng)多個(gè)說(shuō)話人的場(chǎng)景。將RNN在不同輸入下的狀態(tài)對(duì)應(yīng)到不同的說(shuō)話人即可實(shí)現(xiàn)通過(guò)監(jiān)督學(xué)習(xí)來(lái)實(shí)現(xiàn)語(yǔ)音片段的歸并。通過(guò)完整的監(jiān)督模型,可以得到語(yǔ)音中說(shuō)話人的數(shù)量,并可以通過(guò)RNN攜帶時(shí)變的信息,這將會(huì)對(duì)在線系統(tǒng)的性能帶來(lái)質(zhì)的提升。

這一論文的主要貢獻(xiàn)如下:

提出了無(wú)界間隔狀態(tài)(. Unbounded interleaved-state )RNN,一個(gè)可以通過(guò)監(jiān)督學(xué)習(xí)訓(xùn)練的對(duì)于時(shí)變數(shù)據(jù)分割和聚類的算法;

全監(jiān)督的說(shuō)話人分類系統(tǒng);

數(shù)據(jù)集上誤差提升到7.6%;

提高線上任務(wù)表現(xiàn)。

那么它具體是怎么工作的呢?假設(shè)我們有四個(gè)人同時(shí)對(duì)著這個(gè)AI說(shuō)話(這是個(gè)例子,模型其實(shí)可以處理更多的人)。那么每個(gè)人將會(huì)得到一個(gè)自己的RNN實(shí)例,擁有相同的初始狀態(tài)和參數(shù)。隨著語(yǔ)音片段的特征不斷被送入到網(wǎng)絡(luò)中而更新?tīng)顟B(tài)。

例如下面的藍(lán)色人在實(shí)例化后,他將一直保持RNN的狀態(tài),直到黃色的語(yǔ)音片段進(jìn)入并開(kāi)啟新的RNN實(shí)例,這時(shí)在最頂部輸出的狀態(tài)就成為了黃色了。但后面如果藍(lán)色繼續(xù)說(shuō)話,藍(lán)色RNN狀態(tài)也會(huì)相應(yīng)的重新轉(zhuǎn)移到藍(lán)色上。下圖最后的虛線顯示了y7各種不同的狀態(tài)。對(duì)于新出現(xiàn)的綠色說(shuō)話人來(lái)說(shuō),將重新開(kāi)啟一個(gè)新的實(shí)例。

利用RNN對(duì)說(shuō)話人語(yǔ)音進(jìn)行表示,將能夠利用RNN參數(shù)從不同的說(shuō)話人和言語(yǔ)中學(xué)習(xí)到高層級(jí)的知識(shí),這對(duì)于標(biāo)記豐富的數(shù)據(jù)集來(lái)說(shuō)將會(huì)得到更對(duì)更好的結(jié)果。利用帶有時(shí)間戳的說(shuō)話人標(biāo)簽數(shù)據(jù),可以通過(guò)隨機(jī)梯度下降法來(lái)訓(xùn)練模型,可用于新的說(shuō)話人,并提高在線任務(wù)的表現(xiàn)。

在未來(lái)研究人員將會(huì)改進(jìn)這一模型用于離線解碼上下文信息的整合;同時(shí)還希望直接利用聲學(xué)特征代替d-vectors作為音頻特征,這樣就能實(shí)現(xiàn)完整的端到端模型了。

其實(shí),谷歌先前的工作為這一方法打下了堅(jiān)實(shí)的基礎(chǔ)。去年的論文“SPEAKER DIARIZATION WITH LSTM”中就提出了利用LSTM與d-vertor結(jié)合來(lái)提升模型的表現(xiàn)。

但這篇論文中使用的聚類算法依然是無(wú)監(jiān)督的方法,這也為這次新工作的提出奠定了基礎(chǔ)。

除此之外,研究人員們還嘗試了利用視覺(jué)輔助的方法來(lái)識(shí)別誰(shuí)在說(shuō)話,并在論文“Looking to Listen at the Cocktail Party”中提出了利用視覺(jué)信息識(shí)別混合場(chǎng)景下說(shuō)話人的方法:

相信不久后,家里的各種小可愛(ài)智能音響將可以清楚的分辨出誰(shuí)是爸爸誰(shuí)是媽媽,誰(shuí)才是它的主人。對(duì)于嘈雜多人環(huán)境下語(yǔ)音指令的準(zhǔn)確性和對(duì)話系統(tǒng)的交互表現(xiàn)有著重要的作用。同時(shí)對(duì)于音視頻分析和音頻高維語(yǔ)義信息的抽取學(xué)習(xí)將會(huì)有很大的促進(jìn)作用。如果可以準(zhǔn)確識(shí)別對(duì)話中每個(gè)人的對(duì)話、時(shí)長(zhǎng)、分布,甚至可以分析出每個(gè)用戶的語(yǔ)言習(xí)慣、說(shuō)話節(jié)奏等高級(jí)特征,與其他技術(shù)結(jié)合將能夠在行為識(shí)別、情感分析甚至語(yǔ)音加密等方面帶來(lái)重要的影響。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6192

    瀏覽量

    105804
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4779

    瀏覽量

    101040
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1209

    瀏覽量

    24792

原文標(biāo)題:聽(tīng)不清誰(shuí)在講話?谷歌新模型助力分辨聲音的主人

文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 0人收藏

    評(píng)論

    相關(guān)推薦

    深非監(jiān)督學(xué)習(xí)-Hierarchical clustering 層次python的實(shí)現(xiàn)

    【深度學(xué)習(xí)基礎(chǔ)-17】非監(jiān)督學(xué)習(xí)-Hierarchical clustering 層次-python實(shí)現(xiàn)
    發(fā)表于 04-28 10:07

    一種個(gè)數(shù)自適應(yīng)的方法(簡(jiǎn)稱SKKM)

    在數(shù)據(jù)挖掘算法中,K均值算法是一種比較常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)方法,簇間數(shù)據(jù)對(duì)象越相異,簇內(nèi)數(shù)據(jù)對(duì)象越相似,說(shuō)明該
    發(fā)表于 11-03 16:13 ?12次下載
    <b class='flag-5'>一種</b><b class='flag-5'>聚</b><b class='flag-5'>類</b>個(gè)數(shù)自適應(yīng)的<b class='flag-5'>聚</b><b class='flag-5'>類</b><b class='flag-5'>方法</b>(簡(jiǎn)稱SKKM)

    一種改進(jìn)的BIRCH算法方法

    為解決傳統(tǒng)BIRCH算法對(duì)數(shù)據(jù)對(duì)象輸入順序敏感、結(jié)果不穩(wěn)定的問(wèn)題,提出了一種改進(jìn)的BIRCH算法。該算法將雷達(dá)信號(hào)偵察數(shù)據(jù)的脈沖載頻、脈沖重復(fù)間隔和脈沖寬度分別進(jìn)行
    發(fā)表于 11-10 15:52 ?1次下載
    <b class='flag-5'>一種</b>改進(jìn)的BIRCH算法<b class='flag-5'>聚</b><b class='flag-5'>類</b><b class='flag-5'>方法</b>

    采用無(wú)監(jiān)督學(xué)習(xí)方法,用深度摘要網(wǎng)絡(luò)總結(jié)視頻

    中科院和英國(guó)倫敦大學(xué)瑪麗女王學(xué)院的研究人員就生成視頻摘要提出了一種方法,采用無(wú)監(jiān)督學(xué)習(xí)方法,
    的頭像 發(fā)表于 01-15 10:49 ?7194次閱讀
    采用無(wú)<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>的<b class='flag-5'>方法</b>,用深度摘要網(wǎng)絡(luò)總結(jié)視頻

    基于半監(jiān)督學(xué)習(xí)框架的識(shí)別算法

    問(wèn)題,對(duì)半監(jiān)督學(xué)習(xí)中的協(xié)同訓(xùn)練算法進(jìn)行改進(jìn),提出了一種基于多學(xué)習(xí)器協(xié)同訓(xùn)練模型的人體行為識(shí)別方法.這是
    發(fā)表于 01-21 10:41 ?1次下載

    深度解析機(jī)器學(xué)習(xí)學(xué)習(xí)方法

    在機(jī)器學(xué)習(xí)(Machine learning)領(lǐng)域。主要有三不同的學(xué)習(xí)方法監(jiān)督學(xué)習(xí)(Supervised learning)、非監(jiān)督學(xué)習(xí)
    發(fā)表于 05-07 09:09 ?1.4w次閱讀

    Python無(wú)監(jiān)督學(xué)習(xí)的幾種算法包括K-Means,分層等詳細(xì)概述

    無(wú)監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)技術(shù)中的一類,用于發(fā)現(xiàn)數(shù)據(jù)中的模式。本文介紹用Python進(jìn)行無(wú)監(jiān)督學(xué)習(xí)的幾種
    的頭像 發(fā)表于 05-27 09:59 ?3w次閱讀
    Python無(wú)<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>的幾種<b class='flag-5'>聚</b><b class='flag-5'>類</b>算法包括K-Means<b class='flag-5'>聚</b><b class='flag-5'>類</b>,分層<b class='flag-5'>聚</b><b class='flag-5'>類</b>等詳細(xì)概述

    利用機(jī)器學(xué)習(xí)來(lái)捕捉內(nèi)部漏洞的工具運(yùn)用無(wú)監(jiān)督學(xué)習(xí)方法可發(fā)現(xiàn)入侵者

    Darktrace新網(wǎng)絡(luò)安全公司與劍橋大學(xué)的數(shù)學(xué)家合作,開(kāi)發(fā)了一種利用機(jī)器學(xué)習(xí)來(lái)捕捉內(nèi)部漏洞的工具。它運(yùn)用無(wú)監(jiān)督學(xué)習(xí)方法,查看大量未標(biāo)記的數(shù)據(jù),并找到不遵循典型模式的碎片。這些原始數(shù)據(jù)
    發(fā)表于 11-22 16:01 ?1248次閱讀

    密度峰值算法實(shí)現(xiàn)LGG的半監(jiān)督學(xué)習(xí)

      基于圖的局部與全局致性(LGC)半監(jiān)督學(xué)習(xí)方法具有較高的標(biāo)注正確率,但時(shí)間復(fù)雜度較高,難以適用于數(shù)據(jù)規(guī)模較大的實(shí)際應(yīng)用場(chǎng)景。從縮小圖的規(guī)模人手,提出一種全局
    發(fā)表于 03-11 11:21 ?21次下載
    密度峰值<b class='flag-5'>聚</b><b class='flag-5'>類</b>算法<b class='flag-5'>實(shí)現(xiàn)</b>LGG的半<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>

    華裔女博士提出:Facebook提出用于超參數(shù)調(diào)整的自我監(jiān)督學(xué)習(xí)框架

    【導(dǎo)讀】Facebook的研究人員近日提出了一種用于超參數(shù)調(diào)整的自我監(jiān)督學(xué)習(xí)框架。
    的頭像 發(fā)表于 04-26 09:45 ?1791次閱讀
    華裔女博士<b class='flag-5'>提出</b>:Facebook<b class='flag-5'>提出</b>用于超參數(shù)調(diào)整的自我<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>框架

    基于成對(duì)學(xué)習(xí)和圖像的肺癌亞型識(shí)別

    基因診斷是近年來(lái)提高肺癌治愈率的一種新型且有效的方法,但這種方法存在基因檢測(cè)時(shí)間長(zhǎng)、費(fèi)用高、侵入式取樣損傷大的問(wèn)題。文中提出了基于成對(duì)學(xué)習(xí)
    發(fā)表于 05-10 11:20 ?4次下載

    基于特征組分層和半監(jiān)督學(xué)習(xí)的鼠標(biāo)軌跡識(shí)別方法

    傳統(tǒng)時(shí)間序列分類方法存在鼠標(biāo)軌跡特征挖掘不充分、數(shù)據(jù)不平衡與標(biāo)記樣本量少等問(wèn)題,造成識(shí)別效果較差。結(jié)合特征組分層和半監(jiān)督學(xué)習(xí),提出
    發(fā)表于 05-13 15:41 ?9次下載

    融合零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)方法綜述

    等現(xiàn)實(shí)挑戰(zhàn),很多學(xué)者針對(duì)數(shù)據(jù)依賴小的弱監(jiān)督學(xué)習(xí)方法開(kāi)展研究,出現(xiàn)了小樣本學(xué)習(xí)、零樣本學(xué)習(xí)等典型研究方向。對(duì)此,本文主要介紹了弱
    發(fā)表于 02-09 11:22 ?2361次閱讀
    融合零樣本<b class='flag-5'>學(xué)習(xí)</b>和小樣本<b class='flag-5'>學(xué)習(xí)</b>的弱<b class='flag-5'>監(jiān)督學(xué)習(xí)方法</b>綜述

    一種基于偽標(biāo)簽半監(jiān)督學(xué)習(xí)的小樣本調(diào)制識(shí)別算法

    一種基于偽標(biāo)簽半監(jiān)督學(xué)習(xí)的小樣本調(diào)制識(shí)別算法 來(lái)源:《西北工業(yè)大學(xué)學(xué)報(bào)》,作者史蘊(yùn)豪等 摘 要:針對(duì)有標(biāo)簽樣本較少條件下的通信信號(hào)調(diào)制識(shí)別問(wèn)題,提出了一種基于偽標(biāo)簽半
    發(fā)表于 02-10 11:37 ?846次閱讀

    深度學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)方法綜述

    應(yīng)用中往往難以實(shí)現(xiàn)。因此,無(wú)監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)中扮演著越來(lái)越重要的角色。本文旨在綜述深度學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)方法,包括自編碼器、生成對(duì)抗網(wǎng)絡(luò)、
    的頭像 發(fā)表于 07-09 10:50 ?880次閱讀
    主站蜘蛛池模板: 人人澡人人澡碰人人看软件 | 欧美精品hdvideosex | 西西人体大胆午夜gog0 | 韩国三级在线视频 | 性夜影院爽黄a爽在线看香蕉 | 国产精品爱啪在线线免费观看 | 色天天综合 | 久碰香蕉精品视频在线观看 | 黄色xxxx | 四虎影院永久免费 | 亚洲乱亚洲乱妇41p 亚洲乱亚洲乱妇41p国产成人 | 色欧美在线 | 女人张开腿让男人捅爽 | 色天使久久综合给合久久97色 | 不卡一区二区在线观看 | 在线观看的黄网 | 免费视频性 | 色资源在线观看 | 亚洲一区二区在线免费观看 | 福利视频亚洲 | 中国xxxxx高清免费看视频 | 日本免费黄色录像 | 美国bj69video18视频 | 玖玖爱在线播放 | 免费看大尺度视频在线观看 | 国产美女主播一级成人毛片 | 四虎精品影院在线观看视频 | 国产精品久久国产三级国不卡顿 | 婷婷丁香综合网 | 亚洲成a人片77777潘金莲 | 深爱激情成人 | 高清成年美女xx免费网站黄 | 二区中文字幕 | 免费一级特黄特色大片在线观看看 | 亚洲一级特黄 | 桃桃酱无缝丝袜在线播放 | 国产乱辈通伦影片在线播放亚洲 | 深爱五月婷婷 | 国产伦精品一区二区三区免 | 亚洲天堂免费在线 | 免费的很黄很色的床小视频 |

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品