在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

通過多尺度說話人分解實現(xiàn)動態(tài)尺度加權(quán)

星星科技指導員 ? 來源:NVIDIA ? 作者:Taejin Park ? 2022-10-11 11:46 ? 次閱讀

說話人日記化是按說話人標簽對錄音進行分段的過程,旨在回答“誰在何時發(fā)言?”。與語音識別相比,它有著明顯的區(qū)別。

在你執(zhí)行說話人日記化之前,你知道“說的是什么”,但你不知道“誰說的”。因此,說話人日記化是語音識別系統(tǒng)的一個基本特征,它可以用說話人標簽豐富轉(zhuǎn)錄內(nèi)容。也就是說,如果沒有說話人日記化過程,會話錄音永遠不能被視為完全轉(zhuǎn)錄,因為沒有說話者標簽的轉(zhuǎn)錄無法通知您是誰在和誰說話。

poYBAGNE5weAXAPzAAT1u1irANs872.png

圖 1.說話人區(qū)分是將音頻記錄劃分為說話人同質(zhì)區(qū)域的任務

說話人日記必須產(chǎn)生準確的時間戳,因為在會話設置中,說話人的話輪數(shù)可能非常短。我們經(jīng)常使用短的反向通道詞,如“ yes ”、“ uh huh ”或“ oh ”。這些詞對機器轉(zhuǎn)錄和識別說話人來說很有挑戰(zhàn)性。

雖然根據(jù)說話人身份對音頻記錄進行分段,但說話人日記化需要對相對較短的分段進行細粒度決策,從十分之幾秒到幾秒不等。對如此短的音頻片段做出準確、細粒度的決策是一項挑戰(zhàn),因為它不太可能捕捉到可靠的說話人特征。

在本文中,我們討論了如何通過引入一種稱為多尺度方法和多尺度二值化解碼器( MSDD )的新技術(shù)來處理多尺度輸入來解決這個問題。

多尺度分割機制

就揚聲器特征的質(zhì)量而言,提取長音頻段是可取的。然而,音頻段的長度也限制了粒度,這導致?lián)P聲器標簽決策的單位長度較粗。如圖 2 所示的曲線所示,說話人區(qū)分系統(tǒng)面臨著時間分辨率和說話人表示保真度之間的權(quán)衡問題。

在說話人區(qū)分流水線中的說話人特征提取過程中,為了獲得高質(zhì)量的說話者表示向量,不可避免地要花費較長的語音段來犧牲時間分辨率。在簡單明了的語言中,如果你試圖準確掌握語音特征,那么你必須考慮更長的時間跨度。

同時,如果你考慮更長的時間跨度,你必須在相當長的時間跨度內(nèi)做出決定。這會導致粗決策(時間分辨率低)。想想這樣一個事實,如果只錄下半秒鐘的講話,即使是人類聽眾也無法準確地說出誰在講話。

在大多數(shù)分音系統(tǒng)中,音頻段長度在 1.5 到 3.0 秒之間,因為這樣的數(shù)字在揚聲器特性的質(zhì)量和時間分辨率之間取得了很好的折衷。這種分割方法稱為 single-scale approach 。

即使使用重疊技術(shù),單尺度分割也將時間分辨率限制在 0.75 ~ 1.5 秒,這在時間精度方面留下了改進的空間。

粗略的時間分辨率不僅會降低二值化的性能,而且會降低說話人計數(shù)的準確性,因為短語音片段無法正確捕獲。 更重要的是,說話人時間戳中的這種粗時間分辨率使得解碼后的 ASR 文本與說話人區(qū)分結(jié)果之間的匹配更容易出錯。

為了解決這個問題,我們提出了一種多尺度方法,這是一種通過從多段長度中提取說話人特征,然后將多尺度的結(jié)果結(jié)合起來來處理這種權(quán)衡的方法。多尺度技術(shù)在最流行的說話人方言化基準數(shù)據(jù)集上實現(xiàn)了最先進的精度。它已經(jīng)是開源會話 AI 工具包 NVIDIA NeMo 的一部分。

圖 2 顯示了多尺度揚聲器分辨率的關(guān)鍵技術(shù)解決方案。

pYYBAGNE5wiASmKrAAKTpiqNJ4w141.png

圖 2.說話人表示的時間分辨率和保真度的相應折衷曲線

多尺度方法通過使用多尺度分割和從每個尺度提取說話人嵌入來實現(xiàn)。在圖 2 的左側(cè),在多尺度分割方法中執(zhí)行了四種不同的尺度。

在段關(guān)聯(lián)性計算過程中,將合并從最長刻度到最短刻度的所有信息,但只對最短的段范圍作出決策。當組合每個音階的特征時,每個音階權(quán)重在很大程度上影響說話人的區(qū)分性能。

基于神經(jīng)模型的多尺度分解流水線

由于刻度權(quán)重在很大程度上決定了說話人區(qū)分系統(tǒng)的準確性,因此應設置刻度權(quán)重以使說話人的區(qū)分性能達到最大。

我們提出了一種稱為 multiscale diarization decoder ( MSDD )的新型多尺度二值化系統(tǒng),該系統(tǒng)在每個時間步長動態(tài)確定每個尺度的重要性。

說話人日記系統(tǒng)依賴于被稱為說話人嵌入的音頻特征向量捕獲的說話人特征。通過神經(jīng)模型提取說話人嵌入向量,從給定的音頻信號中生成稠密浮點數(shù)向量。

MSDD 從多個尺度中提取多個說話人嵌入向量,然后估計所需的尺度權(quán)重。基于估計的音階權(quán)重,生成揚聲器標簽。如果輸入信號被認為在某些尺度上具有更準確的信息,則所提出的系統(tǒng)在大尺度上的權(quán)重更大。

圖 3 顯示了提議的多尺度說話人分離系統(tǒng)的數(shù)據(jù)流。從音頻輸入中提取多尺度分段,并使用揚聲器嵌入提取器( TitaNet )生成用于多尺度音頻輸入的相應揚聲器嵌入向量。

poYBAGNE5wmAMGO8AAKQMyg0J0A993.png

圖 3.擬建 多尺度說話人識別系統(tǒng) 的數(shù)據(jù)流

提取的多尺度嵌入通過聚類算法進行處理,以向 MSDD 模塊提供初始化聚類結(jié)果。 MSDD 模塊使用簇平均說話人嵌入向量與輸入說話人嵌入式序列進行比較。估計每個步驟的磅秤權(quán)重,以衡量每個磅秤的重要性。

最后,訓練序列模型輸出每個說話人的說話人標簽概率。

MSDD 機制

Scale-weights.png

圖 4.根據(jù) MSDD 中的 1-D CNN 計算出的秤重量

在圖 4 中, 1-D 濾波器 從輸入嵌入和集群平均嵌入捕獲上下文。

pYYBAGNE5xCATUlOAAURzFKy_fo156.png

圖 5.MSDD 的上下文向量

在圖 5 中,每個說話人和每個尺度的余弦相似性值由尺度權(quán)重加權(quán),形成加權(quán)余弦相似向量。

通過動態(tài)計算每個尺度的權(quán)重,訓練神經(jīng)網(wǎng)絡模型 MSDD 以利用多尺度方法。 MSDD 獲取初始聚類結(jié)果,并將提取的說話人嵌入與聚類平均說話人表示向量進行比較。

最重要的是,每個時間步長的每個尺度的權(quán)重是通過尺度權(quán)重機制確定的,其中尺度權(quán)重是通過應用于多尺度說話人嵌入輸入和簇平均嵌入的一維卷積神經(jīng)網(wǎng)絡( CNN )計算得出的(圖 3 )。

估計的尺度權(quán)重應用于為每個說話人和每個尺度計算的余弦相似值。圖 5 顯示了通過對集群平均說話人嵌入和輸入說話人嵌入式之間計算出的余弦相似性(圖 4 )應用估計的比例權(quán)重來計算上下文向量的過程。

最后,每個步驟的每個上下文向量都被送入一個多層 LSTM 模型,該模型生成每個說話人的說話人存在概率。圖 6 顯示了 LSTM 模型和上下文向量輸入如何估計說話人標簽序列。

poYBAGNE5xGARmLYAADsY_Jbi1E774.png

圖 6.使用 LSTM 的序列建模

圖 6 ,使用 LSTM 的序列建模接受上下文向量輸入并生成說話人標簽。 MSDD 的輸出是兩個說話人在每個時間步存在說話人的概率值。

擬議的說話人日記系統(tǒng)旨在支持以下功能:

揚聲器數(shù)量靈活

重疊感知區(qū)分

預訓練說話人嵌入模型

揚聲器數(shù)量靈活

MSDD 使用兩兩推理來記錄與任意數(shù)量說話人的對話。例如,如果有四個說話人,則提取六對,并對 MSDD 的推理結(jié)果進行平均,以獲得四個說話人中每個人的結(jié)果。

重疊感知區(qū)分

MSDD 獨立估計每個步驟中兩個揚聲器的兩個揚聲器標簽的概率(圖 6 )。這可以在兩個揚聲器同時講話的情況下進行重疊檢測

預訓練說話人嵌入模型

MSDD 基于預處理嵌入提取器( TitaNet )模型。通過使用預處理說話人模型,可以使用從相對大量的單說話人語音數(shù)據(jù)中學習的神經(jīng)網(wǎng)絡權(quán)重。

此外, MSDD 設計為使用經(jīng)過預處理的說話人進行優(yōu)化,以在特定領(lǐng)域的說話者日記數(shù)據(jù)集上微調(diào)整個說話人日記系統(tǒng)。

實驗結(jié)果和定量效益

提出的 MSDD 系統(tǒng)有幾個定量優(yōu)勢:卓越的時間分辨率和提高的準確性。

卓越的時間分辨率

雖然單尺度聚類分解器在 1.5 秒的分段長度上表現(xiàn)出最佳性能,其中單位決策長度為 0.75 秒(半重疊),但提議的多尺度方法的單位決策長度是 0.25 秒。通過使用需要更多步驟和資源的更短移位長度,可以進一步提高時間分辨率。

圖 2 顯示了多尺度方法的概念和 0.5 秒的單位決策長度。由于揚聲器功能的保真度降低,僅將 0.5 秒的片段長度應用于單刻度分劃器會顯著降低分劃性能。

提高準確性

通過比較假設時間戳和地面真值時間戳來計算重化錯誤率( DER )。圖 7 顯示了多尺度二值化方法相對于最先進的單尺度聚類方法的量化性能。

pYYBAGNE5xKASPcxAAC_wa06R_w937.png

圖 7.先前最先進結(jié)果的定量評估 ( Landini et al. 2022 ) ,單尺度聚類法 ( prior work ) 和多尺度方法 ( proposed ) 關(guān)于三個不同的數(shù)據(jù)集

與單尺度聚類日記器相比,所提出的 MSDD 方法可以在兩個說話人數(shù)據(jù)集上減少多達 60% 的 DER 。

結(jié)論

擬議系統(tǒng)具有以下優(yōu)點:

這是第一個應用多尺度加權(quán)概念和基于序列模型( LSTM )的說話人標簽估計的神經(jīng)網(wǎng)絡架構(gòu)。

加權(quán)方案集成在單個推理會話中,不需要像其他說話人日記化系統(tǒng)那樣融合多個日記化結(jié)果。

提出的多尺度分解系統(tǒng)能夠?qū)崿F(xiàn)重疊感知的分解,這是傳統(tǒng)基于聚類的分解系統(tǒng)無法實現(xiàn)的。

因為解碼器基于基于聚類的初始化,所以分音系統(tǒng)可以處理靈活數(shù)量的說話人。這表明您可以在兩個說話人數(shù)據(jù)集上訓練建議的模型,然后使用它對兩個或更多說話人進行分類。

雖然具有前面提到的所有優(yōu)點,但與之前公布的結(jié)果相比,所提出的方法顯示了優(yōu)越的區(qū)分性能。

關(guān)于擬議系統(tǒng),未來有兩個研究領(lǐng)域:

我們計劃通過實現(xiàn)基于短期窗口聚類的二值化解碼器來實現(xiàn)該系統(tǒng)的流媒體版本。

可以研究從說話人嵌入提取器到二值化解碼器的端到端優(yōu)化,以提高說話人二值化性能。

關(guān)于作者

Taejin Park 在韓國首爾國立大學獲得電氣工程學士學位和電氣工程與計算機科學碩士學位。 2010 年和 2012 年。 2012 年,他加入韓國大田市電氣和電信研究所( ETRI ),擔任研究員。他畢業(yè)于南加州大學( USC ),獲得電氣工程博士學位和計算機科學碩士學位。 Taejin Park 目前在 NVIDIA 擔任應用科學家。他的研究興趣包括機器學習和專注于說話人日記化的語音信號處理。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1143

    瀏覽量

    40742
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4986

    瀏覽量

    103066
收藏 人收藏

    評論

    相關(guān)推薦

    尺度變換

    請問在labview中如何實現(xiàn)信號的尺度變換啊
    發(fā)表于 05-05 15:47

    關(guān)于labview中使用連續(xù)小波變換后接強度圖得到時間-尺度圖,如何將尺度轉(zhuǎn)換為頻率

    在labview中使用連續(xù)小波變換得到時間-尺度圖,如何將尺度轉(zhuǎn)換為頻率?我在網(wǎng)上查了一下,說是尺度對應的實際頻率Fa=(Fc×fs)/a,其中Fa為實際頻率,F(xiàn)c為小波中心頻率,fs為采樣頻率,a為
    發(fā)表于 05-12 17:39

    基于尺度相乘的Canny改進算法

    在Canny 算法框架下,對圖像進行多尺度濾波分析。定義尺度乘積函數(shù)為2 個不同尺度濾波器的響應乘積,由相鄰尺度近似性確定乘積后的幅值和相角,再選擇閾值剔除偽邊緣,由非極
    發(fā)表于 03-30 08:58 ?8次下載

    基于Kalman濾波的多尺度融合估計新算法

    將信號的多尺度分析方法與多傳感器數(shù)據(jù)融合技術(shù)相結(jié)合,基于某一尺度上給定的狀態(tài)模型和在不同尺度上擁有不同采樣率的多傳感器分布式動態(tài)系統(tǒng),提出了一種新的基于Kalman 濾波
    發(fā)表于 06-22 13:15 ?21次下載

    單傳感器單模型動態(tài)系統(tǒng)多尺度分解與估計新算法

    本文將基于模型的動態(tài)系統(tǒng)分析方法與具有統(tǒng)計特性的多尺度信號變換方法相結(jié)合,基于某一尺度上給定的單傳感器單模型動態(tài)系統(tǒng),建立起一個新的多尺度
    發(fā)表于 06-23 08:51 ?12次下載

    模糊多尺度邊緣檢測算法的研究

    為了解決多尺度邊緣檢測中有效檢出和精確定位的矛盾,本文提出了一種新的模糊多尺度邊緣檢測算法。該算法以圖像的小波分解為基礎,把圖像的多尺度信息描述為模糊矩陣,然
    發(fā)表于 07-08 08:37 ?10次下載

    基于小波分解的圖像融合方法及性能評價

    給出了一種新的基于小波多尺度分解的分層圖像融合方法. 其基本思想是先對源圖像進行小波多尺度分解; 其次, 按照融合規(guī)則, 采用基于區(qū)域特性量測的選擇及
    發(fā)表于 07-17 10:44 ?12次下載

    基于加權(quán)尺度張量子空間的人臉圖像特征提取方法_王仕民

    基于加權(quán)尺度張量子空間的人臉圖像特征提取方法_王仕民
    發(fā)表于 01-08 10:57 ?1次下載

    基于多尺度小波分解和時間序列解決風電場預測精度等問題

    針對目前風電場風速預測精度較低的問題,提出一種基于多尺度小波分解和時間序列法的混合風速預測模型,通過小波分解將風速非平穩(wěn)時間序列分解為不同
    發(fā)表于 10-21 09:40 ?3次下載
    基于多<b class='flag-5'>尺度</b>小波<b class='flag-5'>分解</b>和時間序列解決風電場預測精度等問題

    基于引導濾波的Retinex多尺度分解色調(diào)映射算法

    傳統(tǒng)的低動態(tài)范圍顯示設備不能很好地表現(xiàn)高動態(tài)范圍圖像信息,針對這一問題,提出一種基于引導濾波的Retinex多尺度分解色調(diào)映射算法。該算法使用引導濾波對光照信息進行估計,將高
    發(fā)表于 11-21 15:38 ?14次下載
    基于引導濾波的Retinex多<b class='flag-5'>尺度</b><b class='flag-5'>分解</b>色調(diào)映射算法

    基于多尺度HOG的草圖檢索

    基于興趣點的多尺度HOG特征。利用圖像的多尺度HOG特征集生成視覺詞典,最終形成與視覺詞典相關(guān)的特征描述向量,通過相似度匹配實現(xiàn)草圖檢索。將該算法與單一
    發(fā)表于 12-04 09:56 ?0次下載

    如何使用多尺度和多任務卷積神經(jīng)網(wǎng)絡實現(xiàn)人群計數(shù)

    描述人群信息,消除人群遮擋影響;其次通過構(gòu)建多尺度卷積神經(jīng)網(wǎng)絡解決人群尺度不一問題,以多任務學習機制同時估計密度圖及人群密度等級,解決人群分布不均問題;最后設計一種加權(quán)損失函數(shù),提高人
    發(fā)表于 01-18 16:47 ?9次下載

    如何使用跨尺度代價聚合實現(xiàn)改進立體匹配算法

    針對現(xiàn)有的立體匹配算法在精度和速度上不可兼得的現(xiàn)狀,提出一種改進的跨尺度代價聚合立體匹配算法。通過強度和梯度算法計算匹配代價,利用引導濾波聚合匹配代價,采用跨尺度模型聚合各尺度的匹配代
    發(fā)表于 02-02 14:36 ?10次下載
    如何使用跨<b class='flag-5'>尺度</b>代價聚合<b class='flag-5'>實現(xiàn)</b>改進立體匹配算法

    結(jié)合多尺度邊緣保持分解與PCNN的圖像融合方法

    在醫(yī)學圖像融合過程中,傳統(tǒng)多尺度分析方法多采用線性濾波器,由于無法保留圖像邊緣特征導致分解階段的強邊緣處岀現(xiàn)模糊,從而產(chǎn)生光暈。為提髙融合圖像的視覺感知效果,通過結(jié)合多尺度邊緣保持
    發(fā)表于 03-23 15:54 ?16次下載
    結(jié)合多<b class='flag-5'>尺度</b>邊緣保持<b class='flag-5'>分解</b>與PCNN的圖像融合方法

    基于局部加權(quán)擬合的無人機遙感影像多尺度檢測

    基于局部加權(quán)擬合的無人機遙感影像多尺度檢測
    發(fā)表于 06-23 11:56 ?28次下載
    主站蜘蛛池模板: 91福利国产在线观看网站| 亚洲免费在线观看视频| 精品国产自在现线看久久| 色在线网| 国产色爽女| 免费高清在线观看a网站| 日本a级特黄三级三级三级| 日本三级在线观看免费| 中文字幕自拍| 高清xxx| 生活片毛片| 欧美人与z0zoxxxx特| 在线播放一区二区三区| 久久鬼| 久草五月| 亚洲国产综合久久精品| 国产精品久久久久久久久ktv| 久久毛片视频| 在线播放你懂得| 国产人成高清视频观看| q2002韩国理论| 四虎永久在线视频| 777国产精品永久免费观看| 国产精品夜色7777青苹果| 色丁香六月| 色综合天天综合网站中国| 九九视频热| 国产午夜人做人视频羞羞| 91精品日本久久久久久牛牛| 天堂网a| 午夜精品网站| 国产99热| 高颜值大长腿美女啪啪| 日本与大黑人xxxx| 日本妈妈4| 日本激情网| 五月婷婷丁香综合网| 在线理论视频| 黑人一区二区三区中文字幕| 国内精品一级毛片免费看| mmmxxx69日本|