在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是聲紋?聲紋識別的原理是什么

電子設(shè)計(jì) ? 來源:電子設(shè)計(jì) ? 作者:電子設(shè)計(jì) ? 2020-12-10 21:33 ? 次閱讀

來源:楊湘祁

一、什么是聲紋?

聲紋(Voiceprint),是用電聲學(xué)儀器顯示的攜帶言語信息的聲波頻譜,是由波長、頻率以及強(qiáng)度等百余種特征維度組成的生物特征,具有穩(wěn)定性、可測量性、唯一性等特點(diǎn)。

人類語言的產(chǎn)生是人體語言中樞與發(fā)音器官之間一個(gè)復(fù)雜的生理物理過程,發(fā)聲器官–舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個(gè)人的差異很大,所以任何兩個(gè)人的聲紋圖譜都有差異。

每個(gè)人的語音聲學(xué)特征既有相對穩(wěn)定性,又有變異性,不是一成不變的。這種變異可來自生理、病理、心理、模擬、偽裝,也與環(huán)境干擾有關(guān)。

盡管如此,由于每個(gè)人的發(fā)音器官都不盡相同,因此在一般情況下,人們?nèi)阅軈^(qū)別不同的人的聲音或判斷是否是同一人的聲音。

聲紋不如圖像那樣直觀展現(xiàn),在實(shí)際分析中,可通過波形圖和語譜圖進(jìn)行展現(xiàn),如下所示:

二、聲紋識別的原理

人在講話時(shí)使用的發(fā)聲器官在尺寸和形態(tài)方面每個(gè)人的差異很大,所以任何兩個(gè)人的聲紋圖譜都有差異,主要體現(xiàn)在如下方面:

共鳴方式特征:咽腔共鳴、鼻腔共鳴和口腔共鳴

嗓音純度特征:不同人的嗓音,純度一般是不一樣的,粗略地可分為高純度(明亮)、低純度(沙啞)和中等純度三個(gè)等級

平均音高特征:平均音高的高低就是一般所說的嗓音是高亢還是低沉

音域特征:音域的高低就是通常所說的聲音飽滿還是干癟

不同人的聲音在語譜圖中共振峰的分布情況不同,聲紋識別正是通過比對兩段語音的說話人在相同音素上的發(fā)聲來判斷是否為同一個(gè)人,從而實(shí)現(xiàn)“聞聲識人”的功能。

三、聲紋識別算法的技術(shù)指標(biāo)

聲紋識別在算法層面可通過如下基本的技術(shù)指標(biāo)來判斷其性能,除此之外還有其它的一些指標(biāo),如:信道魯棒性、時(shí)變魯棒性、假冒攻擊魯棒性、群體普適性等指標(biāo),這部分后續(xù)于詳細(xì)展開講解。

錯(cuò)誤拒絕率(False Rejection Rate, FRR):分類問題中,若兩個(gè)樣本為同類(同一個(gè)人),卻被系統(tǒng)誤認(rèn)為異類(非同一個(gè)人),則為錯(cuò)誤拒絕案例。錯(cuò)誤拒絕率為錯(cuò)誤拒絕案例在所有同類匹配案例的比例。

錯(cuò)誤接受率(False Acceptance Rate, FAR) :分類問題中,若兩個(gè)樣本為異類(非同一個(gè)人),卻被系統(tǒng)誤認(rèn)為同類(同一個(gè)人),則為錯(cuò)誤接受案例。錯(cuò)誤接受率為錯(cuò)誤接受案例在所有異類匹配案例的比例。

等錯(cuò)誤率(Equal Error Rate,EER):調(diào)整閾值,使得誤拒絕率(False Rejection Rate,F(xiàn)RR)等于誤接受率(False Acceptance Rate,F(xiàn)AR),此時(shí)的FAR與FRR的值稱為等錯(cuò)誤率。

準(zhǔn)確率(Accuracy,ACC):調(diào)整閾值,使得FAR+FRR最小,1減去這個(gè)值即為識別準(zhǔn)確率,即ACC=1 – min(FAR+FRR)

速度:(提取速度:提取聲紋速度與音頻時(shí)長有關(guān)、驗(yàn)證比對速度):Real Time Factor 實(shí)時(shí)比(衡量提取時(shí)間跟音頻時(shí)長的關(guān)系,比如:1秒能夠處理80s的音頻,那么實(shí)時(shí)比就是1:80)。驗(yàn)證比對速度是指平均每秒鐘能進(jìn)行的聲紋比對次數(shù)。

ROC曲線:描述FAR與FRR之間相互變化關(guān)系的曲線,X軸為FAR的值,Y軸為FRR的值。從左到右,當(dāng)閾值增長期間,每一個(gè)時(shí)刻都有一對FAR和FRR的值,將這些值在圖上描點(diǎn)連成一條曲線,就是ROC曲線。

閾值:在接受/拒絕二元分類系統(tǒng)中,通常會設(shè)定一個(gè)閾值,分?jǐn)?shù)超過該值時(shí)才做出接受決定。調(diào)節(jié)閾值可以根據(jù)業(yè)務(wù)需求平衡FAR與FRR。 當(dāng)設(shè)定高閾值時(shí),系統(tǒng)做出接受決定的得分要求較為嚴(yán)格,F(xiàn)AR降低,F(xiàn)RR升高;當(dāng)設(shè)定低閾值時(shí),系統(tǒng)做出接受決定的得分要求較為寬松,F(xiàn)AR升高,F(xiàn)RR降低。在不同應(yīng)用場景下,調(diào)整不同的閾值,則可在安全性和方便性間平平衡,如下圖所示:

四、影響聲紋

訓(xùn)練數(shù)據(jù)和算法是影響聲紋識別水平的兩個(gè)重要因素,在應(yīng)用落地過程中,還會受很多因素的影響。

聲源采樣率:

人類語音的頻段集中于50Hz ~ 8KHz之間,尤其在4KHz以下頻段

離散信號覆蓋頻段為信號采樣率的一半(奈奎斯特采樣定理)。

采樣率越高,信息量越大。

常用采樣率:8KHz (即0 ~ 4KHz頻段),16KHz(即0 ~ 8KHz頻段)。

信噪比(SNR):

信噪比衡量一段音頻中語音信號與噪聲的能量比,即語音的干凈程度:

15dB以上(基本干凈)

6dB(嘈雜)

0dB(非常吵)

信道:

不同的采集設(shè)備,以及通信過程會引入不同的失真。

聲紋識別算法與模型需要覆蓋盡可能多的信道。

手機(jī)麥克風(fēng)、桌面麥克風(fēng)、固話、移動通信(CDMA, TD-LTE等)、微信……

語音時(shí)長:

語音時(shí)長(包括注冊語音條數(shù))會影響聲紋識別的精度。

有效語音時(shí)長越長,算法得到的數(shù)據(jù)越多,精度也會越高。

短語音(1~3s)

長語音(20s+)

文本內(nèi)容:

通俗地說,聲紋識別系統(tǒng)通過比對兩段語音的說話人在相同音素上的發(fā)聲來判斷是否為同一個(gè)人。

固定文本:注冊與驗(yàn)證內(nèi)容相同

半固定文本:內(nèi)容一樣但順序不同;文本屬于固定集合

自由文本

五、聲紋識別的應(yīng)用流程

聲紋識別(VPR) ,生物識別技術(shù)的一種,也稱為說話人識別 ,是從說話人發(fā)出的語音信號中提取聲紋信息。

從應(yīng)用上看,可分為:

說話人辨認(rèn)(Speaker Identification):用以判斷某段語音是若干人中的哪一個(gè)所說的,是“多選一”問題;

說話人確認(rèn)(Speaker Verification):用以確認(rèn)某段語音是否是指定的某個(gè)人所說的,是“一對一判別”問題。

聲紋識別在應(yīng)用中分注冊和驗(yàn)證兩個(gè)主流程,根據(jù)不同的應(yīng)用中,部分處理流程會存在差異,一般的聲紋識別應(yīng)用流程如下圖所示:

六、聲紋識別的應(yīng)用場景

聲紋識別作為生物識別技術(shù)的一種,有非常多好的應(yīng)用場景,根據(jù)聲音的特性,下面從公共安全、金融、社保、智能硬件四個(gè)領(lǐng)域介紹聲紋識別的應(yīng)用。

公安領(lǐng)域

聲紋作為一種生物特征,最早在刑偵和鑒識領(lǐng)域成功應(yīng)用。

近年來,由于互聯(lián)網(wǎng)的發(fā)展,語音案件也呈現(xiàn)出井噴的趨勢,在這些語音案件中,聲紋識別成了唯一一種有效的技術(shù)偵破手段,通過的聲紋識別和聲紋大數(shù)據(jù)技術(shù)進(jìn)行重點(diǎn)人員監(jiān)管、反電信詐騙、反恐、刑事案件偵破、身份查詢與核驗(yàn),助力公安有效遏制與打擊犯罪,構(gòu)建和強(qiáng)化安全的社會公眾環(huán)境。

金融

針對銀行、互聯(lián)網(wǎng)金融等各類金融及服務(wù)機(jī)構(gòu),通過聲紋識別技術(shù),提供了用戶注冊、遠(yuǎn)程驗(yàn)證、金融生物識別解決方案,大幅提高金融機(jī)構(gòu)的風(fēng)險(xiǎn)防范系統(tǒng)安全性,強(qiáng)化風(fēng)控能力,增加用戶的安全性,防范身份欺詐。

另外在電話客服系統(tǒng)中,通過聲紋識別技術(shù),可實(shí)時(shí)識別出用戶的身份,從而提供個(gè)性化的客戶服務(wù)。

社保

我國針對離退休人員,每年至少需要進(jìn)行一次生存狀態(tài)驗(yàn)證,并以此為依據(jù)進(jìn)行養(yǎng)老金的發(fā)放,目前可通過到指定社保大廳或自助終端進(jìn)行生存驗(yàn)證,對于一些行動不便的老人家,這種方式也是非常不便利。

聲紋識別技術(shù)在遠(yuǎn)程身份驗(yàn)證中有著天然的優(yōu)勢,只需要一個(gè)電話(手機(jī)或固話都可以),即可完成生存驗(yàn)證,為參保人員提供了便利,同時(shí)也為國家節(jié)省大量成本,避免養(yǎng)老金流失。

智能硬件

在智能硬件產(chǎn)品中,聲紋識別解決了當(dāng)前智能產(chǎn)品只能識別用戶所說的內(nèi)容,而不能區(qū)分說話人身份的問題,讓智能產(chǎn)品能夠區(qū)分不同的角色,實(shí)現(xiàn)“聽聲識人”。

讓系統(tǒng)針對性對每個(gè)人提供不同的內(nèi)容與服務(wù),讓人機(jī)交互更加簡單,讓用戶享受更輕松、更具個(gè)性化、更安全的產(chǎn)品體驗(yàn)。

七、總結(jié)

聲紋識別作為最前沿的生物識別技術(shù),隨著技術(shù)的成熟,將會在越來越多的應(yīng)用場景下落地。

我們相信:在不久的將來,在第三代身份證上,聲紋將成為繼指紋、人像后又一個(gè)新增的公民身份ID。

聲音將在我們未來的科技生活中扮演眼越來越重要的角色。

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4615

    瀏覽量

    92962
  • 聲紋識別
    +關(guān)注

    關(guān)注

    3

    文章

    141

    瀏覽量

    21526
收藏 人收藏

    評論

    相關(guān)推薦

    聚焦AI語音!聲揚(yáng)科技張偉彬博士受邀為中山大學(xué)深圳校區(qū)師生作分享

    近日,聲揚(yáng)科技聯(lián)合創(chuàng)始人、總經(jīng)理張偉彬博士受邀前往中山大學(xué)深圳校區(qū),為學(xué)校師生作“聲紋識別技術(shù)及其產(chǎn)業(yè)化應(yīng)用”主題分享。憑借深厚的專業(yè)知識,結(jié)合前沿的產(chǎn)業(yè)落地實(shí)踐,張偉彬博士深入淺出地分享了聲紋識別
    的頭像 發(fā)表于 12-31 10:45 ?83次閱讀
    聚焦AI語音!聲揚(yáng)科技張偉彬博士受邀為中山大學(xué)深圳校區(qū)師生作分享

    ASR與傳統(tǒng)語音識別的區(qū)別

    識別技術(shù)。 構(gòu)建更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,利用大量數(shù)據(jù)進(jìn)行訓(xùn)練。 提高了語音識別的準(zhǔn)確率和穩(wěn)定性。 傳統(tǒng)語音識別 : 通常依賴于聲學(xué)-語言模型的方法。 在處理復(fù)雜的語音輸入時(shí),可能表現(xiàn)不如ASR技術(shù)出色。 二、功能多樣性 ASR
    的頭像 發(fā)表于 11-18 15:22 ?497次閱讀

    低噪聲紋波探頭測量應(yīng)用指南

    當(dāng)今大多數(shù)電子設(shè)計(jì)都要求不同的供電電壓才能正確運(yùn)行。事實(shí)上,一塊電路內(nèi)部許多元器件都要求多種電壓,特別是高度集成的片上系統(tǒng)及多種技術(shù)接口在一起的微處理器設(shè)計(jì)。 由于許多因素,執(zhí)行 DC 低噪聲紋
    的頭像 發(fā)表于 11-13 13:56 ?160次閱讀
    低噪<b class='flag-5'>聲紋</b>波探頭測量應(yīng)用指南

    調(diào)試PCM3500E,DAC輸出噪聲紋波峰峰值居然高達(dá)600mV,為什么?

    你好!最近在調(diào)試PCM3500E,發(fā)現(xiàn)其DAC部分,輸出噪聲紋波峰峰值居然高達(dá)600mV,將芯片power down之后噪聲就消除了。附圖是DIN輸入全零時(shí),紋波的波形特征。
    發(fā)表于 11-08 07:25

    聲揚(yáng)科技亮相中國刑科協(xié)“智能聲紋技術(shù)與實(shí)戰(zhàn)技能培訓(xùn)班”

    5月7日-11日,來自全國公安、院校、安全、檢察等機(jī)關(guān)的近三百位領(lǐng)導(dǎo)和技術(shù)專家齊聚“洞庭天下水,岳陽天下樓”湖南岳陽,參加由中國刑事科學(xué)技術(shù)協(xié)會主辦的“智能聲紋與實(shí)戰(zhàn)技能培訓(xùn)班”。此次盛會
    的頭像 發(fā)表于 09-30 11:02 ?624次閱讀
    聲揚(yáng)科技亮相中國刑科協(xié)“智能<b class='flag-5'>聲紋</b>技術(shù)與實(shí)戰(zhàn)技能培訓(xùn)班”

    如何設(shè)計(jì)人臉識別的神經(jīng)網(wǎng)絡(luò)

    人臉識別技術(shù)是一種基于人臉特征信息進(jìn)行身份識別的技術(shù),廣泛應(yīng)用于安全監(jiān)控、身份認(rèn)證、智能門禁等領(lǐng)域。神經(jīng)網(wǎng)絡(luò)是實(shí)現(xiàn)人臉識別的關(guān)鍵技術(shù)之一,本文將介紹如何設(shè)計(jì)人臉識別的神經(jīng)網(wǎng)絡(luò)。 人臉
    的頭像 發(fā)表于 07-04 09:20 ?669次閱讀

    人臉檢測和人臉識別的區(qū)別是什么

    臉檢測和人臉識別的區(qū)別。 定義 人臉檢測是指在圖像或視頻中快速準(zhǔn)確地找到人臉的位置,并將其從背景中分離出來的技術(shù)。人臉檢測的目的是確定圖像中是否存在人臉,以及人臉的位置和大小。人臉檢測通常是一個(gè)二分類問題,即
    的頭像 發(fā)表于 07-03 14:49 ?1254次閱讀

    人臉檢測與識別的方法有哪些

    人臉檢測與識別是計(jì)算機(jī)視覺領(lǐng)域中的一個(gè)重要研究方向,具有廣泛的應(yīng)用前景,如安全監(jiān)控、身份認(rèn)證、智能視頻分析等。本文將詳細(xì)介紹人臉檢測與識別的方法。 引言 人臉檢測與識別技術(shù)在現(xiàn)代社會中扮演著
    的頭像 發(fā)表于 07-03 14:45 ?732次閱讀

    圖像檢測和圖像識別的區(qū)別是什么

    詳細(xì)的比較和分析。 定義和概念 圖像檢測(Image Detection)是指利用計(jì)算機(jī)視覺技術(shù)對圖像中的特定目標(biāo)進(jìn)行定位和識別的過程。它通常包括目標(biāo)的檢測、分類和定位三個(gè)步驟。圖像檢測的目標(biāo)可以是人、車、動物等任何具有特定特征
    的頭像 發(fā)表于 07-03 14:41 ?1034次閱讀

    請問esp who人臉識別的臉部信息如何保存在sd卡中?

    esp who人臉識別的臉部信息如何保存在sd卡中?
    發(fā)表于 06-28 08:09

    語音識別的技術(shù)歷程及工作原理

    語音識別的本質(zhì)是一種基于語音特征參數(shù)的模式識別,即通過學(xué)習(xí),系統(tǒng)能夠把輸入的語音按一定模式進(jìn)行分類,進(jìn)而依據(jù)判定準(zhǔn)則找出最佳匹配結(jié)果。
    的頭像 發(fā)表于 03-22 16:58 ?3254次閱讀
    語音<b class='flag-5'>識別的</b>技術(shù)歷程及工作原理

    RFID標(biāo)簽技術(shù):智能識別的新紀(jì)元

    隨著物聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能的飛速發(fā)展,RFID(無線射頻識別)技術(shù)作為智能識別的重要手段,正日益成為各行各業(yè)的關(guān)鍵技術(shù)之一
    的頭像 發(fā)表于 03-21 11:18 ?1043次閱讀
    RFID標(biāo)簽技術(shù):智能<b class='flag-5'>識別的</b>新紀(jì)元

    智能聲控?zé)艟邞?yīng)用語音識別芯片AT6811

    AT6811是一款超低功耗的離線智能語音識別芯片,集成了先進(jìn)的語音活動監(jiān)測(VAD)、聲紋識別、自動消噪神經(jīng)網(wǎng)絡(luò),擁有高效的電源管理模塊、數(shù)字和模擬語音信號輸入接口以及ARMCortex-M0內(nèi)核,并且搭配了GPIO、UART、SPI、I2C、I2S等片內(nèi)外設(shè)。
    的頭像 發(fā)表于 02-28 16:41 ?637次閱讀
    智能聲控?zé)艟邞?yīng)用語音<b class='flag-5'>識別</b>芯片AT6811

    測電源噪聲紋波時(shí)為什么選無源探頭

    在測量電源的噪聲紋波時(shí),采用無源探頭是一種常見的選擇。無源探頭是指在測量過程中不需要額外的電源供電的探頭。那么,為什么我們要選擇無源探頭呢?下面將詳細(xì)解釋這個(gè)問題。 首先,無源探頭具有高頻
    的頭像 發(fā)表于 02-01 10:10 ?618次閱讀
    測電源噪<b class='flag-5'>聲紋</b>波時(shí)為什么選無源探頭

    如何使用Python進(jìn)行圖像識別的自動學(xué)習(xí)自動訓(xùn)練?

    如何使用Python進(jìn)行圖像識別的自動學(xué)習(xí)自動訓(xùn)練? 使用Python進(jìn)行圖像識別的自動學(xué)習(xí)和自動訓(xùn)練需要掌握一些重要的概念和技術(shù)。在本文中,我們將介紹如何使用Python中的一些常用庫和算法來實(shí)現(xiàn)
    的頭像 發(fā)表于 01-12 16:06 ?596次閱讀
    主站蜘蛛池模板: 午夜国产理论| 美女黄色在线| 91国内在线观看| 欧美在线激情| 一区二区三区四区无限乱码在线观看 | 九九热精品国产| 波多野结衣久久精品| 38pao强力打造永久免费高清视频| 一区二区三区视频免费观看| 女同性大尺度床戏视频| 在线色av| 乱欲小说又粗又大| 成人国产精品一级毛片了| 亚洲www| 欧美婷婷六月丁香综合色| 色香欲综合成人免费视频| 日本精品一在线观看视频| 久久精品亚洲青青草原| xx在线观看| 国产网红精品| 伊人色综合久久天天爱| 日日操日日爽| 欧美1819| 伊人久久成人成综合网222| 色婷婷色综合| 狠狠狠| 天天干在线影院| 亚洲啪啪| 999影院成 人在线影院| 色多网站免费视频| 三级黄色短视频| 激情综合色综合啪啪开心| 一本到中文字幕高清不卡在线| 久久久这里有精品999| 正在播放一区二区| 婷婷色在线观看| 色吧视频| 成人亚洲欧美| 久久久久国产精品免费看| 亚洲第一中文字幕| 色猫av|