對嬰兒來說,啼哭聲是一種通訊的方式,一個非常有限、但類似成年人進行交流的方式。它也是一種生物報警器,向外界傳達著嬰兒生理和心理的需求。 基于啼哭聲聲波攜帶的信息,嬰兒的身體狀況才能被確定,疾病才能被檢測出來。因此,有效辨識啼哭聲,成功地將嬰兒啼哭聲“翻譯”成“成人語言”,讓成年人讀懂啼哭聲的含義,有重大的實際意義。 2020 iFLYTEK A.I.開發者大賽中,有一項關于嬰兒啼哭聲識別的挑戰賽任務。本次競賽總共吸引了678只隊伍參賽,分別來自國內不同的公司和高校。最終小米AI實驗室聲學團隊以0.99123分的高分奪得第一名。
比賽的訓練數據集包含了awake(蘇醒)、diaper(換尿布)、hug(要抱抱)、hungry(饑餓)、sleepy(困乏)和uncomfortable(不舒服)六類哭聲,并且人工添加了來自Noisex-92標準數據庫的噪聲。 這項任務旨在判別嬰兒啼哭聲所傳遞的信息,需要分別在簡單噪聲環境和復雜噪聲環境下對嬰兒啼哭進行識別,判斷容易引起混淆的啼哭聲,分析各類啼哭聲的明顯特征及簡單直接的判別方式。 初賽訓練數據包含918條音頻,測試集包含228條。復賽賽方提供了添加不同噪聲的30294條訓練數據,需對7524條測試音頻進行識別。
嬰兒啼哭比賽背后的技術原理 小米AI實驗室聲學團隊借鑒說話人確認的方法,訓練網絡使得vector的余弦距在離類間間距拉大而類內間距減小。 在模型的訓練過程中,首先使用VAD算法對嬰兒啼哭音頻中的靜音部分進行剔除。去除靜音后隨機選取160幀,不足160幀的語音采用Cycle Padding方式,利用中間特征進行循環填充,相比與傳統的補0或用尾部填充的方式,特征更加豐富。 模型采用3 層 LSTM+256Dense 層,每層節點為 512。初賽訓練集中的所有純凈語音均看作 enroll 語料,所有訓練集中每個類別的 embedding 由該類別中的所有語音過模型求整體平均得到。測試集中的每條語音過模型后得到的 embedding與 enroll 中的每類 embedding 求余弦距離,分數對應最高的類別為預測類別。 訓練策略為:首先迭代第一個 5000 次,學習率設置為 1e-3,第二次加載預訓練模型(mAp 分數高的),調整學習率,再迭代 5000 次,最終交叉加載預訓練模型在不同的 part 上訓練。
模型的選擇和推理過程分為以下4個步驟:
測試集統計分析:首先統計測試集語音的信噪比、時長、靜音占比及語音相似度。通過對比分析,對相似數據進行歸類,選取最高信噪比數據進行預測。
模型選擇:在 5 個訓練集上分別擇優選取 2 個模型作為備用。
推理:計算測試語料經模型推理得到的vector 與每類哭聲embedding間的余弦距離,取分數最高的對應類為備選結果。
投票:根據單個模型預測的結果投票得到最終結果。
聲學感知技術未來將如何發展? 當前主流的聲學感知技術使用的是強監督的深度學習方法,隨著數據量的增大和技術的發展,未來監督學習的方法將逐漸過度為半監督甚至無監督學習。其中半監督學習正是當前聲音事件檢測技術的研究重點。 不僅如此,深度學習的網絡模型也從人工專家設計逐漸轉變為自動搜索架構,而元學習等小樣本學習方法也開始逐步應用在聲學感知方向。 嬰兒哭聲分析只是聲學感知技術的其中一個應用。當前的聲音場景分類和聲音事件檢測技術已能在設備端上實時分析當前用戶所處的場景和識別出各式各樣的聲音,如貓狗寵物叫聲、警報聲、汽車鳴笛聲等。
不僅如此,聲學感知技術還能分析出一些連人耳也無法聽出的聲音,如本次競賽的嬰兒啼哭意圖,以及應用在工業上,通過分析機器發出的聲音來判斷機器保養狀態的聲學分析技術。聲音作為一種最常見的傳感媒介之一,聲音感知技術在智能家庭、自動駕駛、智能工業化等領域都有廣泛的應用場景。 手機xAIoT小米AI全力打造小米智能家居 隨著小米最新的手機xAIoT戰略,智能家居環境是手機設備與全部智能家居設備聯動最全面的使用場景。手機、TWS耳機和越來越多的智能家居設備比如智能音箱、智能電視、米家IoT設備等都具有麥克風拾音功能。 我們獲得了足夠多場景下的聲音數據時,構建基于設備端的場景感知、事件感知、人體感知和空間感知能力成為了可能。 依賴于全球第一的AIoT平臺,小米可以實現對家中每一個角落無處不在的感知能力,并完成手機端事件提醒與多事件時間線回溯,聲學作為智能感知的一種手段,在未來與UWB技術、視覺圖像技術相結合,相互取長補短將成為主流的趨勢。
責任編輯:xj
原文標題:小米AI實驗室聲學團隊榮獲2020 iFLYTEK A.I.開發者大賽嬰兒啼哭聲識別挑戰賽冠軍
文章出處:【微信公眾號:小米公司】歡迎添加關注!文章轉載請注明出處。
-
AI
+關注
關注
87文章
30919瀏覽量
269170 -
智能語音
+關注
關注
10文章
784瀏覽量
48776 -
小米
+關注
關注
70文章
14356瀏覽量
144234
原文標題:小米AI實驗室聲學團隊榮獲2020 iFLYTEK A.I.開發者大賽嬰兒啼哭聲識別挑戰賽冠軍
文章出處:【微信號:xiaomigongsi0406,微信公眾號:小米公司】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論