君子以泽,梦入神机,小说阅读器

之前我們為大家介紹過一項非常酸爽的研究“Talking Face Generation”：給定音頻或視頻后（輸入），可以讓任意一個人的面部特征與輸入的音視頻信息保持一致，也就是說出輸入的這段話。當時營長就想到了“楊超越的聲音+高曉松的臉”這樣的神仙搭配。不過，近期一項新研究再度抓到了營長的眼睛！在最新的研究中，研究者僅需要音頻信息就生成了人臉... ...如此鬼畜的操作，此乃頭一次見?。〗酉聛頎I長就為大家介紹一下這項工作！

音頻和圖像是人類最常用的兩種信號傳輸模式，圖像傳達的信息非常直觀，而語音包含的信息其實比我們想象的要更豐富，包括說話人的身份，性別和情緒狀態等等。從這兩個信號中提取的特征通常是高度相關的，可以讓人僅聆聽聲音就可以想象他的視覺外觀。WAV2PIX 的工作就是僅利用語音輸入，來生成說話者的人臉圖像。其實這就是一個跨模態的視覺生成任務。

談到這項研究的貢獻，主要有三點：

提出了一個能夠直接從原始的語音信號生成人臉的條件GAN：WAV2PIX；

提供了一個在語音和人臉兩方面綜合質量很高的一個數據集：Youtubers；

實驗證明論文的方法可以生成真實多樣的人臉。

論文收集了大V用戶（Youtubers）上傳到 Youtube 的演講視頻，這些視頻通常具有高質量的說話環境、表達方式、人臉特征等。Youtubers 數據集主要由兩部分組成：一個是自動生成的數據集和一個手動處理后的高質量的子集。

主要的預處理工作：

音頻最初下載的是高級音頻編碼（AAC）格式，44100 Hz，立體聲。因此轉換為 WAV 格式，并重新采樣到 16 kHz，每個樣例占 16 位并轉換為單聲道。

采用基于 Haar 特征的人臉檢測器來檢測正臉。僅采納置信度高的幀

保存檢測出來的那幀圖像及前后兩秒的語音幀，以及一個標簽（identity）。

方法介紹

研究主要由三個模塊構成：一個是語音編碼器，一個是圖片生成網絡，一個是圖片判別網絡。

語音編碼器（Speech Encoder）：已有的方法大多數是手工提取音頻特征，并不是針對生成網絡的任務進行優化的，而 SEGAN 提出了一種在波形上用于語音處理的方法。因此作者在已有的工作 SEGAN 上進行修改。修改為具有 6 層一維網絡，并且每層的 kernel 大小是 15x15，步長為 4，然后每層卷積網絡后面使用 LeakyReLU 激活函數，網絡的輸入通道是 1。輸入 16kHZ 下1 秒的語音片段，上述的卷積網絡可以得到一個 4x1024 的張量，然后采用三個全連接網絡將特征數量從 4x1024 降到 128。作為生成器網絡的輸入。

圖片生成器（Image Generator Network）：輸入是語音編碼器的 128 向量。采用二維轉置卷積、插值、dropout 等方式將輸入轉為 64x64x3 或者 128x128x3 的張量。在 G 的損失函數中添加了一個輔助損失用于保持說話人的標簽（Identity）。

圖片判別器（Image Discriminator Network）：判別器由幾層步長為 2，kernel 大小是 4x4 的卷積網絡組成，并使用譜歸一化和 LeakyReLU 激活函數。當張量為 4x4 時，作者拼接了語音的輸入，并采用最后一層網絡來計算 D 網絡的分數。

實驗過程

訓練：將手動處理后的數據集作為訓練集，采用數據增強等手動。值得注意的是，在處理時將每張圖像復制了 5 次，并將其與 4 秒音頻里面隨機采樣的 5 個不同的1秒音頻塊進行匹配。因此總共有 24K 左右的圖像-音頻對用于模型訓練。其它超參數采用參考的文獻設置。

評估：下圖給出了可視化的結果，雖然生成的圖像都比較模糊，但基本可以觀察到人的面部特征，并且有不同的面部表情。

作者進一步微調了一個預訓練的 VGG-FACE Descriptor 網絡，用于量化測試結果，在作者提供的數據集上，可以達到 76.81% 的語音識別準確率和 50.08% 的生成圖像準確率。

為了評估模型生成圖像的真實程度，作者定義了一個 68 個人臉關鍵點的精度檢測分數。如下圖所示，測試結果精度可以達到 90.25%。表明在大多數情況下生成的圖像保留了基本的面部特征。

感興趣的小伙伴們可以下載閱讀研究一下~

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

傳輸模式

傳輸模式

+關注

關注
0

文章
9

瀏覽量
7014
數據集

數據集

+關注

關注
4

文章
1208

瀏覽量
24703
人臉圖像

人臉圖像

+關注

關注
0

文章
11

瀏覽量
8972

原文標題：僅用語音，AI就能“腦補”你的臉！ | 技術頭條

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關注！文章轉載請注明出處。

音頻信息識別與檢索技術

檢索是目前急需解決的一個難題。音頻信息中主要包含語音、音樂、說話人、語種等內容信息。相應的音頻識別技術主要包含以下幾類：語音識別技術、說話人識別技術、語種識別技術、音樂識別檢索技術。語

發表于 03-05 22:53

音頻分類與音頻分段的研究

隨著計算機速度、容量的提高，以及互聯網上音頻數據的急劇膨脹，發展音頻信息的基于內容檢索技術已經成為迫切的需要。音頻信息的基于內容檢索系統包括音頻信息

發表于 03-08 22:31

matlab畢業論文-快速人臉特征定位

領域的應用價值，開始作為一個獨立的課題受到研究者的普遍重視。下面我將對人臉檢測的相關知識做一下簡單的介紹。畢業論文：附錄：附錄可以用word打開

發表于 03-07 10:22

人臉識別技術最新發展與研究

人臉識別技術最新發展與研究 2013年全國圖形圖像技術應用大會將在十一月初召開，本次大會大會將邀請國內圖像圖形處理技術領域的著名專家，就圖像圖形處理技術的應用和最新動態做特邀報告。并邀請圖像圖形技術

發表于 09-25 16:08

基于CPLD的數字功率放大器的研究與實現

數模轉換器DAC）實現；2利用模擬功率放大器進行模擬信號放大，如A類、B類和AB類放大器。從1980年代早期，許多研究者致力于開發不同類型的數字放大器，這種放大器直接從數字語音數據實現功率放大而不需要進行模擬轉換

發表于 07-01 09:37

人臉識別的研究范圍和優勢

的主要目的是在輸入的整幅圖像上尋找人臉區域。2.人臉表征采取某種方式檢測人臉和數據庫中的人臉。3.人臉

發表于 06-29 11:52

人臉識別在安防系統的應用研究

和事后，提供人臉抓拍、1: N動態人臉識別、人臉檢索查詢等多種人臉服務。對于人臉采集模塊，目前有2種實現方式，第1種，直接使用具有

發表于 11-07 10:38

蛋白質組學技術與藥物作用新靶點研究進展精選資料分享

，成為制約新藥開發速度的瓶頸?；蚪M學研究表明，人體中全部藥靶蛋白為1萬～2萬種，而在過去100年中發現的靶點，僅約有 500種。因此，自1994年Wilkins等提出蛋白質組（pro

發表于 07-26 07:48

基于小波變換的音頻信息隱藏技術研究

摘要：研究了一種基于小波變換的音頻信息隱藏的技術，對算法進行了詳細的研究與分析。并根據算法利用Matlab進行仿真實驗，實現了基于小波的音頻信息隱藏，保證了電力系統

發表于 12-27 20:32 ?35次下載

單對象人臉識別技術研究

單對象人臉識別技術研究 1 引言隨著計算機網絡和通信技術的發展，信息安全、知識產權保護和身份認證等問題成了一個重要而緊迫的研究課

發表于 02-06 09:21 ?734次閱讀

原來美國的研究者最關心的是這些

上個月，全新版《美國機器人路線圖》發布。這份由全美150多位研究者共同完成的報告呼吁：國家應該在新技術的安全集成方面制定更好的政策框架以保證我們每日生活的安全運轉。文件發布的目的，除了希望借此確定

發表于 11-19 22:07 ?364次閱讀

機器學習研究者必知的八個神經網絡架構

本文簡述了機器學習核心結構的歷史發展，并總結了研究者需要熟知的 8 個神經網絡架構。

發表于 02-26 18:40 ?1114次閱讀

一種基于實用AGC算法的音頻信號處理方法與FPGA實現的分析研究

隨著現代通信技術的廣泛使用，通信企業問的競爭不斷加劇，為提升自身的競爭優勢，通信企業需要將其通信信號的質量提升，并提高通信系統各項指標的穩定性、安全性、高效性。在音頻信號處理方法及FPGA實現中

發表于 09-30 16:29 ?3219次閱讀

僅憑聲音,AI 就能“腦補”你的臉!測試結果精度可以達到 90.25%

在最新的研究中，研究者僅需要音頻信息就生成了

發表于 04-08 10:10 ?3685次閱讀

70年人工智能研究，解讀研究者最大的慘痛教訓經驗

自1956年達特茅斯學院那場著名會議以來，人工智能研究走過了這么多年的旅途，經歷許多高峰也走過很多低谷。前事不忘后事之師，這期間產生了很多經驗教訓需要我們反復學習，而最重要的一條教訓卻是很多研究者很難接受的。

發表于 08-14 10:21 ?498次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

最新的研究中，研究者僅需要音頻信息就生成了人臉

評論

音頻信息識別與檢索技術

音頻分類與音頻分段的研究

matlab畢業論文-快速人臉特征定位

人臉識別技術最新發展與研究

基于CPLD的數字功率放大器的研究與實現

人臉識別的研究范圍和優勢

人臉識別在安防系統的應用研究

蛋白質組學技術與藥物作用新靶點研究進展精選資料分享

基于小波變換的音頻信息隱藏技術研究

單對象人臉識別技術研究

原來美國的研究者最關心的是這些

機器學習研究者必知的八個神經網絡架構

一種基于實用AGC算法的音頻信號處理方法與FPGA實現的分析研究

僅憑聲音,AI 就能“腦補”你的臉!測試結果精度可以達到 90.25%

70年人工智能研究，解讀研究者最大的慘痛教訓經驗

搜索歷史

最新的研究中，研究者僅需要音頻信息就生成了人臉

評論

最新的研究中，研究者僅需要音頻信息就生成了人臉