最近,麻省大學Amherst分校的Yang Zhou博士和他的團隊提出了一種具有深度結構的新方法「MakeItTalk」。給定一個音頻語音信號和一個人像圖像作為輸入,模型便會生成說話人感知的有聲動畫圖。
富有表現力的動畫誰都想要!
面部動畫在很多領域都是一項關鍵技術,比如制作電影、視頻流、電腦游戲、虛擬化身等等。
盡管在技術上取得了無數的成就,但是創造逼真的面部動畫仍然是計算機圖形學的挑戰。
一是整個面部表情包含了完整面部各部分之間的相互關系,面部運動和語音之間的協同是一項艱巨的任務,因為面部動態在高維多重影像中占主導地位,其中頭部姿勢最為關鍵。
二是多個說話人會有不同的說話方式,控制嘴唇一致,不足以了解說話的人的性格,還要表達不同的個性。
針對上述問題,Yang Zhou博士和他的團隊提出了一種具有深度結構的新方法「 MakeItTalk」。
這是一種具有深度架構的新方法,只需要一個音頻和一個面部圖像作為輸入,程序就會輸出一個逼真的「說話的頭部動畫」。
下面,我們就來看看,MakeItTalk的是如何讓圖片「說話」的。
都給我開口說話!神奇的 MakeItTalk 是什么?
MakeItTalk是一個新的深度學習為基礎的架構,能夠識別面部標志、下巴、頭部姿勢、眉毛、鼻子,并切能夠通過聲音的刺激使嘴唇發生變化。
模型以LSTM 和 CNN 為基礎,可以根據說話人的音調和內容,讓面部表情和頭部產生隨動。
本質上, MakeItTalk將輸入音頻信號中的內容和說話人分離出來,從產生的抽象表示中提取出對應的動畫。
而嘴唇和相鄰面部的協同也尤為重要。說話者的信息被用來獲取其他面部表情和頭部動作,而這些對于生成富有表現力的頭部動畫是必需的。
MakeItTalk模型既可以生成逼真的人臉說話圖像,也可以生成非逼真的卡通說話圖像。
聲音+圖像=「開口說話」?MakeItTalk是如何做到的?
下面的圖表顯示了生成逼真的說話頭像的完整方法和途徑:
(1)一個音頻剪輯和一個單一的面部圖像可以制作一個與音頻協調的,能感知說話者的頭部動畫。
(2)在訓練階段,使用現成的人臉檢測器對輸入的視頻進行預處理,提取標記,從輸入的音頻中訓練基礎模型,實現語音內容轉動畫和標記的精確提取。
(3)為了獲得高精度的運動,通過對輸入音頻信號的分離內容和說話人嵌入來檢測標記點的估計。為此,采用語音轉換神經網絡對語音內容進行提取,發現語音內容。
(4)內容與說話者無關,并且捕獲了嘴唇和相鄰部位的常見運動,其中說話內容調節了動作的特征和說話者頭部動作的剩余部分。
(5)嘴唇的大小和形狀隨著眼睛、鼻子和頭部的運動而擴大,這取決于誰說了這個詞,也就是說話人身份。
(6)最后,為了生成轉換后的圖像,MakeItTalk采用了兩種算法進行標記到圖像的合成:
對于非真實感的圖像,如畫布藝術或矢量藝術,一個特定的畸變方法是在 Delaunay triangulation 的基礎上部署;
對于真實感圖像,構建一個圖像到圖像的轉換網絡(與 pix2pix 相同) ,直接轉換自然人臉。
最后,混合所有的圖像幀和音頻共同生成頭部動畫。
作者簡介
該項目的作者本科畢業于上海交通大學電子工程系,然后在喬治亞理工學院獲得了碩士學位,現在是馬薩諸塞大學阿默斯特分校計算機圖形學科學研究小組的一名計算機科學博士生。
Yang Zhou在計算機圖形學和機器學習領域工作。主要致力于用深度學習技術來幫助藝術家、造型師和動畫師做出更好的設計。
如果也想給你的設計加點AI的基因,Yang Zhou的論文列表絕對是個不錯的選擇,有很多關于動畫生成和多模態深度學習的研究。
責編AJX
-
音頻
+關注
關注
29文章
2891瀏覽量
81714 -
模型
+關注
關注
1文章
3279瀏覽量
48974 -
圖片
+關注
關注
0文章
203瀏覽量
15955
發布評論請先 登錄
相關推薦
評論