日前,曠視科技發布了一項新的開源AI人像視頻生成框架——MegActor。該框架讓用戶只需輸入一張靜態肖像圖片和一段視頻(如演講、表情包、rap),便可生成一段表情豐富、動作一致的AI人像視頻。生成的視頻長度取決于輸入的視頻長度。與阿里EMO、微軟VASA等最新AI視頻模型不同,曠視MegActor采用開源方式,供開發者社區使用。MegActor生成的視頻畫質更出色,面部細節更加豐富自然。
為了展示其泛化性,MegActor甚至可以將VASA中的人物肖像和視頻組合生成,得到生動的表情視頻。即使與阿里EMO的官方案例相比,MegActor也能生成近似的效果。
總的來說,無論是讓肖像開口說話、唱歌、模仿搞怪表情包,MegActor都能生成逼真的效果。
論文鏈接:https://arxiv.org/abs/2405.20851
代碼地址:https://github.com/megvii-research/megactor
項目地址:https://megactor.github.io/
MegActor是曠視研究院的最新研究成果。曠視研究院是曠視公司級研究機構,旨在通過基礎創新突破AI技術邊界,以工程創新實現技術到產品的快速轉化。多年來,曠視研究院已成為全球領先的人工智能研究機構。
目前的人像視頻生成領域中,許多工作通常使用高質量的閉源數據進行訓練,以追求更好的效果。而曠視研究院始終堅持全面開源,確保實際效果的可復現性。MegActor的訓練數據全部來自公開可獲取的開源數據集,配合開源代碼,使得感興趣的從業者可以從頭開始完整復現這些效果。
為了完全復刻原始視頻的表情和動作,MegActor采用原始圖像進行驅動,這與多數廠商使用的中間表示方法(如sketch、pose、landmark)不同,能夠捕捉到細致的表情和運動信息。
曠視科技研究總經理范浩強表示,在AI視頻生成領域,我們發現目前主流的骨骼關鍵點控制方式不僅要求用戶提供難以獲取的專業控制信號,同時生成視頻的保真度也不盡如人意。通過研究發現,使用原視頻進行驅動,不僅降低了控制信號的門檻,更能生成保真且動作一致的視頻。
具體來說,MegActor主要由兩個階段構成:
使用ReferenceNet對參考圖像進行特征提取,獲取參考圖像的外觀和背景信息;
使用PoseGuider對輸入視頻進行運動和表情信息提取,將這些信息遷移到參考圖像上。
雖然使用原始視頻進行驅動能帶來更豐富的表情細節和運動信息,但也存在ID泄露和背景干擾等挑戰。為此,MegActor采用了條件擴散模型,引入了合成數據生成框架,創建具有一致動作和表情但不同身份ID的視頻,以減輕ID泄露的問題。MegActor還分割了參考圖像的前景和背景,并使用CLIP對背景細節進行編碼,確保背景的穩定性。
在數據訓練方面,曠視研究院團隊使用公開數據集(VFHQ和CeleV)進行訓練,總時長超過700小時。為了避免ID泄露問題,團隊還使用換臉和風格化方法1:1生成合成數據,實現表情和動作一致但ID不一致的數據。此外,團隊使用注視檢測模型處理數據,獲取大約5%的高質量數據進行Finetune訓練。
通過新的模型框架和訓練方法,曠視研究院團隊僅使用了不到200塊V100顯卡小時的訓練時長,最終實現了以下特性:
根據輸入視頻生成任意持續時間的模仿視頻,確保角色身份一致性;
支持各種驅動視頻,如演講、唱歌、表情包等;
支持不同畫風(照片、傳統繪畫、漫畫、AI數字人等);
與音頻生成方法相比,MegActor生成的視頻不僅能確保表情和動作一致,更能達到自然程度。
目前,MegActor已經完全開源,供開發者和用戶即開即用。
審核編輯 黃宇
-
AI
+關注
關注
87文章
30998瀏覽量
269304 -
開源
+關注
關注
3文章
3363瀏覽量
42536
發布評論請先 登錄
相關推薦
評論