DeepMind把GAN又玩出了新花樣!這次推出的是雙視頻判別器GAN,通過對判別器更高效的分解,生成的視頻樣本在長度和分辨率上都遠高于此前最好水平,在多個合成和預測視頻數據集上刷新了SOTA。
也許你聽說過FaceApp,這是一款利用AI來改變自拍的移動應用程序,你可能也聽說過“這些人物都不存在”網站,它可以顯示計算機生成的虛構人物照片。但是生成完完全全的新視頻的算法你聽說過嗎?最近,DeepMind的一篇最新論文詳細介紹了AI剪輯生成領域的最新進展。
論文地址:
https://arxiv.org/pdf/1907.06571.pdf
研究人員表示,由于“高效計算”組件和技術的使用,再加上新的定制數據集,他們訓練出的最佳性能模型:雙視頻鑒別器GAN(DVD-GAN)可以生成“高保真度”的連貫256 x 256像素視頻,幀數高達48幀。
DVD-GAN這個簡稱由Ian Goodfellow“欽定”
“生成自然視頻對于生成建模任務來說是一個明顯更困難的挑戰,受到數據復雜性和計算要求增加的困擾,”共同作者寫道。“出于這個原因,許多關于視頻生成的先前研究都圍繞著相對簡單的數據集或可獲得強時間條件信息的任務。我們的研究則關注視頻合成和視頻預測的任務......并將生成圖像模型的成果擴展到視頻領域。”
研究人員圍繞尖端AI架構構建系統,并專門針對視頻進行了特定的調整,使其能夠在Kinetics-600上進行訓練,這是一個比常用語料庫大一個數量級的自然視頻數據集。具體來說,研究人員利用擴大的生成對抗網絡(GAN),它已應用于多種轉換任務,比如將字幕轉換為逐個場景的情節板,生成人造星系的圖像等。本文中采用的是BigGAN,以大批量和數百萬個參數而著稱。
DVD-GAN:雙判別器,非約束數據集無需擔心過擬合
一組4秒合成視頻剪輯,由Kinetics-600在128×128幀上訓練
DVD-GAN包含兩個判別器:一個空間判別器,通過隨機采樣全分辨率幀并單獨處理,來評判單幀的內容和結構,還有一個是時間判別器,負責提供學習信號來生成運動。此外還有一個單獨的模塊:變換器,讓學習到的信息在整個AI模型中傳播。
至于訓練數據集(Kinetics-600),這是根據最初為人類行為識別策劃的500,000個10秒高分辨率YouTube剪輯編制的,研究人員稱該數據集具有“多樣化”和“非受限”的特點,他們聲稱這些特征消除了過擬合的風險。(在機器學習中,過擬合是指與特定數據集過于緊密對應的模型,因此無法可靠地預測未來的觀測結果。)
該團隊在論文中表示,在經過Google加速的第三代TPU訓練12到96小時后,DVD-GAN成功創建了包括目標結構、移動,甚至是復雜紋理的視頻。模型還盡力在更高的分辨率下創建連貫的物體,物體的運動組成像素更多。但研究人員指出,在UCF-101(13,320個人類行為視頻的較小數據集)上評估時,DVD-GAN生成的樣本的最好成績分數為32.97。
“我們希望進一步強調在大型復雜視頻數據集(如Kinetics-600)上訓練生成模型的好處,”論文中寫道。“我們想通過DVD-GAN在此數據集上建立的強大基線標準,作為生成建模社區的參考標桿。雖然在非約束的環境下,要想始終如一地生成逼真的視頻還有很多工作要做,但我們相信,DVD-GAN是朝這個方向邁出的堅實一步。”
-
GaN
+關注
關注
19文章
1946瀏覽量
73671 -
數據集
+關注
關注
4文章
1208瀏覽量
24737 -
DeepMind
+關注
關注
0文章
130瀏覽量
10881
原文標題:DeepMind把GAN玩出新花樣!基于BigGAN,生成高保真視頻
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論