英偉達推出基于風格的生成器新結構,由此得到的升級版GAN圖像生成效果逼真到可怕!將面部細節分離出來,由模型進行單獨調整,從而大幅度超越其他模型,GAN 2.0橫空出世?
GAN 2.0來了?!
我們知道GAN能夠生成逼真的圖片,但沒有想到字面意義上的“逼真”會如此快到來。
下面是一組完全由計算機生成的圖片,重復一遍:全部是計算機生成的圖片!
這組效果驚艷到可怕的成果,出自英偉達的研究人員最近提出的一種新的生成器架構,基于風格遷移,將面部細節分離出來,由模型進行單獨調整,從而大幅度超越傳統GAN等模型,生成的面部圖像結果簡直逼真到可怕,可以說是GAN 2.0。
這種生成器架構提取的圖像風格,不是筆劃或顏色空間,而是圖像的組成(居中,向左或向右看等)和臉部的物理特征(膚色,雀斑,頭發)。
該研究的論文已經發表在Arxiv上:
https://arxiv.org/pdf/1812.04948.pdf
連Ian Goodfellow也服氣!
圖像逼真到可怕,能生成世界萬物
有CV研究人員看過上圖效果以后表示,機器學習模型非常擅長生成逼真的人臉,但這個新架構生成的人臉圖像已經真實到讓我再也不敢相信機器。
英偉達研究人員在論文中寫道,他們提出的新架構可以完成自動學習,無監督地分離高級屬性(例如在人臉上訓練時的姿勢和身份)以及生成圖像中的隨機變化,并且可以對合成進行更直觀且特定于比例的控制。
換句話說,這種新的GAN在生成和混合圖像,特別是人臉圖像時,可以更好地感知圖像之間有意義的變化,并且在各種尺度上針對這些變化做出引導。
例如,研究人員使用的舊系統可能產生兩個“不同”的面部,這兩個面部其實大致相同,只是一個人的耳朵被抹去了,兩人的襯衫是不同的顏色。而這些并不是真正的面部特異性特征,不過系統并不知道這些是無需重點關注的變化,而當成了兩個人來處理。
在上面的動圖中,其實面部已經完全變了,但“源”和“樣式”的明顯標記顯然都得到了保留,例如最底下一排圖片的藍色襯衫。為什么會這樣?請注意,所有這些都是完全可變的,這里說的變量不僅僅是A + B = C,而且A和B的所有方面都可以存在/不存在,具體取決于設置的調整方式。
下面這些由計算機生成的圖像都不是真人。但如果我告訴你這些圖像是真人的照片,你可能也不會懷疑:
這個模型并不完美,但確實有效,而且不僅僅可用于人類,還能用于汽車、貓、風景圖像的生成。
所有這些類型的圖像都或多或少可以單獨隔離出來,再現小型、中型和大型特征的相同范例。
基于風格的生成器架構:生成圖像效果質的飛躍
英偉達研究人員介紹,新的生成器在傳統的分布質量指標方面改進了最先進的技術,使得插值特性明顯變好,并且更好地解決了變量隱因子問題。
傳統生成器架構和基于風格的生成器架構對比
傳統方式中,隱碼(latent code)是通過輸入層提供給生成器的,即前饋網絡的第一層(圖1a)。而英偉達團隊完全省略了輸入層,從一個學習的常量(learned constant)開始,從而脫離了傳統的設計(圖1b,右)。在輸入隱空間Z中,給定一個隱碼z,一個非線性網絡 f:Z→W首先生成w∈W(圖1b,左)。
英偉達團隊的發生器架構可以通過對樣式進行特定尺度的修改來控制圖像合成??梢詫⒂成渚W絡和仿射變換看作是一種從學習分布(learned distribution)中為每種樣式繪制樣本的方法,而將合成網絡看作是一種基于樣式集合生成新圖像的方法。修改樣式的特定子集可能只會影響圖像的某些方面。
樣式混合
英偉達團隊采用混合正則化,其中給定比例的圖像是使用兩個隨機隱碼生成的,而不是一個在訓練期間生成給定百分比的圖像。
在生成這樣的圖像時,只需在合成網絡中隨機選擇的一個點上,從一個隱碼切換到另一個——稱之為樣式混合的操作。
表2顯示了在訓練過程中啟用混合正則化是如何產生顯著改進的,在測試時混合了多個延遲的場景中,改進的FID表明了這一點。
表2
圖3給出了在不同尺度上混合兩個潛碼合成圖像的例子??梢钥吹?,樣式的每個子集控制圖像的高級屬性。
圖3
隨機變化
人類肖像中有許多方面可以被視為隨機的,例如毛發,雀斑或皮膚毛孔的確切位置。只要它們遵循正確的分布,任何這些屬性都可以隨機化而不影響對圖像的感知。
圖4顯示了相同底層圖像的隨機實現,這些圖像是使用具有不同噪聲實現的生成器生成的。
圖4
可以看到,噪聲只影響隨機屬性,使整體組成和身份等高級屬性保持不變。
圖5進一步說明了將隨機變化應用于不同子層的效果。
圖5
整體效應與隨機性的分離
在基于樣式的生成器中,樣式會影響整個圖像,因為完整的特征圖像會被縮放并帶有相同的值。
因此,可以相干地控制姿態、燈光或背景風格等全局效果。同時,噪聲被獨立地添加到每個像素上,因此非常適合于控制隨機變化。
如果網絡試圖控制例如使用噪聲的擺姿,這將導致空間不一致的決定,然后將受到鑒別器的“懲罰”。因此,網絡學會了在沒有明確指導的情況下,適當地使用全局和本地通道(channel)。
兩種自動化方法,任何生成器都能升級
為了量化插值質量和分離,英偉達提出了兩種新的自動化方法,適用于任何生成器體系架構。
研究人員還發布了一個新的面部圖像數據集:數據收集自Flickr上的7萬張面部圖像,數據已經對齊和裁剪。研究人員使用亞馬遜Mechanical Turk來清除雕像、繪畫和其他異常圖像。
鑒于目前此類項目所使用的標準數據集主要是名人走紅毯的照片,本數據集應該能夠提供變化更豐富的面部圖像組合。
這些數據集不久后即將開放下載。
GAN 2.0已經如此,GAN 3.0將會如何?
使用基于風格的生成器的GAN,在各個方面都優于傳統的GAN,可以說是 GAN 2.0。
英偉達團隊相信,對高階屬性與隨機效應分離的研究,以及中間隱空間(intermediate latent space)的線性,將會對提高GAN合成的理解和可控性有很大的幫助。
可以注意到,平均路徑長度度量可以很容易地用作訓練中的正則化器,也許線性可分度量的某些變體也可以作為一個正則化器。
除了人像,GAN 2.0還可以生成房間、汽車等各種場景。有了這個利器,以后何愁圖像數據集?
看著這些計算機生成的“人”,是如此的真實但又虛擬。愛上一個不存在的人,似乎完全合情合理。
總的來說,在訓練期間直接塑造中間隱空間(intermediate latent space)的方法將為未來的工作提供有趣的途徑。
所以,期待一下全新的判別器架構,屆時得到的GAN 3.0,會如何沖擊我們的視覺和認知呢?
-
GaN
+關注
關注
19文章
1950瀏覽量
73776 -
英偉達
+關注
關注
22文章
3815瀏覽量
91478
原文標題:GAN 2.0!英偉達“風格遷移”面部生成器,世間萬物逼真呈現
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論