近日,谷歌大腦研究人員提出了一種基于自監督和半監督學習的“條件GAN”,使用的標記數據量大降90%,生成圖像的質量比現有全監督最優模型BigGAN高出20%(以FID得分計),有望緩解圖像生成和識別領域標記數據量嚴重不足的問題。
生成對抗網絡(GAN)是一類強大的深度生成模型。GAN背后的主要思想是訓練兩個神經網絡:生成器負責學習如何合成數據,而判別器負責學習如何區分真實數據與生成器合成的虛假數據。目前,GAN已成功用于高保真自然圖像合成,改善學習圖像壓縮質量,以及數據增強等任務。
對于自然圖像合成任務來說,現有的最優結果是通過條件GAN實現的。與無條件GAN不同,條件GAN在訓練期間要使用標簽(比如汽車,狗等)。雖然數據標記讓圖像合成任務變得更容易實現,在性能上獲得了顯著提升,但是這種方法需要大量標記數據,而在實際任務中很少有大量標記數據可用。
隨著ImageNet上訓練過程的持續,生成的圖像逼真度進步明顯
谷歌大腦的研究人員在最近的《用更少的數據標簽生成高保真圖像》中,提出了一種新方法來減少訓練最先進條件GAN所需的標記數據量。文章提出結合大規模GAN的最新進展,將高保真自然圖像合成技術與最先進技術相結合,使數據標記數量減少到原來的10%。
在此基礎上,研究人員還發布了Compare GAN庫的重大更新,其中包含了訓練和評估現代GAN所需的所有組件。
利用半監督和自監督方式提升預測性能
條件GAN與基線BigGAN的FID分數對比,圖中黑色豎線為BigGAN基線模型(使用全部標記數據)得分。S3GAN在僅使用10%標記數據的情況下,得分比基線模型最優得分高20%
在條件GAN中,生成器和判別器通常都以分類標簽為應用條件?,F在,研究人員建議使用推斷得出的數據標簽,來替換手工標記的真實標簽。
上行:BigGAN全監督式學習生成的128×128像素最優圖像樣本。下行為S3GAN生成的圖像樣本,標記數據量降低了90%,FID得分與BigGAN表現相當
為了推斷大型數據集中多數未標記數據的高質量標簽,可以采取兩步方法:首先,僅使用數據集的未標記部分來學習特征表示。
為了學習特征表示,需要利用新方法,以不同的方法利用自我監督機制:將未標記的圖像進行隨機旋轉,由深度卷積神經網絡負責預測旋轉角度。這背后的思路是,模型需要能夠識別主要對象及其形狀,才能在此類任務中獲得成功。
對一幅未標記的圖像進行隨機旋轉,網絡的任務是預測旋轉角度。成功的模型需要捕捉有意義的語義圖像特征,這些特征可用于完成其他視覺任務
研究人員將訓練網絡的一個中間層的激活模式視為輸入的新特征表示,并訓練分類器,以使用原始數據集的標記部分識別該輸入的標簽。由于網絡經過預訓練,可以從數據中提取具有語義意義的特征,因此,訓練此分類器比從頭開始訓練整個網絡更具樣本效率。最后使用分類器對未標記的數據進行標記。
為了進一步提高模型質量和訓練的穩定性,最好讓判別器網絡學習有意義的特征表示。通過這些改進手段,在加上大規模的訓練,使得新的條件GAN在ImageNet圖像合成任務上達到了最優性能。
給定潛在向量,由生成器網絡生成圖像。在每行中,最左側和最右側圖像的潛在代碼之間的線性插值導致圖像空間中的語義插值
CompareGAN:用于訓練和評估GAN的庫
對GAN的前沿研究在很大程度上依賴于經過精心設計和測試的代碼庫,即使只是復制或再現先前的結果和技術,也需要付出巨大努力。
為了促進開放科學并讓研究界從最近的進步中獲益,研究人員發布了Compare GAN庫的重大更新。該庫包括現代GAN中常用的損失函數,正則化和歸一化方案,神經架構和量化指標,現已支持:
GPU和TPU訓練
通過Gin進行輕量級配置(含實例)
通過TensorFlow數據集庫提供大量數據集
未來方向:自監督學習會讓GAN更強大
由于標記數據源和未標記數據源之間的差距越來越大,讓模型具備從部分標記的數據中學習的能力變得越來越重要。
目前來看,自監督學習和半監督學習的簡單而有力的結合,有助于縮小GAN的這一現實差距。自監督是一個值得研究的領域,值得在該領域開展面向其他生成建模任務的研究。
-
谷歌
+關注
關注
27文章
6176瀏覽量
105675 -
GaN
+關注
關注
19文章
1950瀏覽量
73776
原文標題:谷歌大腦打造“以一當十”的GAN:僅用10%標記數據,生成圖像卻更逼真
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論