5月9日,英偉達(dá)首席研究科學(xué)家劉明宇在社交網(wǎng)站公布了其最新研究成果:一種新型的GAN,在測試期間只需幾張示例圖像,就可以將圖像轉(zhuǎn)換為以前從未見過的對象類型。GAN之父Ian Goodfellow也對其進(jìn)行了轉(zhuǎn)發(fā)支持。
人類在泛化方面非常擅長。
當(dāng)給出一張以前看不見的外來動物的照片時,我們可以用不同的姿勢形成同一動物的生動的心理圖像,特別是當(dāng)我們在之前的姿勢中遇到過相似但不同的動物(圖像)時。
例如,一個人第一次看到一只站立的老虎,我們可以毫不費力地想象它躺下來的樣子。
同時,也很容易獲得一種伴認(rèn)知泛化能力,即其他的動物躺下來會是什么樣子。
對于現(xiàn)有無監(jiān)督圖像到圖像的轉(zhuǎn)換算法,雖然已經(jīng)在跨圖像類轉(zhuǎn)換復(fù)雜的外觀變化方面非常成功,但基于先驗知識從新類的少數(shù)樣本泛化的能力完全超出了它們的范圍。 具體地說,仍然在兩個方面受到限制:
首先,模型通常需要在訓(xùn)練期內(nèi)看到來自目標(biāo)類的大量圖像。
其次,在測試期內(nèi),不能將用于轉(zhuǎn)換任務(wù)的訓(xùn)練模型重新用于另一轉(zhuǎn)換任務(wù)。
簡言之,現(xiàn)有的算法不支持小樣本泛化。
為了彌合人機與機器想象能力之間的差距,最近英偉達(dá)的研究人員提出了幾個無監(jiān)督的圖像到圖像轉(zhuǎn)換框架(FUNIT)來解決上述限制。
在訓(xùn)練時,F(xiàn)UNIT模型會學(xué)習(xí)在從一組源類中采樣的任何兩個類之間轉(zhuǎn)換圖像。
在測試時,模型會顯示一些它從未見過的目標(biāo)類的圖像。該模型利用這些少量示例圖像將源類的輸入圖像轉(zhuǎn)換為目標(biāo)類。
首先假設(shè)人類的小樣本泛化能力是從他們過去的視覺經(jīng)驗中發(fā)展出來的 - 如果一個人在過去看過更多不同的對象類別,他們可以更好地想象一個新對象的視圖。
基于該假設(shè),研究人員使用包含許多不同對象類的圖像的數(shù)據(jù)集來訓(xùn)練FUNIT模型,以模擬過去的視覺體驗。具體來說,他們通過利用另一個類的少量示例圖像來訓(xùn)練模型以將圖像從一個類轉(zhuǎn)換為另一個類。
假設(shè)通過學(xué)習(xí)從用于翻譯任務(wù)的少數(shù)示例圖像中提取外觀模式,該模型學(xué)習(xí)了一種可推廣的外觀模式提取器,其可以在測試時應(yīng)用于看不見的類的圖像,用于少數(shù)鏡頭到圖像到圖像的轉(zhuǎn)換任務(wù)。
左:訓(xùn)練。 訓(xùn)練集由各種對象類(源類)的圖像組成。 我們訓(xùn)練模型來在這些源對象類之間轉(zhuǎn)換圖像。右:部署。 我們向訓(xùn)練模型顯示目標(biāo)類的極少數(shù)圖像,這足以將源類的圖像轉(zhuǎn)換為目標(biāo)類的類似圖像,即使模型在訓(xùn)練期間從未見過來自目標(biāo)類的單個圖像。
請注意,F(xiàn)UNIT生成器需要兩個輸入:1)內(nèi)容圖像(紅色線圈選)和2)一組目標(biāo)類圖像(綠色線圈選)。 它旨在生成類似于目標(biāo)類圖像的輸入圖像的轉(zhuǎn)換。
架構(gòu)及轉(zhuǎn)換過程
框架基于生成對抗網(wǎng)絡(luò)(GAN),實驗表明,通過將對抗性訓(xùn)練方案與新穎的網(wǎng)絡(luò)設(shè)計相結(jié)合,研究人員實現(xiàn)了所需的幾次無人監(jiān)督的圖像到圖像轉(zhuǎn)換能力。 通過對三個數(shù)據(jù)集的廣泛實驗驗證,包括使用各種性能指標(biāo)與幾種基線方法的比較,驗證了框架的有效性。
少樣本無監(jiān)督的圖像到圖像轉(zhuǎn)換示例
研究人員展示了動物面部轉(zhuǎn)換,鳥類轉(zhuǎn)換,花卉轉(zhuǎn)換和食物轉(zhuǎn)換的結(jié)果。對于每個例子,
y1和y2是測試期間可用的目標(biāo)類的少數(shù)示例圖像,
x是源類的輸入圖像,
x bar是從源類到目標(biāo)類的轉(zhuǎn)換。
模型能夠?qū)⒈愚D(zhuǎn)換成沙皮狗,即使它在訓(xùn)練期間從未見過單一的沙皮狗圖像。
動物面部轉(zhuǎn)換
鳥類轉(zhuǎn)換
花卉轉(zhuǎn)換
食物轉(zhuǎn)換
結(jié)果表明,在訓(xùn)練過程中,當(dāng)模型沒有看到任何目標(biāo)類的圖像時,F(xiàn)UNIT可以基于小樣本集生成可信的轉(zhuǎn)換輸出。
我們注意到輸出圖像中的對象與輸入具有相似的姿勢。
框架的局限性
當(dāng)看不見的對象類的外觀與源類的外觀(例如花和動物的面部)顯著不同時。 擬議的FUNIT框架未能產(chǎn)生有意義的轉(zhuǎn)換輸出。
論文摘要
無監(jiān)督的圖像到圖像的轉(zhuǎn)換方法,是指學(xué)習(xí)利用圖像的非結(jié)構(gòu)化(未注冊)數(shù)據(jù)集,將給定類中的圖像映射到不同類中的類似圖像。
雖然非常成功,但是當(dāng)前的方法需要在訓(xùn)練時訪問源類和目標(biāo)類中的許多圖像。 我們認(rèn)為這極大地限制了它們的使用。
人類通常具有可以從少數(shù)例子中找到新物體本質(zhì)的能力,研究人員以此為靈感并加以推廣,他們尋求一種小樣本的、無監(jiān)督的圖像到圖像的轉(zhuǎn)換算法,該算法適用于以前從未見過的目標(biāo)類別。 在測試時僅指定幾個示例圖片,該模型通過將對抗訓(xùn)練方案與新穎的網(wǎng)絡(luò)設(shè)計相結(jié)合,實現(xiàn)了這種小樣本的泛化能力。 通過廣泛的實驗驗證和與基準(zhǔn)數(shù)據(jù)集的幾種基線方法的比較,驗證了所提出框架的有效性。
代碼:
https: //nvlabs.github.io/FUNIT
Demo:
https://nvlabs.github.io/FUNIT/petswap.html
論文:
https://arxiv.org/pdf/1905.01723.pdf
-
圖像
+關(guān)注
關(guān)注
2文章
1086瀏覽量
40494 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24727 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3783瀏覽量
91243
原文標(biāo)題:英偉達(dá)發(fā)布新型GAN,豹子秒變沙皮狗!| 技術(shù)頭條
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論