不給全圖,只投喂CNN一些看上去毫無信息量的圖像碎片,就能讓模型學(xué)會圖像分類。
更重要的是,性能完全不差,甚至還能反超用完整圖像訓(xùn)練的模型。
這么一項來自加州大學(xué)圣塔芭芭拉分校的新研究,這兩天引發(fā)不少討論。
咋地,這就是說,CNN根本無需理解圖像全局結(jié)構(gòu),一樣也能SOTA?
具體是怎么一回事,咱們還是直接上論文。
實驗證據(jù)
研究人員設(shè)計了這樣一個實驗:
他們在CIFAR-10、CIFAR-100、STL-10、Tiny-ImageNet-200以及Imagenet-1K等數(shù)據(jù)集上訓(xùn)練ResNet。
特別的是,用于訓(xùn)練的圖像是通過隨機裁剪得到的。
這個“隨機裁剪”,可不是往常我們會在數(shù)據(jù)增強方法中見到的那一種,而是完全不做任何填充。
舉個例子,就是對圖片做PyTorch的RandomCrop變換時,padding的參數(shù)填0。
得到的訓(xùn)練圖像就是下面這個樣式的。即使你是閱圖無數(shù)的老司機,恐怕也分辨不出到底是個啥玩意兒。
訓(xùn)練圖像如此碎片化,模型的識圖能力又能達到幾成?
來看實驗結(jié)果:
好家伙,在CIFAR-10上,用16×16的圖像碎片訓(xùn)練出來的模型,測試準(zhǔn)確率能達到91%,而用完整的32×32尺寸圖像訓(xùn)練出來的模型,測試準(zhǔn)確率也不過90%。
這一波,“殘缺版”CNN竟然完全不落下風(fēng),甚至還反超了“完整版”CNN。
要知道,被喂了碎片的CNN模型,看到的圖像甚至可能跟標(biāo)簽顯示的物體毫無關(guān)系,只是原圖中背景的部分……
在STL-10、Tiny-Imagenet-200等數(shù)據(jù)集上,研究人員也得到了類似的結(jié)果。
不過,在CIFAR-100上,還是完整圖像訓(xùn)練出來的模型略勝一籌。16×16圖像碎片訓(xùn)練出的模型測試準(zhǔn)確率為61%,而32×32完整圖像訓(xùn)練出的模型準(zhǔn)確率為68%。
所以,CNN為何會有如此表現(xiàn)?莫非它本來就是個“近視眼”?
研究人員推測,CNN能有如此優(yōu)秀的泛化表現(xiàn),是因為在這個實驗中,維度詛咒的影響被削弱了。
所謂維度詛咒(curse of dimensionality),是指當(dāng)維數(shù)提高時,空間體積提高太快,導(dǎo)致可用數(shù)據(jù)變得稀疏。
而在這項研究中,由于CNN學(xué)習(xí)到的不是整個圖像的標(biāo)簽,而是圖像碎片的標(biāo)簽,這就在兩個方面降低了維度詛咒的影響:
圖像碎片的像素比完整圖像小得多,這減少了輸入維度
訓(xùn)練期間可用的樣本數(shù)量增加了
生成熱圖
基于以上實驗觀察結(jié)果,研究人員還提出以熱圖的形式,來理解CNN的預(yù)測行為,由此進一步對模型的錯誤做出“診斷”。
就像這樣:
這些圖像來自于STL-10數(shù)據(jù)集。熱圖顯示,對于CNN而言,飛機圖像中最能“刺激”到模型的,不是飛機本身,而是天空。
同樣,在汽車圖像中,車輪才是CNN用來識別圖像的主要屬性。
論文地址: https://arxiv.org/abs/2205.10760
審核編輯 :李倩
-
圖像分類
+關(guān)注
關(guān)注
0文章
90瀏覽量
11943 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24749 -
cnn
+關(guān)注
關(guān)注
3文章
353瀏覽量
22265
原文標(biāo)題:不看全圖看局部,CNN性能竟然更強了
文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論