太長不看版,果然還是延續(xù)谷歌的風(fēng)格,創(chuàng)新不夠,實(shí)驗(yàn)來湊。
廢話不多說,直接上圖,一圖勝千言:
FlexiViT
顧名思義,F(xiàn)lexiViT,翻譯過來不就是靈活的 ViT 嘛?
Ooo,那怎么體現(xiàn)靈活?我們先回顧下 Vision Transformers 的工作流程。
一句話總結(jié)就是,ViT 是一種通過將圖像切割成一個個小方塊(patch)將圖像轉(zhuǎn)換為序列從而輸入到Transformer網(wǎng)絡(luò)進(jìn)行訓(xùn)練和推理的一種神經(jīng)網(wǎng)絡(luò)架構(gòu)。
本文的重點(diǎn)便是在研究這些小塊塊對性能的最終影響。通常來說:
方塊切的越小,精度會越高,但速度就變慢了;
方塊切的越大,精度會降低,但速度就上來了;
So,我們究竟是要做大做強(qiáng),還是做小做精致?不用急,來自谷歌大腦的研究人員為你揭曉答案:成年人才做選擇,老子大小通吃。
正經(jīng)點(diǎn),讓我們切回來,古哥通過燃燒了數(shù)不盡的卡路里向我們證明了,在訓(xùn)練期間隨機(jī)改變方塊的大小可以得到一組在廣泛的方塊大小范圍內(nèi)表現(xiàn)良好的權(quán)重(泛化性能好)。
這結(jié)論有什么用?那便是使得在部署時大家可以根據(jù)不同的計(jì)算預(yù)算來調(diào)整模型。
通過在以下五大版圖進(jìn)行廣泛的投資,可以清晰的發(fā)現(xiàn)收益率遠(yuǎn)超滬深300:
圖像分類
圖像-文本檢索
開放世界檢測
全景分割
語義分割
為了照顧下你們這些散(韭)戶(菜),古哥說你們可以將它任意添加到大多數(shù)依賴ViT骨干架構(gòu)的模型來實(shí)現(xiàn)計(jì)算自由,即模型可以根據(jù)不同的計(jì)算資源調(diào)整自己的工作方式,從而獲得更好的性能和效率。
說了這么多,怎么做?直接把代號都發(fā)給你了,明天早盤直接梭哈即可:
看到看到這里了,總不能白嫖吧?點(diǎn)個贊友情轉(zhuǎn)發(fā)下再走咯~~~
審核編輯 :李倩
-
谷歌
+關(guān)注
關(guān)注
27文章
6173瀏覽量
105637 -
圖像
+關(guān)注
關(guān)注
2文章
1087瀏覽量
40501 -
模型
+關(guān)注
關(guān)注
1文章
3268瀏覽量
48926
原文標(biāo)題:谷歌提出FlexiViT:適用于所有Patch大小的模型
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論