今天凌晨,第31屆計算機視覺和模式識別大會(CVPR)在美國鹽湖城正式召開。本屆大會一共收到3309篇投稿文章,最終接受979篇,接受率為29.6%,其中斯坦福和伯克利研究人員合作的Taskonomy: Disentangling Task Transfer Learning斬獲最佳論文,圖賓根大學教授Andreas Geiger和FAIR何凱明獲得PAMI年輕學者獎。
雖然這幾天學界大牛都忙著在twitter上譴責特朗普政府的“零容忍”移民政策,但CVPR 2018火熱依舊,大會剛開幕,官網就因訪問量過大掛了(現已恢復)。下面是論智帶來的最佳論文預覽,如有錯誤,歡迎留言指出。
視覺任務之間是否存在相關性?就像表面法線可以被用來簡化圖像深度估計。針對這些問題,直覺給出了積極的答案,暗示視覺任務中可能存在某種“結構”。掌握這種結構是意義重大的;它是遷移學習的基礎,也為確定各種任務之間的冗余提供了理論依據,例如,它允許我們在各種相關任務中無縫重復使用監督,或是用一個模型完成多種任務而不增加復雜度。
本文提出了一種完全計算的方法,從26個2D、2.5D、3D和語義任務中提取遷移學習相關性關系,進而建模視覺任務空間結構。該產品已經上線,是遷移學習的計算分類圖。此外,文章還探究了這個結構的作用,比如利用提取到的non-trivial關系減少任務對標記數據量的需求。實驗表明,對于10個不同的視覺任務,這種方法可以減少2/3的標記數據量,同時模型的性能和單獨訓練的模型基本一致。
物體識別、深度估計、邊緣檢測、姿態估計等都是常見的計算機視覺任務,它們也被學界看作是有價值的研究課題。其中的一些任務是高度相關的,比如我們知道表面法線和深度估計存在衍生關系,空間中消失的點對目標定位也有一定作用。但對于其他關系,我們掌握的知識就很有限了,例如,我們還沒有弄清關鍵點檢測和空間中的陰影為什么能被一起用來進行姿態估計。
計算機視覺確實沒有明確使用這些關系,近年來學界在開發先進學習模型上已經取得了令人矚目的成就,如ConvNets,它們能從多對(x, y)中找到X到Y的復雜映射。當然,x∈X,y∈Y,這些前提是訓練數據給出的,也就是我們常說的完全監督學習。監督學習的一個缺點是會導致模型只能解決一類孤立的問題,這也意味著每接受一個新任務,模型就得從頭開始訓練——我們需要大量標記數據。
如果模型掌握了各種任務之間的關系,它需要的監督學習就更少,計算壓力也更輕,而且預測效率更高。但到目前為止,這個關系是未知的。因此本文的目標是揭示任務空間底層結構,并提出一個計算機視覺任務之間的映射框架。這里的“結構”指的是任務間的相關性集合,即這個任務能給那個任務提供多少有用的信息。
論文作者在這里用的是完全計算的方法,在前饋神經網絡中,每一層都包含將輸入映射到輸出所需信息的抽象表征,這些表征可以被用來計算對輸出的貢獻程度,繼而推導任務之間的相關性矩陣。簡而言之,這里需要用到完全抽樣的遷移學習,從不同任務中提取相關的遷移策略。經實驗證實,最后獲得的模型大大降低了對標記數據量的需求,同時這個架構在普通數據集上也能使用。
工具
上述任務可以被定義如下:在有限的監督預算γ內(計算量、數據量和時間限制),我們要在一組任務T = {t1, ..., tn}中實現任務集體性能的最大化。其中γ表示允許從頭開始訓練的最大任務數(源任務),T表示我們想要完成的任務集(目標任務),S表示可以訓練的任務集(源任務),那么
V=T ∪ S是任務詞典;
T ? T ∩ S是我們想要完成但沒法訓練的任務(target-only);
T ∩ S既是目標任務,也是源任務;
S ? T ∩ S是可以訓練的任務,但我們對它們不感興趣(source-only)。
什么是Taxonomy?
Taxonomy,也就是任務分類法是一個定向的超圖模型,它可以從給定任務詞典里找出可遷移的元素。正如上文提到的,我們手里有一個源任務集和一個目標任務集,它們相交的邊表示一個可行的遷移方案,具體預測性能由雙方權重決定。為了預測T的全局最優遷移策略,我們需要用到這些邊,因此taskonomy的作用是生成一系列圖(如上面動圖),它的參數由監督預算、選擇的任務、遷移順序和遷移函數表達構成。
創建taskonomy
taskonomy的創建過程可分為4步:I.在S中,訓練針對特定任務的神經網絡;II.源任務和目標任務間的所有可遷移元素都已經訓練好了,用多輸入任務對一輸出任務訓練一個高階遷移函數;III.用AHP(層次分析法)獲得歸一化的遷移相關性;IV.用BIP(二元整數規劃)查找全局遷移taskonomy。
任務詞典
如下圖所示,任務詞典中一共有26種計算機視覺任務,涵蓋2D、2.5D、3D和語義任務等常見主題。需要注意的是,這個詞典應該是所有可以想象的視覺任務的采樣集,而不是詳盡的列表。采樣允許我們稀疏地模擬視覺任務的密集空間,并依靠假設把成果推廣到詞典以外的任務中。采樣空間越規則/越好,成果的通用性就越好。
任務詞典
數據集
論文作者制作了一個室內場景的大型高質量數據集:
通過對齊的網格記錄像素級的幾何信息;
通過蒸餾從ImageNet、MS COCO和MIT Places圖像中提取語義信息;
一致的攝影角度,相機功能完整;
高清晰度的圖像;
是ImageNet的3倍。
這個數據集大小有12TB,如果讀者有使用的興趣,可直接聯系作者申請:zamir@eecs.berkeley.edu / zamir@cs.stanford.edu。
步驟1:特定任務建模
為S中的每個任務訓練一個專用的神經網絡(完全監督),這些特定網絡有一個均勻的encoder-decoder架構,其中編碼器很大,能提取強大的表征;解碼器相對較小,但足以實現良好的性能。
步驟2:遷移模型
給定一個源任務s和一個目標任務t,其中s∈S,t∈T,如上圖所示,從輸入任務s和輸出任務t中,我們的遷移網絡應該能學到一些有關遷移函數的知識。其中,編碼器從圖片I中提取的表征是Es(I),輸出函數Ds→t中包含參數θs→t,它的目標是使損失Lt最小:
其中ft(I)是t對于圖像I的真值,因為Es(I)可能無法基于t和s的相關性,完美地解決任務t,所以函數Ds→t就為兩者的相關性提供了一個可用的參考指標。
步驟3:用AHP進行歸一化處理
既然已經獲得了任務間的相關性,我們自然希望能建立一個跨任務的、具有可傳遞性的相關性矩陣。對于這個目標,如果只是簡單地把Ls→t匯總到矩陣中,那顯然是有問題的,因為它們跨度太大,而且處于不同的任務空間中,因此適當的歸一化是必須的。
這里我們不能直接把它線性縮小到[0, 1]內,因為損失-性能曲線是未知的,這樣粗暴的縮小沒有效果。論文采用的是一種序數方法,它把輸出性能和損失假設為單調變化,這之后,對于每個t,Wt是遷移到t的所有可行源任務的成對矩陣。(i, j)處的值是保留測試集中圖像的百分比,即Dtest,其中si遷移到t比sj遷移到t更優(Dsi→t(I) > Dsj→t(I))。
對矩陣Wt做拉普拉斯平滑,把閾值控制在[0.001,0.999],然后計算Wt' = Wt/WtT,這樣矩陣就能量化si和sj的差距,顯示兩者的倍數關系:
步驟4:計算全局Taxonomy
現在已經有了歸一化的相關性矩陣,我們還需要制定一項全局遷移策略,最大限度地提高所有任務的集體性能,同時盡量減少所用的監督。這個問題可以表示為子圖選擇,其中任務是節點,傳輸是邊。最佳子圖選擇理想源節點和從這些源任務到目標任務的最佳邊,同時滿足源節點數量不超過監督預算。
對于這個問題,論文使用的方法是布爾整數規劃(BIP),詳情這里不再具體介紹。
BIP計算出的關系圖
實驗
在論文正文中,作者沒有明確給出自己的模型和其他state-of-art模型的具體對比情況,他們在附錄(taskonomy.stanford.edu/taskonomysuppCVPR2018.pdf)和FCRN做了對比,發現兩者在性能上并沒有多大差距,但因為論文模型掌握了任務底層結構知識,在遷移上更加得心應手,使用的標記數據更少,用時也更短。
小結
本文提出了一種利用遷移學習對計算機視覺任務空間進行建模的方法,并展示了它在減少標記數據量方面的實用性。任務空間本身就是一個有趣的研究對象,但本文的研究還只是皮毛。對于這個框架,論文作者還提出了一些應注意的假設:
Model Dependence:盡管本文驗證了成果在各種架構和數據集上的穩定性,但這不意味著它是萬能的,它在原則上還是只適用于特性模型和特定數據。
Compositionality:本文通過一組常用的人工定義的計算機視覺任務來進行建模,那么在此基礎上的進階做法應該是把這些任務作為觀察樣本,進一步探究它們和其他冷門任務的相關性。
Space Regularity:本文通過一個采樣詞典對密集空間進行建模,盡管它表現出了良好的通用性,但為了證實這種通用性,我們還需要對計算空間的屬性做更嚴謹的研究。
Transferring to Non-visual and Robotic Tasks:既然遷移學習在計算機視覺任務中能找出任務空間的底層結構,那它在其他領域的任務中應該也有用武之地,比如機器人研究,也許它能被用于解決機器人對下游任務的感知問題。
Lifelong Learning:在終身學習問題中,系統是不斷演變的,任務數量也是不斷增加的,對于這類情況,本文的一次性建模方法就不再適用了,它需要考慮更多的新因素。
-
計算機視覺
+關注
關注
8文章
1698瀏覽量
46022 -
遷移學習
+關注
關注
0文章
74瀏覽量
5566
原文標題:CVPR 2018最佳論文:用遷移學習探明CV任務的底層結構
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論