手机推荐排行榜,辰东,神武八荒一颗小说

一年一度的CVPR這就來了，各種前沿的、新奇的、驚人的成果又將給我們帶來全新的認知。忍不住想去關注大神們的杰出工作，其中曾獲得兩次CVPR最佳論文的Kaiming是第一個想要檢索的對象。在今年的主論壇上，共有四篇論文出現了Kaiming He的身影，他們分別是：

圖像分割領域的：Learning to Segment Every Thing；

利用數據蒸餾的全向監督學習：Data Distillation：Toward Omni-Supervised Learning；

研究人與物互動：Detecting and Recognizing Human-Object Interactions；

一種非局域的神經網絡結果：Non-Local Neural Netwroks。

（另一位著名的rbg大牛也是這四篇論文的共同作者>>http://www.rossgirshick.info/）

下面就讓我們一起來學習這四篇論文中的精妙思想吧！

目標檢測中最有趣的工作之一就是預測被檢測物體的前景掩膜了，這項被稱為實例分割的任務能將每個物體所包含的像素精確的預測出來。但在實際中的系統只包含了視覺世界的一小類物體，大約100中的目標分類限制了它的應用。這主要是由于先進的實例分割算法需要強監督樣本進行訓練。目前的訓練數據類別有限而增添一個新類別的強監督實例分割樣本十分耗時耗力。但另一方面，邊界框標記的樣本卻十分豐富也容易獲取。于是研究人員提出了一個想法：有沒有可能不依靠完整的實例分割標記來生成對于所有類都有效的高質量分割模型呢？在這個想法的指導下，這篇論文引入了一種新的部分監督實例分割任務，并提出了一種新穎的遷移學習方法來解決這一問題。

這一新的半監督問題定義如下：1.訓練數據中包含很多類對象，只有很小的子集類別擁有實例掩膜標注而其余只有邊界框標記；2.實例分割算法需要充分利用這些數據來生成一個可以為數據集中所有類別預測實例分割的模型。由于訓練數據是強標記（掩膜）和弱標記（邊框）數據的混合，所以將這一任務稱為部分監督學習。

部分監督任務最主要的優點在于可以通過對已有小類別掩膜標記數據和大類被邊框標記數據的探索，建立大規模的實例分割模型，得以將在小類別上表現優異的先進模型拓展到上千個分類中去，這對于實際生活中的使用至關重要。

在具體實現過程中，基于Mask R-CNN提出了一種新穎的遷移學習方法。Mask R-CNN可以將實例分割問題分解為邊框目標檢測和掩膜預測兩個子任務。在訓練中分類信息會被編碼到邊框頭單元中，就可以將這一視覺類別信息遷移到部分監督的掩膜頭中去。其次，作者還提出了一個稱為權重遷移函數的單元用于從邊框參數預測出每一分類的分割參數。在預測時，它將用于對每一類物體預測實例分割的參數，包括在訓練時沒有掩膜標記的類別。

圖中綠框表示擁有掩膜標記的類別和紅框則表示只有邊框標記，而后預測出掩膜的類別。

最終通過學習小類別中邊框到分割的權重遷移函數，成功地通過混合數據的訓練實現了部分監督學習，將強大的圖像分割模型拓展到了3000類物體中。也開拓了非全監督條件下大規模實例分割的研究方向。

論文>>http://openaccess.thecvf.com/content_cvpr_2018/papers/Hu_Learning_to_Segment_CVPR_2018_paper.pdf

這篇文章同樣是關于充分利用數據方面的工作，探索了一種稱為全向監督學習的機制來使得模型盡可能的利用標記數據，并提供了潛在的無限制的無標記數據，它屬于半監督學習的一個特殊領域。但目前大多數研究人員研究半監督問題主要從標記數據中分割出標記和未標記數據來模擬這樣的數據集，這樣的方法就決定了其上限是利用所有標記數據來實現的全監督學習。而全向監督學習則是利用所有的標記數據得到的精確結果作為模型的下限，來探索超越全監督學習基線的可能性。

這篇文章在模型精煉思想的啟發下提出了數據精餾的方法來處理全向監督問題。首先了利用大規模標記數據訓練的模型來為無標簽數據創建標簽；隨后又將新得到的標簽數據與原數據一起訓練新的模型。為了避免模型預測的數據標簽沒有意義，研究人員利用的單個模型對不同變換后（翻轉和尺度變換）未標記數據進行處理并組合了它們的結果，通過數據變化來增強單個模型的精度。

實驗證明這樣的變換可以提供不尋常的信息。換句話說，和利用多個模型來精煉知識的預測方法相比，這種方法通過單個模型在不同變化下的非標簽數據中進行了數據精餾。

由于全監督學習模型的飛速發展，目前的模型產生的錯誤越來越少，對于未知數據的預測結果也越來越可信。所以數據精餾無需改變識別模型，并且可以用于規模化的處理大規模未標記數據。

為了驗證對于全向監督學習的數據蒸餾是否有效，在COCO數據集上對人體關鍵點檢測任務進行了測評。通過原始標記的COCO數據集和連一個大規模非標記數據集（Sports-1M）進行數據精餾并訓練了Mask R-CNN模型。

通過模型對未標記數據生成的標注

通過對未標記數據的精餾，研究人員觀察到了留存驗證集上精度的明顯提升：對于基準Mask R-CNN提升了2個點AP;作為參考的是利用相同數據量的手工標記數據得到了近3個點的提升，這說明利用本文的方法是有希望利用未標記數據提高模型表現的。

利用數據精餾實現的結果

總結一下，本文主要探索了利用全向監督學習（omni-supervised）的方法超越大規模全監督學習的可能性，利用所有的監督數據與非監督數據的精餾來實現提升。

論文>>http://openaccess.thecvf.com/content_cvpr_2018/papers/Radosavovic_Data_Distillation_Towards_CVPR_2018_paper.pdf

第三篇文章提出了一種以人為中心的思想，通過圖像中出現的人作為一個強大的線索來定為與之交互的對象，并基于這個想法開發了稱為InteractNet的模型，檢測<人、動作、對象>三元組，實現人與物之間交互的檢測與識別。

在視覺任務中，理解圖像中發生了什么除了檢測出其中的對象，還需要識別出對象間的關系，這篇文章主要集中與解決人與物的交互。識別人與物之間的交互關系可以被表示為檢測<人、動作、對象>三元組的過程。在互聯網的圖片中有很大部分包含了人物，所以以人為中心的理解具有很大的現實意義。事實上在研究者看來，圖片中的任務提供了豐富的動作信息，并銜接了與其發生交互的物體。但對于細粒度的人體行為及其交互的多種類的對象識別比起單純的對象檢測來說還面臨著一系列挑戰。

研究人員們發現圖片中的人物的行為和姿態中包含了大量與之交互物體的位置信息，所以基于這一前提相關物體的搜索范圍可以大大縮小。雖然每幅圖像中會檢測大大量物體，但由人體預測的目標位置可以幫助模型迅速地找到與特定動作相關的目標物體。研究人員把這一想法稱為“以人為中心”的識別，并利用Faster R-CNN框架進行了實現。

具體來說，在與人物相關的ROI中，這個分支實現了行為分類和對行為目標物體的密度估計。密度估計器生成一個四維的高斯分布，對于每一種行為模型將會把目標對象的位置與人物聯系起來。這個以人為中的識別分支與另一個簡單的對偶交互分支一起組成了多任務的學習系統，并可以聯合優化。

基于faster R-CNN的三分支架構

作者最后在V-COCO數據集上進行了測評，實現了26%的AP（31.8to40.0）提升，這主要來自于利用與人物相關的目標位置。同時這一稱為InteractNet的模型在HICO-DET數據集上實現了27%的提升。在復雜任務中達到了135ms/image的速度，具有潛在的實用性。

與動作相關目標區域的估計

一些結果展示

想了解實現的細節，請看論文中的具體描述：

http://openaccess.thecvf.com/content_cvpr_2018/papers/Gkioxari_Detecting_and_Recognizing_CVPR_2018_paper.pdf

第四篇論文提出了一非局域化的操作單元來獲取長程的依賴信息。在這種構建單元的幫助下，模型可以在視頻分類任務和靜態目標檢測任務中得到十分優異的表現。

在深度神經網絡中長程依賴性的抓取是十分重要的，對于序列數據來說一般采用遞歸操作來實現，而對于圖像數據則主要通過深層卷積操作的堆疊而實現大感受野來實現。但卷積和遞歸操作主要用于處理時空局域信息，所以長程（大范圍）依賴性只能通過重復的操作，逐步傳播信號來獲取。這樣的重復操作會帶來一系列局限性：首先是計算效率低；其次導致了優化困難；最后這樣的方法使得處理不同節點間信息來回傳輸的多次反射依賴模型變得十分困難。

為了克服這些困難，在這篇文章中作者提出了一種非局域的操作，作為高效、簡便、通用的模塊用于深度神經網絡來抽取長程依賴性。這種操作是傳統非局域化均值操作的泛化，它通過加權輸入特征圖的所有位置特征來計算某一位置的響應，而這些位置可以是空間、時間或者是時空相關的，所以它適用于圖像、序列和視頻信號的處理。

非局域操作的優點有以下三個方面：首先與卷積和遞歸的逐漸傳播過程相比，非局域操作可以直接通過計算位置間的相互作用來抓取長程特征；其次高效率的操作在少數幾層的模型下也能取得很好的結果；最后它可以適應變化大小的輸入并便捷地集成到其他操作中去。

在視頻中像素具有時空上的長程相關性，單個非局域單元可以直接在前饋中抓取這些時空相關性。通過少數幾個非局域單元構建的非局域神經網絡來對視頻進行處理其精度要優于傳統的2D/3D卷積網絡。同時，非局域神經網絡相比于3D卷積計算更經濟。

其數學表示如下：

x為輸入信號（圖像、視頻、序列、特征等）y為相同大小的輸出信號，i表示輸出結果中位置i的索引，它由所有可能位置j的響應結果來計算。其中f用于計算位置ij之間的關系，而g用于計算輸入信號在位置j出的表示。C表述響應的歸一化函數。

其構成的空時計算單元結構如下圖所示：

其中輸入為特征張量，其中g可以通過1*1卷積實現，而計算相關性的函數可以由高斯和embedded高斯來實現。這里使用softmax來進行歸一化。具體實現請參看論文，其中描述了公式中的每一步包括f的點乘、相互聯系等方式的實現，以及非局域化單元的實現。

在Kinetics和Charades數據集中，僅僅使用RGB圖像而不使用各種花哨的技巧，這種方法就能得到與當前最好算法相比擬（甚至更好）的結果。同時在COCO數據集上這種方法可以提高目標檢測、分割和位姿估計三個任務的精度，而只需要引入很少的而外計算。對于視頻和圖像的處理證明非局域化操作具有通用性，并將成為深度網絡的基本構建單元。

論文>>http://openaccess.thecvf.com/content_cvpr_2018/papers/Wang_Non-Local_Neural_Networks_CVPR_2018_paper.pdf

除此之外，Kaiming還將在今年的CVPR上帶來名為Visual Recognition and Beyond的教程，內容包括視覺識別的前沿研究領域及其在高級任務中的應用。Kaiming，Ross Girshick，Alex Kirillov將從不同角度闡述圖像分類、目標檢測、實例分割和語義分割后支撐的方法和原理，而后Georgia Gkioxari和Justin Johnson將會在兩個報告中探索基于行為和推理視覺識別的新任務。感興趣的小伙伴可以關注：

https://sites.google.com/view/cvpr2018-recognition-tutorial

http://kaiminghe.com/

另外，從Facebook Research的網站查詢后發現，幾年CVPR共接收其論文28篇，除了上述四篇外，各領域文章如下，有興趣的小伙伴可以進行更深入的學習。（點擊圖片放大）