古风,完美世界有声小说,天域苍穹

FAIR何愷明、Ross等人最新提出實例分割的通用框架TensorMask，首次在定性和定量上都接近于 Mask R-CNN 框架，為探索密集實例分割方法提供基礎。

現代實例分割方法主要是先檢測對象邊界框，然后進行裁剪和分割，Mask R-CNN是目前這類方法中最優秀的。

近日，來自FAIR的陳鑫磊、Ross Girshick、何愷明、Piotr Dollar等人發表一篇新論文“TensorMask: A Foundation for Dense Object Segmentation”，從一個新的方向解決實例分割問題，并提出了一個名為TensorMask的通用框架。

論文地址：

https://arxiv.org/pdf/1903.12174.pdf

作者表示，TensorMask達到了與Mask R-CNN相當的結果，有助于更全面地理解這項任務。

Ross Girshick、何愷明、Piotr Dollar三人也是Mask R-CNN的作者，一作陳鑫磊博士畢業于CMU，導師是Tom Mitchell教授，并曾在谷歌云AI李飛飛、李佳的指導下實習。

TensorMask：將實例分割視為4D張量預測

在密集、規則的網格上生成邊界框對象預測的滑動窗口目標檢測器(sliding-window object detectors)已經得到迅速發展，并得到了廣泛的應用。

與此相反，現代的實例分割方法主要是先檢測對象邊界框，然后進行裁剪和分割，Mask R-CNN推廣了這種方法。

在這項工作中，我們研究了密集滑動窗口實例分割(dense sliding-window instance segmentation)的范例，令人驚訝的是，這方面的研究十分不足。

我們的核心發現是，這項任務與其他的密集預測任務(如語義分割或邊界框對象檢測)有本質的不同，因為每個空間位置的輸出本身就是一個幾何結構，具有自己的空間維度。

為了形式化地說明這一點，我們將密集實例分割視為一個4D張量(4D tensors)的預測任務，并提出了一個名為TensorMask的通用框架，該框架顯式地捕獲這種幾何圖形，并支持對4D tensors使用新的操作符。

圖1：TensorMask的輸出。我們將密集實例分割作為一種基于結構化4D張量的預測任務。除了獲得具有競爭力的定量結果，TensorMask還獲得了定性上合理的結果。圖中小的和大的物體都被很好地描繪出來，并且，重疊的物體也被正確地處理了。

我們證明了tensor這種想法可以相比baseline獲得較大的增益，并且可以得到與Mask R-CNN相當的結果。這些結果表明，TensorMask可以作為密集掩碼預測的新進展的基礎，有助于更全面地理解這項任務。我們將發布本研究的代碼。

彌補差距：實例分割中的密集方法

滑動窗口(sliding-window)范例——通過查看放置在一組密集圖像位置上的每個窗口來查找對象——是計算機視覺中最早、也是最成功的概念之一，并且這個概念自然地與卷及網絡相關。

然而，盡管目前性能最好的對象檢測器依賴于滑動窗口預測來生成初始候選區域，但獲得更準確的預測主要來自對這些候選區域進行細化的階段，如Faster R-CNN和Mask R-CNN，分別用于邊界框目標檢測和實例分割。這類方法已經主導了COCO目標檢測挑戰賽。

近年來，諸如SSD和RetinaNet之類的邊界框目標檢測器，避開了“細化”這個步驟，專注于直接的滑動窗口預測，已經有了復蘇的趨勢，并顯示出有希望的結果。

相比之下，該領域在密集滑動窗口實例分割方面并沒有取得同等的進展；對于mask prediction，沒有類似于SSD / RetinaNet這樣的直接、密集的方法。

為什么密集的方法在邊界框檢測方面進展迅速，而在實例分割方面卻完全缺失？這是一個基本科學上的問題。這項工作的目標就是彌補這一差距，并為探索密集實例分割方法提供基礎。

我們的主要觀點是，定義dense mask representations的核心概念，以及這些概念在神經網絡中的有效實現，都是缺乏的。

與邊界框不同，邊界框具有固定的低維表示而不考慮比例，分割掩碼(segmentation masks)可以從更豐富、更結構化的表示中獲益。例如，每個mask本身是一個2D空間映射，較大對象的mask可以受益于較大空間映射的使用。為dense masks開發有效的表示是實現密集實例分割的關鍵步驟。

為了解決這個問題，我們定義了一組用高維張量表示mask的核心概念，這些概念允許探索用于dense mask prediction的新穎網絡架構。為了證明所提出的表示的優點，我們提出了幾個這樣的網絡并進行了實驗。

我們的框架稱為TensorMask，它建立了第一個密集滑動窗口實例分割系統，其結果接近于Mask R-CNN。

左：自然表示。右：對齊表示(Aligned representation)。

TensorMask表示的核心想法是使用結構化的4D tensors表示空間域上的mask。

與以前的面向通道的方法不同，我們建議利用形狀(V, U, H, W)的4D tensors，其中(H, W)表示目標位置，(V, U)表示對應的mask的位置，它們都是幾何子張量，也就是說，它們的軸有明確定義的units和關于圖像的幾何意義。

這種從非結構化通道軸上的encoding masks到使用結構化幾何子張量的視角轉變，使得定義新的操作和網絡架構成為可能。這些網絡可以以幾何上有意義的方式直接作用于(V, U)子張量，包括坐標變換、up-/downscaling和金字塔的使用。

在TensorMask框架的支持下，我們在一個4D tensors的標度索引列表上建立了一個金字塔結構，我們稱之為張量雙金字塔( tensor bipyramid)。與特征金字塔類似，tensor bipyramid是一個多尺度特征映射列表，它包含一個形狀為2kV、2ku、12kh、12kw的4D張量列表，其中k≥0個索引尺度。這種結構在(H, W)和(V, U)幾何子張量上都呈金字塔形狀，但方向相反。這種設計捕捉了大對象具有粗糙空間定位的高分辨率mask(大k)和小對象具有精細空間定位的低分辨率mask(小k)的理想特性。

feature pyramid和tensor bipyramid的比較

我們將這些組件組合成一個網絡骨干和訓練程序，類似RetinaNet，其中我們的dense mask predictor擴展了原始的密集邊界框預測器。

通過詳細的消融實驗，我們評估了TensorMask框架的有效性，并證明了明確捕捉該任務的幾何結構的重要性。最后，我們展示了TensorMask與對應的Mask R-CNN產生了相似的結果(見圖1和圖2)。

TensorMask的架構

TensorMask框架的核心思想是使用結構化的高維張量來表示一組密集滑動窗口中的圖像內容(例如masks)。

圖2：使用ResNet-101-FPN骨干的TensorMask和Mask R-CNN的示例結果(與圖6中使用的Mask R-CNN的圖像相同)。結果在定量和質量上都很相似，表明密集滑動窗口范式確實可以有效地用于實例分割任務。請讀者猜猜哪些結果是TensorMask生成的(答案見文末)。

TensorMask架構

我們已經展示了采用TensorMask representations的模型。這些模型有一個在滑動窗口中生成masks的mask prediction head，以及一個用于預測對象類別的classification head，類似于滑動窗口目標檢測器中的box regression和classification heads。

實驗和結果

我們報告了COCO實例分割的結果。所有的模型都在~118k train2017圖像上進行訓練，并在5k val2017圖像上進行測試。最終結果在test-dev上。我們使用COCO mask的平均精度(用AP表示)。box AP用APbb表示。

TensorMask表示

首先，我們研究了使用V =U=15和ResNet-50-FPN骨干的mask的各種張量表示。表2報告了定量結果，圖2和圖9顯示了定性比較。

表2

與Mask R-CNN的比較

表3總結了test-dev上最好的TensorMask模型，并將其與當前用于COCO實例分割的主流方法Mask RCNN進行了比較。

表3

如上表所示，最好的TensorMask在test-dev上達到了35.5 mask AP，接近于mask R-CNN的36.8。

在ResNet-101中，TensorMask實現了37.3 mask AP，與mask R-CNN相比只有1.0 AP差距。

這些結果表明，密集滑動窗口方法可以縮小與“先檢測后分割”方法的差距。定性結果如圖2、10、11所示。

結論

TensorMask是一個dense sliding-window實例分割框架，首次在定性和定量上都接近于Mask R-CNN框架。TensorMask為實例分割研究建立了一個概念互補的方向。

（圖2答案：第一行是Mask R-CNN的結果，第二行是TensorMask的結果。）

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

檢測器

檢測器

+關注

關注
1

文章
864

瀏覽量
47690
神經網絡

神經網絡

+關注

關注
42

文章
4772

瀏覽量
100792
AI

AI

+關注

關注
87

文章
30919

瀏覽量
269170

原文標題：何愷明等最新論文：實例分割全新方法TensorMask，效果比肩 Mask R-CNN

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

基于暗原色先驗的單幅圖像去霧算法

這是何愷明去霧算法的翻譯版，個人翻譯，原汁原味，簡單易懂。

發表于 11-19 15:05 ?10次下載

圖像分割基礎算法及實現實例

圖像分割就是把圖像分成若干個特定的、具有獨特性質的區域并提出感興趣目標的技術和過程。它是由圖像處理到圖像分析的關鍵步驟。現有的圖像分割方法主要分以下幾類：基于閾值的分割方法、基于區域的

發表于 12-18 18:19 ?9406次閱讀

圖像<b class='flag-5'>分割</b>基礎算法及實現<b class='flag-5'>實例</b>

何愷明、Ross Girshick等大神深夜扔出“炸彈”：ImageNet預訓練并非必須

ImageNet預訓練方式加快了收斂速度，特別是在訓練早期，但隨機初始化訓練可以在訓練一段時間后趕上來。考慮到前者還要進行模型的微調，訓練總時間二者大體相當。由于在研究目標任務時經常忽略ImageNet預訓練的成本，因此采用短期訓練進行的“對照”比較可能會掩蓋隨機初始化訓練的真實表現。

發表于 11-24 10:09 ?6678次閱讀

FAIR何愷明團隊最新論文提出“全景FPN”，聚焦于圖像的全景分割任務

特征金字塔網絡(Feature Pyramid Network)：首先簡要回顧一下FPN。FPN采用一個具有多空間分辨率特征的標準網絡(如ResNet)，并添加一個具有橫向連接的自上而下的通道，如圖1a所示。自上而下的路徑從網絡的最深層開始，并逐步向上采樣，同時添加自底向上路徑的高分辨率特性的轉換版本。FPN生成一個金字塔，通常具有1/32到1/4的分辨率，其中每個金字塔級別具有相同的通道維度(默認是256)。

發表于 01-11 08:57 ?6186次閱讀

李飛飛等人提出Auto-DeepLab：自動搜索圖像語義分割架構

簡單地移植圖像分類的方法不足以進行語義分割。在圖像分類中，NAS 通常使用從低分辨率圖像到高分辨率圖像的遷移學習 [92]，而語義分割的最佳架構必須在高分辨率圖像上運行。這表明，本研究需要：(1

發表于 01-15 13:51 ?3773次閱讀

何愷明等人再出重磅新作：分割任務的TensorMask框架

ResNet50。因此，論文提出了多個基礎（baseline）分支和張量尺度金字塔分支，幫助使用者快速上手 TensorMask。需要指出的是，張量尺度金字塔分支是最有效的一個模型。在訓練時，作者采用 DeepMask 來幫助標記數據，以及 focal loss 等等。

發表于 04-04 17:21 ?3973次閱讀

FAIR何愷明團隊近日發表神經結構搜索NAS方面的最新力作

在這一趨勢的推進中，神經結構搜索 (neural architecture search, NAS) 已經成為聯合搜索連接模式和執行操作方式的一個有前景的方向。NAS 方法專注于搜索，同時隱式地依賴于一個重要但常常被忽視的組件 —— 網絡生成器 (network generator)。

發表于 04-19 14:34 ?3799次閱讀

<b class='flag-5'>FAIR</b><b class='flag-5'>何</b><b class='flag-5'>愷</b><b class='flag-5'>明</b>團隊近日發表神經結構搜索NAS方面的最新力作

Facebook AI使用單一神經網絡架構來同時完成實例分割和語義分割

這一新架構“全景 FPN ”在 Facebook 2017 年發布的 Mask R-CNN 的基礎上添加了一個用于語義分割的分支。這一新架構可以同時對圖像進行實例和語義分割，而且精確度與只進行

發表于 04-22 11:46 ?2891次閱讀

什么是圖像實例分割？常見的圖像實例分割有哪幾種？

圖像實例分割是在對象檢測的基礎上進一步細化，分離對象的前景與背景，實現像素級別的對象分離。

發表于 06-17 11:15 ?2.6w次閱讀

深度學習部分監督的實例分割環境

實例分割的任務是將圖像中的像素分組為單個事物的實例，并用類標簽（可計數的對象，如人、動物、汽車等，并為每個對象分配獨特的標識符，如 car_1 和 car_2）來標識這些事物。實例

發表于 10-21 14:05 ?1832次閱讀

用于實例分割的Mask R-CNN框架

是應用于每個 RoI 的小型 FCN，以像素到像素的方式預測分割掩碼。鑒于 Faster R-CNN 框架，Mask R-CNN 易于實現和訓練，這有助于廣泛的靈活架構設計。此外，掩碼分支僅增加了少量

發表于 04-13 10:40 ?2663次閱讀

基于X光圖片的實例分割垃圾數據集WIXRay (Waste Item X- Ray)

提出了第一個基于 X 光圖片的、實例級別的垃圾分割數據集 (WIXRay)。數據集中包含 5,038 張 X 光圖片，共 30,845 個垃圾物品實例。對于每個

發表于 08-08 10:58 ?1715次閱讀

用于弱監督大規模點云語義分割的混合對比正則化框架

為了解決大規模點云語義分割中的巨大標記成本，我們提出了一種新的弱監督環境下的混合對比正則化（HybridCR）框架，該框架與全監督的框架相比

發表于 09-05 14:38 ?1358次閱讀

基于通用的模型PADing解決三大分割任務

數據需要消耗巨大的時間以及人力成本。為處理上述難題，零樣本學習（Zero-Shot Learning，ZSL）被提出用于分類沒有訓練樣本的新對象，并擴展到分割任務中，例如零樣本語義分割（Zero-Shot Semantic Se

發表于 06-26 10:39 ?547次閱讀

基于SAM實現自動分割遙感圖像實例

本篇文章為大家介紹RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation based on Visual Foundation Model （基于視覺基礎模型的遙感實例分割提示學習），

發表于 07-06 09:08 ?1875次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

FAIR何愷明、Ross等人最新提出實例分割的通用框架TensorMask

評論

基于暗原色先驗的單幅圖像去霧算法

圖像分割基礎算法及實現實例

何愷明、Ross Girshick等大神深夜扔出“炸彈”：ImageNet預訓練并非必須

FAIR何愷明團隊最新論文提出“全景FPN”，聚焦于圖像的全景分割任務

李飛飛等人提出Auto-DeepLab：自動搜索圖像語義分割架構

何愷明等人再出重磅新作：分割任務的TensorMask框架

FAIR何愷明團隊近日發表神經結構搜索NAS方面的最新力作

Facebook AI使用單一神經網絡架構來同時完成實例分割和語義分割

什么是圖像實例分割？常見的圖像實例分割有哪幾種？

深度學習部分監督的實例分割環境

用于實例分割的Mask R-CNN框架

基于X光圖片的實例分割垃圾數據集WIXRay (Waste Item X- Ray)

用于弱監督大規模點云語義分割的混合對比正則化框架

基于通用的模型PADing解決三大分割任務

基于SAM實現自動分割遙感圖像實例