實例分割是檢測和分割目標的一個核心視覺識別問題。在過去幾年中,該領域一直是計算機視覺領域的圣杯之一,其應用范圍廣泛,包括自動駕駛汽車( AV )、機器人技術、視頻分析、智能家居、數(shù)字人類和醫(yī)療保健。
注釋是對圖像或視頻中的每個對象進行分類的過程,是實例分割的一個具有挑戰(zhàn)性的組成部分。訓練 面具 R-CNN 等傳統(tǒng)實例分割方法需要同時使用對象的類標簽、邊界框和分割遮罩。
然而,獲取分割掩模既昂貴又耗時。例如, 可可數(shù)據(jù)集 需要大約 70000 小時的時間來注釋 200k 圖像,其中 55000 小時用于收集對象遮罩。
介紹 Discobox
為了加快注釋過程, NVIDIA 研究人員開發(fā)了 DiscoBox 框架。該解決方案使用了一種弱監(jiān)督學習算法,可以在訓練期間輸出高質(zhì)量的實例分割,而無需掩碼注釋。
該框架直接從邊界框監(jiān)控生成實例分段,而不是使用掩碼注釋直接監(jiān)控任務。邊界框作為一種基本的注釋形式被引入,用于訓練現(xiàn)代對象檢測器,并使用帶標簽的矩形來緊密地包圍對象。每個矩形對對象的定位、大小和類別信息進行編碼。
邊界框標注是工業(yè)計算機視覺應用的最佳選擇。它包含豐富的本地化信息,并且非常容易繪制,使得在注釋大量數(shù)據(jù)時,它更經(jīng)濟、更具可擴展性。然而,它本身不提供像素級信息,不能直接用于訓練實例分割。
圖 1 。給定一對輸入圖像, DiscoBox 能夠聯(lián)合輸出檢測、實例分割和多對象語義對應。
DiscoBox 的創(chuàng)新功能
DiscoBox 是第一個弱監(jiān)督的實例分割算法,它在減少標記時間和成本的同時,提供了與完全監(jiān)督方法相當?shù)男阅堋@纾@種方法比傳說中的面具 R-CNN 更快、更準確,在訓練期間不需要面具注釋。這就提出了一個問題,即在未來的實例分割應用中,是否真的需要掩碼注釋,因為需要更少的標記。
DiscoBox 也是第一個在盒子監(jiān)督下將實例分割和多對象語義對應結(jié)合起來的弱監(jiān)督算法。這兩項任務在許多計算機視覺應用中都很有用,例如 3D 重建,并且可以相互幫助。例如,通過實例分割預測的對象遮罩可以幫助語義對應關注前景對象像素,而語義對應可以細化遮罩預測。 DiscoBox 將這兩項任務統(tǒng)一在盒子的監(jiān)督下,使他們的模型訓練變得簡單且可擴展。
DiscoBox 的中心是一個師生設計。該設計的特點是使用自我一致性作為自我監(jiān)督,以取代 DiscoBox 培訓中缺失的面罩監(jiān)督。該設計有效地促進了高質(zhì)量的口罩預測,即使在訓練中沒有口罩注釋。
DiscoBox 應用
除了作為 NVIDIA 人工智能應用程序的自動標簽工具包之外, DiscoBox 還有許多應用程序。通過自動化昂貴的掩碼注釋,該工具可以幫助智能視頻分析或 AV 領域的產(chǎn)品團隊節(jié)省大量注釋預算。
另一個潛在的應用是 3D 重建,在這個領域中,對象遮罩和語義對應都是重建任務的重要信息。 DiscoBox 能夠在只有邊界框監(jiān)控的情況下提供這兩個輸出,幫助在開放世界場景中生成大規(guī)模 3D 重建。這將有助于構(gòu)建虛擬世界的許多應用程序,如內(nèi)容創(chuàng)建、虛擬現(xiàn)實和數(shù)字人類。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
5039瀏覽量
103315 -
人工智能
+關注
關注
1792文章
47458瀏覽量
239113
發(fā)布評論請先 登錄
相關推薦
評論