1. 摘要
CVPR VISION 23挑戰(zhàn)賽第1賽道 "數(shù)據(jù)智能缺陷檢測(cè) "要求參賽者在數(shù)據(jù)缺乏的環(huán)境下對(duì)14個(gè)工業(yè)檢測(cè)數(shù)據(jù)集進(jìn)行實(shí)例分割。本論文的方法聚焦于在有限訓(xùn)練樣本的場(chǎng)景下提高缺陷掩模的分割質(zhì)量的關(guān)鍵問題。基于混合任務(wù)級(jí)聯(lián)(HTC)實(shí)例分割算法,我們用受CBNetv2啟發(fā)的復(fù)合連接將transformer骨干(Swin-B)連接起來以增強(qiáng)基準(zhǔn)結(jié)果。此外,我們提出了兩種模型集成方法來進(jìn)一步增強(qiáng)分割效果:一種是將語義分割整合到實(shí)例分割中,另一種是采用多實(shí)例分割融合算法。最后,通過多尺度訓(xùn)練和測(cè)試時(shí)數(shù)據(jù)增強(qiáng)(TTA),我們?cè)跀?shù)據(jù)高效缺陷檢測(cè)挑戰(zhàn)賽的測(cè)試集上獲得了高于48.49%的平均mAP@0.50:0.95和66.71%的平均mAR@0.50:0.95。論文鏈接:https://arxiv.org/abs/2306.14116代碼鏈接:https://github.com/love6tao/
2. 背景補(bǔ)充
深度學(xué)習(xí)在視覺檢測(cè)中的應(yīng)用越來越廣泛,這包括如無人機(jī)巡檢電力設(shè)備、檢測(cè)工業(yè)表面上的輕微劃痕、識(shí)別深孔零件中的銅線缺陷以及檢測(cè)芯片和玻璃表面上的導(dǎo)電微粒等工業(yè)缺陷檢測(cè)任務(wù)。但是,在工業(yè)制造場(chǎng)景中獲得標(biāo)注的缺陷數(shù)據(jù)是困難、昂貴和耗時(shí)的,因此使得基于視覺的工業(yè)檢測(cè)更具挑戰(zhàn)性。為了解決這個(gè)問題,CVPR VISION 23挑戰(zhàn)賽第1賽道 - 數(shù)據(jù)高效缺陷檢測(cè)競賽啟動(dòng)。
該競賽數(shù)據(jù)集由14個(gè)來自真實(shí)場(chǎng)景的缺陷數(shù)據(jù)集組成,最顯著的特點(diǎn)是測(cè)試樣本數(shù)量遠(yuǎn)遠(yuǎn)超過訓(xùn)練樣本數(shù)量。如上圖所示,一些數(shù)據(jù)集如電容器和電子設(shè)備數(shù)據(jù)集僅包含不超過40個(gè)訓(xùn)練樣本。此外,某些圖像在數(shù)據(jù)集中存在顯著的尺度變化。大多數(shù)框只覆蓋圖像的10%,而一些框可以覆蓋整個(gè)圖像。而且,14個(gè)數(shù)據(jù)集之間的背景和缺陷紋理形狀存在顯著差異,使得構(gòu)建可以在每個(gè)數(shù)據(jù)集上都取得滿意結(jié)果的統(tǒng)一算法框架是一個(gè)巨大的挑戰(zhàn)。為了解決這些問題,我們訓(xùn)練了一個(gè)以Swin Transformer 和CBNetV2 為骨干的強(qiáng)大基準(zhǔn)模型,然后采用兩種模型集成方法來進(jìn)一步提升分割性能。我們將在第2節(jié)中介紹我們的流程和詳細(xì)組件。實(shí)驗(yàn)結(jié)果和消融研究顯示在第3節(jié)中。
3. 方法介紹
在這一節(jié)中,我們提出了一個(gè)由三部分組成的有效流程。首先訓(xùn)練一個(gè)強(qiáng)大的單實(shí)例分割模型作為基準(zhǔn),使用混合任務(wù)級(jí)聯(lián),以Swin Transformer和CBNetV2作為其骨干,如上圖所示。其次,使用Mask2Former 訓(xùn)練一個(gè)強(qiáng)大的語義分割模型來進(jìn)一步提煉分割性能,將語義分割結(jié)果與實(shí)例分割結(jié)果融合。最后,融合三個(gè)實(shí)例分割模型的結(jié)果以進(jìn)一步改進(jìn)分割效果用于最終提交。
3.1 基礎(chǔ)實(shí)例分割模型
我們的基礎(chǔ)實(shí)例分割模型建立在混合任務(wù)級(jí)聯(lián)(HTC) 檢測(cè)器之上,使用CBSwinBase骨干和CBFPN 架構(gòu)。HTC是一個(gè)用于實(shí)例分割任務(wù)的穩(wěn)健的級(jí)聯(lián)架構(gòu),它巧妙地混合了檢測(cè)和分割分支進(jìn)行聯(lián)合多階段處理,在每個(gè)階段逐步提取更有區(qū)分性的特征。為避免需要額外的語義分割注釋,我們從解決方案中刪除了語義頭部。最近的視覺Transformer的進(jìn)步對(duì)各種視覺任務(wù)非常重要,因此我們采用Swin Transformer作為我們的骨干。Swin Transformer在分層特征架構(gòu)中引入了一個(gè)高效的window注意力模塊,其計(jì)算復(fù)雜度與輸入圖像大小呈線性關(guān)系。在我們的工作中,我們采用在ImageNet-22k數(shù)據(jù)集上預(yù)訓(xùn)練的Swin-B網(wǎng)絡(luò)作為我們的基本骨干。為進(jìn)一步提高性能,我們受CBNetv2算法的啟發(fā),通過復(fù)合連接將兩個(gè)相同的Swin-B網(wǎng)絡(luò)組合在一起。如上圖所示。
3.2 將語義分割整合到實(shí)例分割中
盡管單個(gè)模型可以取得很好的分割結(jié)果,但實(shí)例分割的結(jié)果通常不完整,特別是在設(shè)定IOU閾值過高時(shí),這可能對(duì)mask mAP 產(chǎn)生負(fù)面影響。因此,我們使用語義分割模型的輸出來補(bǔ)充實(shí)例分割模型的結(jié)果。
我們的語義分割模型基于Mask2Former,使用Swin-L作為骨干,其網(wǎng)絡(luò)輸入圖像大小為512×512。預(yù)訓(xùn)練權(quán)重來自ADE20K數(shù)據(jù)集。為了訓(xùn)練語義分割網(wǎng)絡(luò),我們將多缺陷標(biāo)簽轉(zhuǎn)換為表示背景和缺陷的二進(jìn)制標(biāo)簽。
對(duì)于融合策略,我們?cè)谙嗤南袼匚恢媒M合實(shí)例分割結(jié)果和語義分割結(jié)果,生成新的實(shí)例分割結(jié)果,如上圖所示。由于語義分割任務(wù)將像素劃分為兩類:缺陷和背景,所以實(shí)例分割任務(wù)中的預(yù)測(cè)邊界框(bbox)類確定了像素的實(shí)際類。值得注意的是,只有預(yù)測(cè)實(shí)例與bbox置信度大于閾值才會(huì)與語義分割結(jié)果進(jìn)行融合。在競賽中,我們將設(shè)置為0.5以獲得最佳的分割性能。
3.3 多個(gè)實(shí)例分割的融合
我們的實(shí)驗(yàn)結(jié)果表明,不同的實(shí)例分割骨干可以產(chǎn)生互補(bǔ)的結(jié)果。這意味著融合不同骨干的實(shí)例分割結(jié)果可以提高模型的召回率。但是,提高召回率往往以犧牲檢測(cè)精度為代價(jià)。為解決這個(gè)問題,我們?cè)O(shè)計(jì)了一個(gè)融合策略,如上圖所示。
在我們的實(shí)驗(yàn)中,我們將model-1、model-2和model-3分別稱為HTC、Cascade Mask rcnn-ResNet50和Cascade Mask rcnn-ConvNext模型。這些模型的設(shè)計(jì)目的是在它們之間增加多樣性。
Mask2Former是一個(gè)經(jīng)過驗(yàn)證的高效語義分割架構(gòu),已經(jīng)被證明在各種應(yīng)用中都能實(shí)現(xiàn)最先進(jìn)的結(jié)果,如語義、實(shí)例和全景分割。通過將語義分割與實(shí)例分割相結(jié)合,我們?cè)跍y(cè)試數(shù)據(jù)集上取得了顯著的48.38%的mask mAP。最后,通過平均模型包中這些模型的預(yù)測(cè),我們的模型集成在競賽中實(shí)現(xiàn)了卓越的性能,mAP達(dá)到48.49%,mAR達(dá)到66.71%。
4. 未來改進(jìn)方向
半監(jiān)督學(xué)習(xí):在我們的實(shí)驗(yàn)中,我們僅關(guān)注在訓(xùn)練和驗(yàn)證集上訓(xùn)練實(shí)例分割模型。我們嘗試使用基于soft-teacher的半監(jiān)督學(xué)習(xí)方法來改進(jìn)實(shí)例分割的性能。然而,由于數(shù)據(jù)集的差異,無法為半監(jiān)督模型提供統(tǒng)一的訓(xùn)練策略。由于競賽時(shí)間的限制,以后的研究將半監(jiān)督方法作為一個(gè)更可行的方向。
SAM: Meta提出了通用分割模型(SAM)作為解決分割任務(wù)的基礎(chǔ)模型。我們通過在線演示網(wǎng)站評(píng)估了其有效性,并確定該模型在工業(yè)數(shù)據(jù)上的泛化性能也很出色。但是,根據(jù)競賽規(guī)則,我們不能使用SAM。盡管如此,大模型或基礎(chǔ)模型仍有可能為工業(yè)缺陷檢測(cè)帶來重大變化,從而為未來工作提供了另一個(gè)改進(jìn)方向。
5. 結(jié)論
在論文中,我們介紹了CVPR VISION 23挑戰(zhàn)賽第1賽道亞軍解決方案"數(shù)據(jù)高效缺陷檢測(cè)"技術(shù)細(xì)節(jié)。作者的方法包括三個(gè)主要組成部分:基礎(chǔ)實(shí)例分割模型、將語義分割整合到實(shí)例分割中的方法以及融合多個(gè)實(shí)例分割的策略。通過一系列實(shí)驗(yàn),我們證明了我們的方法在測(cè)試集上的競爭力,在mAP@0.50:0.95上獲得48.49%以上,在mAR@0.50:0.95上獲得66.71%以上。
責(zé)任編輯:彭菁
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7031瀏覽量
89039 -
檢測(cè)技術(shù)
+關(guān)注
關(guān)注
2文章
355瀏覽量
29077 -
分割
+關(guān)注
關(guān)注
0文章
17瀏覽量
11898
原文標(biāo)題:CVPR VISION 23挑戰(zhàn)賽第1賽道亞軍解決方案 - 數(shù)據(jù)高效缺陷檢測(cè)
文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論