研究者表示,這一工作有望讓大規(guī)模的智能垃圾分類檢查成為可能,提升垃圾分類回收的效率,減少環(huán)境污染。
近些年來,社會(huì)的發(fā)展帶來了生活垃圾的爆發(fā)性增長,實(shí)行垃圾分類既可以減少對(duì)自然環(huán)境的破壞,同時(shí)對(duì)垃圾中的可回收資源進(jìn)行回收再利用,也帶來更大經(jīng)濟(jì)效益。垃圾分類的的檢查工作是其中的重要一環(huán),只有正確的分類才能提升回收效率和避免環(huán)境污染。傳統(tǒng)的分類檢查方法依賴于人工的翻閱。而現(xiàn)有的圖像檢查方法也需要打開垃圾袋并且把垃圾攤開。這些檢查方法存在兩大缺點(diǎn):
翻開垃圾袋的過程比較繁瑣,且對(duì)于接觸垃圾的人存在污染、傳播疾病的風(fēng)險(xiǎn);
復(fù)雜繁多的垃圾容易產(chǎn)生視線遮擋,容易出現(xiàn)遺漏和錯(cuò)判。
考慮到上述的問題,我們提出了以下的解決方案:
提出了第一個(gè)基于 X 光圖片的、實(shí)例級(jí)別的垃圾分割數(shù)據(jù)集 (WIXRay)。數(shù)據(jù)集中包含5,038張 X 光圖片,共30,845個(gè)垃圾物品實(shí)例。對(duì)于每個(gè)實(shí)例,我們標(biāo)注了高質(zhì)量的類別、bbox 以及實(shí)例級(jí)別的分割。
在現(xiàn)有實(shí)例分割方法的基礎(chǔ)上針對(duì) X 光垃圾圖片遮擋嚴(yán)重、有穿透效果的特點(diǎn)進(jìn)行改進(jìn),提出了從易到難的策略,設(shè)計(jì)了 Easy-to-Hard Instance Segmentation Network (ETHSeg),利用高置信度的預(yù)測(cè)結(jié)果來幫助嚴(yán)重重疊區(qū)域的難預(yù)測(cè)物體的分割。另外,我們還增加了一個(gè)全局輪廓模塊來更好地利用 X 光下物體的輪廓信息。
論文鏈接:https://openaccess.thecvf.com/content/CVPR2022/papers/Qiu_ETHSeg_An_Amodel_Instance_Segmentation_Network_and_a_Real-World_Dataset_CVPR_2022_paper.pdf
項(xiàng)目主頁:https://lingtengqiu.github.io/2022/ETHSeg/
GitHub 地址:GitHub - lingtengqiu/ETHSeg: ETHSeg: An Amodel Instance Segmentation Network and a Real-world Dataset for X-Ray Waste Inspection (CVPR2022)
一、基于 X 光圖片的實(shí)例分割垃圾數(shù)據(jù)集 WIXRay (Waste Item X- Ray) 此前有關(guān)垃圾分類的數(shù)據(jù)集均為稀疏的、無遮擋的 RGB 圖片,這些數(shù)據(jù)的識(shí)別效率低,實(shí)際操作難度大。而已有的 X 光圖像實(shí)例分割數(shù)據(jù)集多為安檢物品數(shù)據(jù)集,并且這些數(shù)據(jù)集鮮有嚴(yán)重遮擋的情況。為了得到真實(shí)有效的垃圾分類數(shù)據(jù)集,我們提出了用 X 光掃描垃圾袋來獲取稠密、有遮擋的垃圾識(shí)別數(shù)據(jù)集。 數(shù)據(jù)收集 收集地點(diǎn):近 8,000 居民的學(xué)校社區(qū) 垃圾類別。我們根據(jù)現(xiàn)有的垃圾分類方法將所有的垃圾分為可回收垃圾,廚余垃圾,有害垃圾和其他垃圾。在此基礎(chǔ)上,我們把收集到的最常見的垃圾分為十二小類:
可回收垃圾:塑料瓶,易拉罐(金屬罐),紙盒,玻璃瓶,木棒(筷子),餐具;
廚余垃圾:主要為食物殘?jiān)?/p>
其他垃圾:暖寶寶,干燥劑,飯盒;
有害垃圾:電池(充電寶),燈泡。
具體的數(shù)量統(tǒng)計(jì)如下:
注:對(duì)于部分分布不平衡的類別,我們?cè)跀?shù)據(jù)采集時(shí)人為添加了事先準(zhǔn)備的物品,例如有害垃圾中的兩類。 數(shù)據(jù)標(biāo)注 對(duì)于每一個(gè)垃圾物體,我們都標(biāo)注了它們的類別、bbox 和實(shí)例級(jí)別的 mask。由于 X 光有穿透性, 我們可以在 X 光圖像上看到重疊的物體。 因此,與傳統(tǒng)實(shí)例分割標(biāo)注不同,我們對(duì)于所有有遮擋的物體都標(biāo)注了完整的形狀。平均每張圖片標(biāo)注了6.13 個(gè)實(shí)例,遠(yuǎn)高于此前的 X 光數(shù)據(jù)集(e.g. HiXray 2.27 個(gè)) 二、Easy-to-Hard 分割網(wǎng)絡(luò) (ETHSeg) 現(xiàn)有的實(shí)例分割方法大多針對(duì)自然圖片設(shè)計(jì),并沒有考慮 X 光圖像的穿透特性和一些嚴(yán)重遮擋的情況。因此,針對(duì)這兩點(diǎn),我們?cè)O(shè)計(jì)了 ETHSeg 來解決 X 光下垃圾物體實(shí)例分割的問題,主要的方法有兩點(diǎn):(1)顯式地利用全局輪廓引導(dǎo)模塊來獲取物體的輪廓信息;(2)提出了從易到難的分解策略 (ETH) 來幫助分割遮擋區(qū)域難以分割的物體。
Baseline: Bilayer convolution network (BCNet) BCNet 是一個(gè)自上而下的實(shí)例分割的 SOTA 方法。該方法使用了雙層 GCN 結(jié)構(gòu)來解決物體間遮擋的問題。盡管該方法在自然圖片中取得了很好地效果,但由于 X 光圖像的穿透效果和嚴(yán)重的遮擋,該方法在我們的數(shù)據(jù)集上效果不佳。我們?cè)?BCNet 基礎(chǔ)上提出了改進(jìn)。 BCNet 的分割網(wǎng)絡(luò)可以被表示為:
其中 X ∈ R (HW )×C 為輸入的特征,A ∈ R (HW )×(HW ) 為自注意力模塊,W 是可學(xué)習(xí)的變換矩陣,σ 表示帶有 ReLU 的歸一化層,Z 為更新后的特征。F 會(huì)計(jì)算兩個(gè)節(jié)點(diǎn) X_i 和 X_j 的點(diǎn)乘相似度,θ 和 ? 為 1 × 1 卷積。 BCNet 會(huì)將提取的 ROI 特征 X_roi 輸入到第一個(gè) GCN 層得到更新的特征 Z_0 并且求出遮擋物(occluder)的輪廓和 mask。之后更新的特征 Z_0 會(huì)被加到 ROI 特征上作為第二層 GCN 的輸入(X_f = X_roi + Z_0)。第二個(gè) GCN 層會(huì)進(jìn)一步求出被遮擋物(occludee)的輪廓和 mask。 全局輪廓引導(dǎo)模塊 BCNet 的方法雖然能夠通過兩層 GCN 以及輪廓和 mask 的監(jiān)督解決一些局部的遮擋問題,但是該方法的輪廓監(jiān)督只使用了 ROI 部分的局部監(jiān)督,這對(duì)于嚴(yán)重遮擋而且物體輪廓比較清晰的 X 光圖像效果不佳。 因此,我們?cè)O(shè)計(jì)了一個(gè)全局輪廓引導(dǎo)模塊來更好地利用 X 光圖片中的輪廓信息。我們將 backbone 得到特征上采樣并預(yù)測(cè)一個(gè)全局輪廓圖作為并行任務(wù)。輪廓圖的監(jiān)督使用高斯分布的熱圖表示。 從易到難的分解策略 針對(duì)數(shù)據(jù)集中的嚴(yán)重遮擋問題,受到人類在物體識(shí)別時(shí),先認(rèn)出簡(jiǎn)單、清晰的物體,再分辨識(shí)別困難的物體的這種方式的啟發(fā),我們提出了從易到難的分解策略。我們?cè)诜指钋跋雀鶕?jù)置信度將所有物體的 bbox 分成 easy 和 hard 兩個(gè)集合。 對(duì)于 easy 集合中的 bbox,我們直接求出它們的mask,同時(shí)使用 GCN 層求出更新后的特征(Z^i)_e:
easy 集合中求得的 mask 將被用于增強(qiáng)自注意力網(wǎng)絡(luò)來幫助 hard 集合的分割。 與 BCNet 不同的是,我們從 easy 和 hard 集合中提取的特征是屬于不同的 ROI,因此不能將兩組特征直接相加。因此,我們首先根據(jù) ROI 坐標(biāo)將 easy 集合中預(yù)測(cè)的 mask 映射到整張圖片的相應(yīng)位置,并使用 element-wise max 與全局的 mask P 融合。P 采用軟掩碼,表示每個(gè)像素包含于物體的概率。利用軟掩碼 P , 我們提出了 mask-guided attention (A_g) 來引導(dǎo) hard 集合的實(shí)例分割:
其中⊙ 表示 Hadamard product。之后同樣求出 hard 實(shí)例的 mask 和更新后的特征 Z^j 并更新全局軟掩碼 P :
三、實(shí)驗(yàn)結(jié)果基準(zhǔn)實(shí)驗(yàn) 我們?cè)?WIXRay 數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),包括了 one-stage 和 two-stage 的經(jīng)典模型和 SOTA 模型。所有的模型均采用 ResNet-101-FPN 作為骨干網(wǎng)絡(luò)并使用 COCO 預(yù)訓(xùn)練模型。實(shí)驗(yàn)得到的指標(biāo)顯示我們提出的新數(shù)據(jù)集對(duì)于一般的實(shí)例分割模型具有很大的挑戰(zhàn)性。我們提出的 ETHSeg 模型在 mask mAP 指標(biāo)上超過原來的 SOTA BCNet 1.74 點(diǎn),在 bbox mAP 上也有所提升。
分割結(jié)果展示 如圖所示,相比于一般的實(shí)例分割模型或 BCNet,ETHSeg 在結(jié)果上漏檢更少,在重疊的區(qū)域的分割準(zhǔn)確度更高。
消融實(shí)驗(yàn) 實(shí)驗(yàn)表明,在相同的檢測(cè)結(jié)果下,我們提出的兩個(gè)結(jié)構(gòu)(Global Structure Guidance 和 Easy-to-Hard Dissembling)對(duì)于實(shí)例分割的結(jié)果均有提升。若同時(shí)使用兩個(gè)模塊,則 mask mAP 有進(jìn)一步地提升(總共 + 1.32)
四、結(jié)論 針對(duì)現(xiàn)有的人工和視覺進(jìn)行垃圾檢查的缺陷,我們提出用 X 光圖像幫助垃圾分類的檢查:
我們提出了第一個(gè)基于 X 光圖片的、實(shí)例級(jí)別的垃圾分割數(shù)據(jù)集 (WIXRay);
針對(duì) X 光垃圾圖片遮擋嚴(yán)重、有穿透效果的特點(diǎn)進(jìn)行了改進(jìn)。我們提出了從易到難的策略, 設(shè)計(jì)了 Easy-to-Hard Instance Segmentation Network (ETHSeg),并在 WIXRay 數(shù)據(jù)集上達(dá)到了 SOTA。
審核編輯 :李倩
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24716 -
垃圾分類
+關(guān)注
關(guān)注
0文章
13瀏覽量
2702
原文標(biāo)題:CVPR 2022 | 將X光圖片用于垃圾分割!港中大(深圳)探索大規(guī)模智能垃圾分類
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論