1.導語
? 近年來,無監督異常檢測任務逐漸受到大家關注,其中基于密度和分類的方法在無監督異常檢測中占據主導地位,而基于重構的方法由于重構能力差、性能不高而很少被提及,但后者不需要額外花費大量的訓練樣本進行無監督訓練,具有更大的實用價值。本文著重改進基于重構的方法,從頻率的角度處理感知異常檢測任務(sensory anomaly detection),提出了一種新的全頻率通道選擇重構網絡(Omni-frequency Channel-selection Reconstruction,OCR-GAN)。實驗結果證明了提出方法的有效性和優越性,例如,在沒有額外訓練數據的情況下(不使用預訓練模型或者其他數據集,即模型train from scratch),在MVTec AD數據集上實現了新的最先進的98.3檢測AUC,顯著地比基于重建的基線高+38.1↑,比SOTA高?+0.3↑。 ?
2.背景介紹
異常檢測是視覺圖像理解中的一項重要的二分類任務,用于區分給定圖像是否偏離預定義的正常分布,在現實世界中有各種應用,例如新穎性檢測、工業產品質量監控、缺陷修復等。現實應用中,異常檢測任務可以分為感知異常檢測(Sensory Anomaly Detection,見圖1左圖)和語義異常檢測(Semantic Anomaly Detection,見圖1右圖)兩大類,前者只存在協變量偏差而不存在語義偏差(常用MVTec AD[1]、DAGM[2]、KolektorSDD[3]等數據集),而后者則相反(常用CIFAR-10[4]數據集)。
圖1感知AD和語義AD任務圖解
異常檢測任務中獲取異常樣本耗時且成本較高,這驅動我們開展更實用的無監督AD方法研究。目前的無監督異常檢測方法主要分為三類,如圖2所示。
1)Density-based方法:基于密度的方法通常采用預訓練的模型來提取輸入圖像的有意義嵌入向量,測試圖像時通過計算嵌入表示與參考表示分布之間的相似度以得到異常分數。這種方法在MVTec AD等數據集上取得了較高的指標分數,但需要預訓練模型加持且可解釋性不足。
2)Classification-based方法:基于分類的方法試圖找到正常/異常數據的分類邊界,一般使用代理任務訓練的模型來檢測異常,因此該類方法依賴于代理任務與測試數據的匹配程度,且需要預訓練模型和額外的訓練數據。
3)Reconstruction-based方法:基于重構的方法包含一個用于重構輸入圖像的生成器結構,異常分數可解釋為重構誤差。這類方法不需要預訓練的模型和額外的訓練數據,但目前該類方法相較于其他方法表達能力略有差距。
本文重點研究基于重構的方法,期望增強生成器的重構能力以提升模型的異常檢測能力。
圖2無監督異常檢測方法pipeline對比 對于一幅圖像,不同的頻段包含不同類型的信息,例如低頻代表更多的語義信息,高頻代表更詳細的紋理信息。在此思想的推動下,我們發現異常檢測任務中正常和異常圖像的頻率分布存在明顯差異,如圖3所示。
圖3 MVTec AD數據集中正常和異常樣本的能量隨頻率的分布,陰影表示標準差
基于此,我們認為僅使用一個生成器來學習RGB圖像的全頻率重建是困難且不合適的,因此提出了一種利用多頻分支分別重構不同頻帶信息的異常檢測框架,并設計了合適的結構以提升模型的異常檢測效果,相較于對比方法取得了最SOTA結果,如圖4所示。
圖4不同方法AUROC檢測結果對比圖
具體地,本文有如下幾點貢獻:
1)從頻域的角度重新思考了正常和異常圖像的區別,提出了一種全頻率通道選擇重構網絡(Omni-frequency Channel-selection Reconstruction,OCR-GAN)。
2)提出了頻率解耦(Frequency Decoupling,FD)模塊來獲取圖像的不同頻帶信息,實現多分支的全頻重建。
3)提出了通道選擇(Channel Selection,CS)模塊來實現多支路之間的全頻率交互和不同信道特征的自適應選擇。
4)大量的實驗證明了提出方法的優越性,例如,我們在沒有額外訓練數據的MVTec AD數據集上實現了新的SOTA 98.3檢測AUROC,相較于沒有額外訓練數據的基于重構方法獲得了+18.3↑提升,同時相較于SOTA方法獲得了+0.3↑提升。
3.方法介紹
3.1??總覽我們的方法包含多個生成器對不同頻率圖像進行重建,同時與鑒別器D交替訓練以進一步提高模型性能。具體來說,我們提出了一個有效的頻率解耦模塊(FD)來解耦輸入圖像到全頻圖像,以及一個通道選擇模塊(CS)在多個頻率編碼器之間通過自適應通道選擇的方式進行特征交互。模型完成訓練后的推理階段,重構圖像與原圖像的重構誤差作為圖像的異常得分。
圖5OCR-GAN方法示意圖
3.2 頻率解耦模塊
圖像中不同的頻段包含不同類型的信息,例如低頻代表更多的語義信息,高頻代表更詳細的紋理信息。該模塊用來將原始圖像分解為多個頻段圖像,以獲得信息更豐富的全頻段顯性表達,具體包含如下3個過程:
1)將原始圖像與5x5高斯核進行卷積,獲得下采樣圖像
2)通過多次上下采樣操作得到一組模糊圖像
3)模糊圖像按照處理深度不同程度地丟失了一些高頻信息,進一步計算相鄰圖像之間的差值得到全頻域圖像。圖5顯示了多個不同頻域分量的定性表示結果。
3.3 通道選擇模塊
在只有FD模塊的異常檢測框架中,多頻率分支相對獨立,這違背了不同頻率相輔相成的客觀事實。為此,我們設計了一種新穎的通道選擇模塊,實現了多支路間的頻域交互和不同通道特征的自適應選擇。圖6(a)展示了雙頻率下CS模塊的微觀詳細結構,即只包含低頻和高頻特征,但其可以很容易地擴展到多分支。圖6(b)展示了CS模塊與頻率編碼器之間的宏觀交互方式。
圖6 (a)CS模塊示意圖;(b)CS模塊與多頻編碼器交互方式
4.實驗結果
4.1? 定量對比
本文與主流的異常檢測方法(AGAN[5]、AE[6]、Skip-GANomaly[7]、GradCon[8]、Puzzle-AE[9]、DGAD[10]、DRAEM[11]、DifferNet[12]、CutPaste[13]、InTra[14])在多個數據集上進行定量對比實驗。如表1/2/3/4所示,提出的OCR-GAN在MVTec AD上獲得了98.3 AUROC結果,且在全部數據集上都獲取了SOTA結果,相較于對比方法取得了明顯優勢。
表1MVTecAD結果對比表
表2 DAGM結果對比表
表3KolektorSDD結果對比表
表4 CIFAR-10結果對比表
4.2 定性對比
圖7展示了不同重建方法的定性對比,可以看到本文提出的方法對輸入圖像的正常區域具有很好的重建結果,對于異常區域具有明顯的區分性,證明了OCR-GAN的有效性。
圖7 不同方法的重建結果對比
4.3 解釋性實驗及剝離實驗
1)圖8展示了不同模塊對異常得分分布影響,可以看到,在基線直方圖中,正常樣本和異常樣本無法通過異常得分進行有效區分。逐步增加FD和CS模塊后,模型的區分能力得到了提高,表明每個模塊對方法結果都有貢獻。
圖8不同模塊組合下的異常得分分布圖
2)我們將每個測試樣本的潛在空間特征從D的最后一個卷積層映射到一個二維子空間。如圖9顯示,正常和異常樣本在潛在空間中具有較強的聚類效應,且具有明顯的區分性。
圖9 正常/異常樣本t-SNE分布圖
3)表5展示了頻率分支對于模型結果影響。結果表明,僅使用高頻信息比使用低頻信息效果更好,這意味著異常區域包含更多的高頻信息。然而,由于缺乏不同頻率支路之間的信息交互,單獨使用雙頻支路效果有限,而設計的CS模塊可以很好地處理該問題,進一步提高了模型的性能。
表5 頻率分支數量剝離實驗結果
5.總結與展望
本文從頻域的角度提出了一種基于重構的OCR-GAN異常檢測方法。具體來說,我們提出了FD模塊將輸入圖像解耦到不同的頻率空間,并將圖像重建過程建模為并行的全頻率圖像恢復的組合。為了更好地實現不同編碼器之間的頻率交互,我們提出了一種定制的CS模塊,其可以自適應地在多個支路之間選擇不同的信道以增強每一個頻域的特征。我們的方法在沒有額外訓練數據的情況下,在Sensory AD和Semantic AD任務上相較于同時代方法具有明顯的優勢。未來,我們將進一步探索AD任務中輕量化模型的設計,同時構建更具有挑戰性的實際應用數據集。
-
異常檢測
+關注
關注
1文章
42瀏覽量
9751 -
模型
+關注
關注
1文章
3255瀏覽量
48902 -
生成器
+關注
關注
7文章
316瀏覽量
21049 -
數據集
+關注
關注
4文章
1208瀏覽量
24727
原文標題:頂刊TIP 2023!浙大提出:基于全頻域通道選擇的的無監督異常檢測
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論