引言
近年來,弱監督視頻異常檢測(WSVAD,VAD)因其廣闊的應用前景而受到越來越多的關注,在WSVAD任務中,期望異常檢測器在僅提供視頻級注釋的情況下生成的精細化幀級異常置信度。然而當前該領域的大多數研究遵循一個系統性的框架,即,首先是使用預先訓練的視覺模型來提取幀級特征,例如C3D、I3D和ViT等,然后將這些特征輸入到基于多實例學習(MIL)的二分類器中進行訓練,最后一步是用預測的異常置信度檢測異常事件。盡管這類方案很簡單,分類效果也很有效,但這種基于分類的范式未能充分利用跨模態關系,例如視覺語言關聯。
在過去的兩年里,我們見證了視覺語言預訓練(VLP)模型取得了巨大進展,例如CLIP,用于學習具有語義概念的廣義視覺表示。CLIP的主要思想是通過對比學習來對齊圖像和文本,即將圖像和匹配的文本描述在聯合特征空間拉近,同時分離不匹配的圖文對。鑒于CLIP的突破性的潛力,在CLIP之上構建任務專用模型正成為新興的研究課題,并應用于廣泛的視覺任務,這些模型取得了前所未有的性能。最近,越來越多的視頻理解領域的工作利用CLIP構建專用模型并解決各種視頻理解任務。基于此,我們認為CLIP對于WSVAD任務同樣有巨大的潛力。
為了有效利用廣義知識,使CLIP在WSVAD任務中充分發揮其潛力,基于WSVAD的特點,有幾個關鍵的挑戰需要解決。(1)首先,如何進行時序關系建模,捕獲上下文的依賴關系;(2)其次,如何利用視覺信息和文本信息聯系;(3)第三,如何在弱監督下優化基于CLIP的模型。
針對上述的問題,我們提出了一種基于CLIP的WSVAD新范式,稱為VadCLIP。VadCLIP由幾個組件組成,包括一個局部-全局時序關系適配器(LGT Adapter),一個由視覺分類器和視覺語言對齊模塊組成的雙分支異常檢測器(Dual Branch)。我們的方法既可以利用傳統WSVAD的分類范式,又可以利用CLIP提供的視覺語言對齊功能,從而基于CLIP語義信息和兩個分支共同優化以獲得更高的異常檢測性能。
總的來說,我們工作的主要貢獻是:
(1)我們提出了一個新的WSVAD檢測方法,即VadCLIP,它涉及雙分支網絡,分別以視覺分類和語言-視覺對齊的方式檢測視頻異常。借助雙分支的優勢,VadCLIP實現了粗粒度(二分類)和細粒度(異常類別多分類)的WSVAD。據我們所知,VadCLIP是第一個將預先訓練的語言視覺知識有效地轉移到WSVAD的工作。
(2) 我們提出的方法包括三個重要的組成部分,以應對新范式帶來的新挑戰。LGT適配器用于從不同的角度捕獲時間依賴關系;設計了兩種提示機制來有效地使凍結的預訓練模型適應WSVAD任務;MIL對齊實現了在弱監督下對視覺文本對齊范式的優化,從而盡可能地保留預先訓練好的知識。
(3) 我們在兩個大規模公共基準上展示了VadCLIP的性能和有效性,VadCLIP均實現了最先進的性能。例如,它在XD Violence和UCFCrime上分別獲得了84.51%的AP和88.02%的AUC分數,大大超過了當前基于分類的方法。
方法
VadCLIP的模型結構如圖所示,主要包括了三個部分,分別為局部全局時序關系適配器(LGT Adapter)、視覺二分類分支和視覺文本對齊細粒度分類分支。
LGT Adapter
LGT Adapter由局部關系Transformer和全局關系圖卷積串聯組成。考慮到常規的Transformer在長時視頻時序關系建模時冗余信息較多、計算復雜度較高,我們改進了局部Transformer的mask,從時序上將輸入視頻幀特征分割為多個等長塊,令自注意力計算局限于塊內,減少了冗余信息建模,降低計算復雜度。
為了進一步捕獲全局時間依賴性,我們在局部模塊之后引入了一個輕量級的圖卷積模塊,由于其在WSVAD任務中得到廣泛采用,性能已經被證明,我們采用GCN來捕獲全局時間依賴關系。根據之前的工作,我們使用GCN從特征相似性和相對距離的角度對全局時間依賴性進行建模,可以總結如下:
特征相似性分支通過計算兩幀之間的特征的余弦相似度生成GCN鄰接矩陣:
雙分支結構
與之前的其他WSVAD工作不同,我們的VadCLIP包含雙分支,除了傳統的異常二分類分支之外,我們還引入了一種新穎的視覺-文本對齊分支。二分類分支和傳統的WSVAD工作類似,使用一個帶有殘差連接的FFN和二分類器,直接計算經過時序關系建模的視覺特征的幀級別異常置信度。
而在視覺文本對齊分支中,文本標簽,例如虐待、暴亂、打架等,不再被編碼為一個one-hot向量,相反,它們被凍結參數的CLIP文本編碼器編碼為一個類嵌入向量,因為文本編碼器可以為視頻異常檢測提供語言知識。然后,我們計算類嵌入和幀級視覺特征之間的匹配余弦相似度,這類似于CLIP。在視覺文本對齊分支中,每個輸入文本標簽代表一類異常事件,從而自然地實現了細粒度的WSVAD。
損失函數
實驗結果
對比結果
表1和表2展示了在兩個常用的WSVAD數據集UCF-Crime和XD-Violence中,我們的方法和之前的工作的對比結果,為了保證公平,上述列出結果的工作均使用CLIP特征進行重新訓練,可以看出我們的方法在兩個數據集中相較之前的工作有較大的提升。
表3和表4展示了使用了細粒度多類別標簽進行異常檢測,且計算幀mAP@IOU結果的情況,可以看出我們的方法在進行細粒度多分類異常檢測時也有明顯的提升。
上圖分別展示了幀級別粗粒度異常檢測可視化結果和細粒度多分類異常檢測結果。
總結
在這項工作中,我們提出了一種新的范式VadCLIP,用于弱監督視頻異常檢測。為了有效地將預訓練的知識和視覺語言關聯從凍結的CLIP遷移到WSVAD任務,我們首先設計了一個LGT適配器來增強時間建模的能力,然后設計了一系列提示機制來提高通用知識對特定任務的適應能力。最后,我們設計了MIL對齊操作,以便于在弱監督下優化視覺語言對齊。我們通過和最先進的工作對比和在兩個WSVAD基準數據集上的充分消融,驗證了VadCLIP的有效性。未來,我們將繼續探索視覺語言預訓練知識,并進一步致力于開放集VAD任務。
審核編輯:黃飛
-
適配器
+關注
關注
8文章
1955瀏覽量
68041 -
語言模型
+關注
關注
0文章
525瀏覽量
10277 -
Clip
+關注
關注
0文章
31瀏覽量
6668
原文標題:AAAI 2024 | VadCLIP: 首個基于視覺-語言模型的弱監督視頻異常檢測方法
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論