完美世界有声小说,欢乐颂第一季,如何发布网络小说

引言

近年來，弱監督視頻異常檢測（WSVAD，VAD）因其廣闊的應用前景而受到越來越多的關注，在WSVAD任務中，期望異常檢測器在僅提供視頻級注釋的情況下生成的精細化幀級異常置信度。然而當前該領域的大多數研究遵循一個系統性的框架，即，首先是使用預先訓練的視覺模型來提取幀級特征，例如C3D、I3D和ViT等，然后將這些特征輸入到基于多實例學習（MIL）的二分類器中進行訓練，最后一步是用預測的異常置信度檢測異常事件。盡管這類方案很簡單，分類效果也很有效，但這種基于分類的范式未能充分利用跨模態關系，例如視覺語言關聯。

在過去的兩年里，我們見證了視覺語言預訓練（VLP）模型取得了巨大進展，例如CLIP，用于學習具有語義概念的廣義視覺表示。CLIP的主要思想是通過對比學習來對齊圖像和文本，即將圖像和匹配的文本描述在聯合特征空間拉近，同時分離不匹配的圖文對。鑒于CLIP的突破性的潛力，在CLIP之上構建任務專用模型正成為新興的研究課題，并應用于廣泛的視覺任務，這些模型取得了前所未有的性能。最近，越來越多的視頻理解領域的工作利用CLIP構建專用模型并解決各種視頻理解任務。基于此，我們認為CLIP對于WSVAD任務同樣有巨大的潛力。

為了有效利用廣義知識，使CLIP在WSVAD任務中充分發揮其潛力，基于WSVAD的特點，有幾個關鍵的挑戰需要解決。（1）首先，如何進行時序關系建模，捕獲上下文的依賴關系；（2）其次，如何利用視覺信息和文本信息聯系；（3）第三，如何在弱監督下優化基于CLIP的模型。

針對上述的問題，我們提出了一種基于CLIP的WSVAD新范式，稱為VadCLIP。VadCLIP由幾個組件組成，包括一個局部-全局時序關系適配器(LGT Adapter)，一個由視覺分類器和視覺語言對齊模塊組成的雙分支異常檢測器（Dual Branch）。我們的方法既可以利用傳統WSVAD的分類范式，又可以利用CLIP提供的視覺語言對齊功能，從而基于CLIP語義信息和兩個分支共同優化以獲得更高的異常檢測性能。

總的來說，我們工作的主要貢獻是：

（1）我們提出了一個新的WSVAD檢測方法，即VadCLIP，它涉及雙分支網絡，分別以視覺分類和語言-視覺對齊的方式檢測視頻異常。借助雙分支的優勢，VadCLIP實現了粗粒度（二分類）和細粒度（異常類別多分類）的WSVAD。據我們所知，VadCLIP是第一個將預先訓練的語言視覺知識有效地轉移到WSVAD的工作。

（2）我們提出的方法包括三個重要的組成部分，以應對新范式帶來的新挑戰。LGT適配器用于從不同的角度捕獲時間依賴關系；設計了兩種提示機制來有效地使凍結的預訓練模型適應WSVAD任務；MIL對齊實現了在弱監督下對視覺文本對齊范式的優化，從而盡可能地保留預先訓練好的知識。

（3）我們在兩個大規模公共基準上展示了VadCLIP的性能和有效性，VadCLIP均實現了最先進的性能。例如，它在XD Violence和UCFCrime上分別獲得了84.51%的AP和88.02%的AUC分數，大大超過了當前基于分類的方法。

方法

VadCLIP的模型結構如圖所示，主要包括了三個部分，分別為局部全局時序關系適配器（LGT Adapter）、視覺二分類分支和視覺文本對齊細粒度分類分支。

LGT Adapter

LGT Adapter由局部關系Transformer和全局關系圖卷積串聯組成。考慮到常規的Transformer在長時視頻時序關系建模時冗余信息較多、計算復雜度較高，我們改進了局部Transformer的mask，從時序上將輸入視頻幀特征分割為多個等長塊，令自注意力計算局限于塊內，減少了冗余信息建模，降低計算復雜度。

為了進一步捕獲全局時間依賴性，我們在局部模塊之后引入了一個輕量級的圖卷積模塊，由于其在WSVAD任務中得到廣泛采用，性能已經被證明，我們采用GCN來捕獲全局時間依賴關系。根據之前的工作，我們使用GCN從特征相似性和相對距離的角度對全局時間依賴性進行建模，可以總結如下：

特征相似性分支通過計算兩幀之間的特征的余弦相似度生成GCN鄰接矩陣：

雙分支結構

與之前的其他WSVAD工作不同，我們的VadCLIP包含雙分支，除了傳統的異常二分類分支之外，我們還引入了一種新穎的視覺-文本對齊分支。二分類分支和傳統的WSVAD工作類似，使用一個帶有殘差連接的FFN和二分類器，直接計算經過時序關系建模的視覺特征的幀級別異常置信度。

而在視覺文本對齊分支中，文本標簽，例如虐待、暴亂、打架等，不再被編碼為一個one-hot向量，相反，它們被凍結參數的CLIP文本編碼器編碼為一個類嵌入向量，因為文本編碼器可以為視頻異常檢測提供語言知識。然后，我們計算類嵌入和幀級視覺特征之間的匹配余弦相似度，這類似于CLIP。在視覺文本對齊分支中，每個輸入文本標簽代表一類異常事件，從而自然地實現了細粒度的WSVAD。

損失函數

實驗結果

對比結果

表1和表2展示了在兩個常用的WSVAD數據集UCF-Crime和XD-Violence中，我們的方法和之前的工作的對比結果，為了保證公平，上述列出結果的工作均使用CLIP特征進行重新訓練，可以看出我們的方法在兩個數據集中相較之前的工作有較大的提升。

表3和表4展示了使用了細粒度多類別標簽進行異常檢測，且計算幀mAP@IOU結果的情況，可以看出我們的方法在進行細粒度多分類異常檢測時也有明顯的提升。

上圖分別展示了幀級別粗粒度異常檢測可視化結果和細粒度多分類異常檢測結果。

總結

在這項工作中，我們提出了一種新的范式VadCLIP，用于弱監督視頻異常檢測。為了有效地將預訓練的知識和視覺語言關聯從凍結的CLIP遷移到WSVAD任務，我們首先設計了一個LGT適配器來增強時間建模的能力，然后設計了一系列提示機制來提高通用知識對特定任務的適應能力。最后，我們設計了MIL對齊操作，以便于在弱監督下優化視覺語言對齊。我們通過和最先進的工作對比和在兩個WSVAD基準數據集上的充分消融，驗證了VadCLIP的有效性。未來，我們將繼續探索視覺語言預訓練知識，并進一步致力于開放集VAD任務。

審核編輯：黃飛

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

適配器

適配器

+關注

關注
8

文章
1955

瀏覽量
68041
語言模型

語言模型

+關注

關注
0

文章
525

瀏覽量
10277
Clip

Clip

+關注

關注
0

文章
31

瀏覽量
6668

原文標題：AAAI 2024 | VadCLIP: 首個基于視覺-語言模型的弱監督視頻異常檢測方法

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關注！文章轉載請注明出處。

基于transformer和自監督學習的路面異常檢測方法分享

鋪設異常檢測可以幫助減少數據存儲、傳輸、標記和處理的壓力。本論文描述了一種基于Transformer和自監督學習的新方法，有助于定位異常區域

發表于 12-06 14:57 ?1571次閱讀

基于transformer和自<b class='flag-5'>監督</b>學習的路面<b class='flag-5'>異常</b><b class='flag-5'>檢測</b><b class='flag-5'>方法</b>分享

基于隱馬爾可夫模型的視頻異常檢測模型

視頻技術的廣泛應用帶來海量的視頻數據，僅依靠人力對監控視頻中的異常進行檢測是不太可能的。異常行為

發表于 11-20 09:37 ?8次下載

基于隱馬爾可夫<b class='flag-5'>模型</b>的<b class='flag-5'>視頻</b><b class='flag-5'>異常</b><b class='flag-5'>檢測</b><b class='flag-5'>模型</b>

基于稀疏隨機森林模型的用電側異常行為檢測

異常行為模式檢測方法。該方法首先利用時間窗函數與Bootstrap重采樣，建立用電側行為模式信息簇。其次，利用基于隨機權網絡的有監督學習得到

發表于 12-26 10:19 ?5次下載

基于稀疏隨機森林<b class='flag-5'>模型</b>的用電側<b class='flag-5'>異常</b>行為<b class='flag-5'>檢測</b>

基于健壯多元概率校準模型的全網絡異常檢測

的。同時，由于網絡異常種類繁多、變化快速，且常常隱藏在復雜龐大的背景流量中，給網絡異常的檢測帶來極大的困難。提出了一種基于健壯多元概率校準模型的異

發表于 03-06 10:02 ?0次下載

云模型的網絡異常流量檢測

網絡流量的復雜性、難以預測性以及人們主觀評測的差異性等不確定因素，使得網絡流量的異常檢測成為網絡安全防護領域研究的難點問題。通過對流量安全特征的分析提取和范圍限定，引入云模型理論，提出一種基于云

發表于 03-06 16:44 ?1次下載

智能監控視頻異常事件檢測

的形狀、顏色和幀間變化度等特征編碼，生成特征向量。訓練時將特征向量送入HMM訓練得到隱馬爾可夫模型需要的參數A和B，檢測時將特征向量送入HMM檢測系統檢測是否有

發表于 03-07 13:35 ?2次下載

基于Greenshield模型的異常節點檢測機制

面向車輛自組網的安全通信問題，提出一種基于Greenshield模型的異常節點檢測機制。結合車輛自組網的特點，構造Greenshield模型，計算車輛速度、車輛密度和車流量參數。在此基

發表于 03-29 09:54 ?0次下載

實現強監督和弱監督學習網絡的協同增強學習

同時，我們可以從互聯網輕松獲取海量粗標注的圖片，如利用Flickr的標簽。因此，研究如何在弱監督條件下，即僅提供粗略圖片類別標注，訓練目標檢測模型，具有重要的意義。已有學者探索了基于多

發表于 05-15 16:51 ?1.2w次閱讀

集成流挖掘和圖挖掘的內網異常檢測方法

發揮圖挖掘的無監督優勢的冋時，融入了流挖掘的良好自適應能力。采用集成的方法，通過集成分類和更新，當出現概念漂移時，保證集成適應當前概念，使之可以檢測到內網惡意行為。實驗證明基于集成的方法

發表于 04-12 11:29 ?7次下載

融合零樣本學習和小樣本學習的弱監督學習方法綜述

融合零樣本學習和小樣本學習的弱監督學習方法綜述來源：《系統工程與電子技術》，作者潘崇煜等摘要:?深度學習模型嚴重依賴于大量人工標注的數據，使得其在數據缺乏的特殊領域內應用嚴重受限。面對數據缺乏

發表于 02-09 11:22 ?2319次閱讀

如何縮小弱監督信號與密集預測之間的差距

導讀本文圍繞非完全監督下的圖像分割方法最新綜述，講述用于解決“如何縮小弱監督信號與密集預測之間的差距”的四種通用的啟發式先驗。

發表于 07-13 10:51 ?1172次閱讀

基于視覺Transformer的監督視頻異常檢測架構進行腸息肉檢測的研究

本文提出一種有效的基于視覺Transformer的弱監督視頻異常檢測架構來實現精準檢測結直腸息肉

發表于 09-27 11:15 ?1763次閱讀

弱監督學習解鎖醫學影像洞察力

人工智能 (AI) 通過比人類專家更快、更準確地檢測和測量異常情況，從圖像中進行先進的醫學診斷。構建適用于人群的高質量 AI 模型對于改善患者預后和個性化治療至關重要。然而，人工智能模型

發表于 09-30 18:04 ?1448次閱讀

使用MATLAB進行異常檢測（下）

在使用 MATLAB 進行異常檢測（上）中，我們探討了什么是異常值，簡單的一維數據異常檢測問題，針對高維數據的有

發表于 11-24 10:46 ?2225次閱讀

基于視頻語言模型LiteVL的無參的特征池化方法

我們提出了LiteVL，這是一種視頻語言模型，它無需大量的視頻語言預訓練或目標檢測器。LiteV

發表于 12-05 10:54 ?646次閱讀