導讀:
CLIP[1]是一個強大的開放詞匯模型,在圖像領域表現出強大的零樣本識別能力,但如何將該能力遷移到視頻領域是一個較難的問題,主要存在兩大挑戰:一是如何為圖像CLIP模型注入時序建模能力;二是在視頻領域遷移的過程中如何保持其對開放詞匯理解能力。
許多工作通過在視頻數據集上進行微調以實現CLIP向視頻領域的遷移,然而由于微調時使用的數據集規模相對較小,導致模型發生過擬合,使得CLIP模型原有的零樣本識別能力有所丟失。
本文提出了一種新的CLIP向視頻領域的遷移方法,找到模型泛化和專用化之間的平衡,讓模型既能識別微調時已經見過的動作和事件,又能夠借助CLIP的零樣本識別能力泛化到新的視頻動作和事件。
問題歸納:將開放詞匯視頻模型構建問題近似于持續學習問題
假設存在一個包含所有的“視頻-文本”對的數據集,那么可以通過在上最小化”視頻-文本“對比損失來獲得最佳開放視頻詞匯模型:
然而,現實中如此理想的數據集不可能存在,人們只能通過盡可能大規模、多樣化的視頻文本數據集來近似。視頻動作識別是視頻內容理解中一類重要任務,本文選取了視頻動作識別數據集作為近似。此時,由于動作類別數量的限制(例如Kinetics-400只包含了400個類別),模型在微調過程中容易發生過擬合。
另一方面,本文發現CLIP的訓練數據包含大規?!皥D像-文本”對,且圖像可以容易地擴展為靜態視頻,因此可以認為原始CLIP的權重在大規?!办o態視頻-文本”(記作上已經達到最優。如果將數據集結合作為的近似,那么優化目標將轉化為:
此處數據集是私有數據集,在CLIP遷移學習的過程中完全無法觸碰,而已知CLIP權重是數據集上的最優解,因此本文目標是利用和構建開放詞匯視頻模型。自然地,開放詞匯視頻模型構建問題轉變為一個持續學習的過程:在保持對歷史任務()性能的同時,不斷地在新的視頻-文本數據集()上訓練模型,提升模型的泛化能力。
Open-VCLIP方法介紹:
為了解決上述問題,本文提出Open-VCLIP方法,包括模型架構和算法改進兩部分。在架構設計方面,通過修改自注意層將時序建模能力注入到CLIP模型中;在算法改進方面,提出了插值權重優化的新方法,取得更好的閉集性能與零樣本識別性能的權衡。
(1)注入CLIP時序建模能力
本文參考了Space-Time Mixing[2],通過修改自注意層的信息關注范圍,讓自注意力操作過程中的每個塊關注到所屬視頻幀以及相鄰視頻幀中的圖像塊信息來實現局部時序信息聚合,并隨著自注意力層的堆疊完成全局時間信息聚合,從而實現時序建模能力的注入。該過程不需要增加額外參數,適配于后文引入的權重插值優化方法。
(2)權重插值優化算法
本文解決的是一個零歷史信息的持續學習問題,即以為模型初始化參數,通過優化將模型遷移到數據集上,同時需要盡可能保持最小。然而,標準的微調訓練方式往往容易使模型過擬合到,導致CLIP原始的開放詞匯能力流失嚴重,進而影響模型的泛化能力,這將是本文著重想要解決的問題。
受到[3]的啟發,本文首先引入了一個無需優化的權重插值策略:通過加權系數對CLIP原始參數和在數據集上完成微調后的參數進行加權平均操作,防止遷移學習后的模型在原始數據集上的過度遺忘。具體形式如下:
但這種做法由于不存在顯示的優化約束,導致插值得到的模型可能會在上有較為嚴重的欠擬合。針對此問題,本文提出在訓練過程中對于插值模型在數據集上添加正則化約束,從而緩解插值得到的模型在新數據上欠擬合嚴重的問題。具體來說,本文提出在訓練過程中對插值權重系數進行隨機采樣,針對一系列取值下的插值模型在上進行優化約束,最終的優化目標如下:
其中,插值系數在區間區間均勻采樣,該范圍對應了期望構建的低損失區域。是正則化損失的權重系數,本篇文章實現時將其取值為。對應的梯度計算如下:
最后,本文在訓練過程中對插值權重應用隨機權重平均(SWA)[4]來進一步提高方法穩定性和泛化性。在實踐中,只需要維護模型權重的移動平均值,并在最后進行權重插值即可,形式化描述如下。
實驗
本文實驗采用Kinetics-400視頻動作識別數據集作為微調CLIP的訓練數據,并將UCF、HMDB以及Kinetics-600子集作為測試視頻模型的零樣本識別能力的數據集。
(1)零樣本識別性能
與CLIP基線和標準微調模型進行對比,可以看出,相比于標準微調方法容易出現較為嚴重的遺忘現象,本文所提的Open-VCLIP方法能夠顯著提升模型的零樣本識別能力,在不同主干網絡、不同數據集上都取得了最佳的零樣本識別準確率。
此外,本文同當前先進零樣本識別性能的方法進行了對比。可以看到,Open-VCLIP方法在不同數據集上均取得最佳零樣本準確率。除此之外,文章還對比了凍結原始CLIP模型參數下微調Adapter模塊的高效參數微調方法,結果表明,高效參數微調方法無法有效提升零樣本識別準確率。
(2)零樣本識別性能與閉集性能的權衡
文章對不同方法應用權重插值修復算法[3]進行探究,并將不同的加權系數下的性能用折線圖的方式展現,橫坐標表示閉集性能,縱坐標為零樣本識別性能。結果表明:(i)具有時序建模能力的模型具備更強的零樣本識別性能,顯示出時序建模能力對于CLIP模型向視頻領域的遷移是必要的;(ii)Open-VCLIP曲線高于標準微調方法,反映出本文所提出的優化策略不僅能提升模型的零樣本視頻識別能力,而且能夠在零樣本識別性能和閉集性能中取得最佳權衡;(iii)同時,圖中紅色五角星對應同一個插值模型,可以看到單個模型能夠在多個數據集中取得接近最優的零樣本識別性能,且保持較高的閉集準確率,顯示出方法無需針對特定數據集專門調整插值權重。
(3)零樣本視頻文本檢索性能
評估文本到視頻/視頻到文本的檢索性能可以進一步了解模型的泛化能力。實驗遵循了在Kinetics-400數據集上訓練模型,并在MSR-VTT數據集上測試的范式。結果展示了Open-VCLIP方法提升了模型的視頻檢索文本的性能和文本檢索視頻的性能,且在視頻檢索文本任務上,Open-VCLIP方法明顯高于CLIP基線,進一步驗證了本文方法有效性。
總結
本篇工作提出了Open-VCLIP方法,通過微調于視頻識別數據集有效將CLIP轉變為開放詞匯的視頻模型。文章主題包含三個部分:將問題歸納為無歷史數據的持續學習問題;為模型添加輕量化時序建模能力;設計正則化插值優化策略提升模型泛化能力,減輕遺忘現象發生。實驗表明,Open-VCLIP在零樣本動作識別任務明顯優于最先進的方法,并在閉集性能和零樣本視頻動作識別性能之間實現了最佳的權衡,所提方法也為大模型微調提供了新思路。
-
建模
+關注
關注
1文章
305瀏覽量
60775 -
數據集
+關注
關注
4文章
1208瀏覽量
24703 -
Clip
+關注
關注
0文章
31瀏覽量
6667
原文標題:ICML 2023 | 復旦和Meta提出Open-VCLIP:兼顧時序建模與開集識別的視頻理解模型
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論