玄幻小说排行榜完本,盗墓笔记小说全集,魔天记忘语小说

導讀：

CLIP[1]是一個強大的開放詞匯模型，在圖像領域表現出強大的零樣本識別能力，但如何將該能力遷移到視頻領域是一個較難的問題，主要存在兩大挑戰：一是如何為圖像CLIP模型注入時序建模能力；二是在視頻領域遷移的過程中如何保持其對開放詞匯理解能力。

許多工作通過在視頻數據集上進行微調以實現CLIP向視頻領域的遷移，然而由于微調時使用的數據集規模相對較小，導致模型發生過擬合，使得CLIP模型原有的零樣本識別能力有所丟失。

本文提出了一種新的CLIP向視頻領域的遷移方法，找到模型泛化和專用化之間的平衡，讓模型既能識別微調時已經見過的動作和事件，又能夠借助CLIP的零樣本識別能力泛化到新的視頻動作和事件。

問題歸納：將開放詞匯視頻模型構建問題近似于持續學習問題

假設存在一個包含所有的“視頻-文本”對的數據集，那么可以通過在上最小化”視頻-文本“對比損失來獲得最佳開放視頻詞匯模型：

然而，現實中如此理想的數據集不可能存在，人們只能通過盡可能大規模、多樣化的視頻文本數據集來近似。視頻動作識別是視頻內容理解中一類重要任務，本文選取了視頻動作識別數據集作為近似。此時，由于動作類別數量的限制（例如Kinetics-400只包含了400個類別），模型在微調過程中容易發生過擬合。

另一方面，本文發現CLIP的訓練數據包含大規?！皥D像-文本”對，且圖像可以容易地擴展為靜態視頻，因此可以認為原始CLIP的權重在大規?！办o態視頻-文本”（記作上已經達到最優。如果將數據集結合作為的近似，那么優化目標將轉化為：

此處數據集是私有數據集，在CLIP遷移學習的過程中完全無法觸碰，而已知CLIP權重是數據集上的最優解，因此本文目標是利用和構建開放詞匯視頻模型。自然地，開放詞匯視頻模型構建問題轉變為一個持續學習的過程：在保持對歷史任務（）性能的同時，不斷地在新的視頻-文本數據集（）上訓練模型，提升模型的泛化能力。

Open-VCLIP方法介紹：

為了解決上述問題，本文提出Open-VCLIP方法，包括模型架構和算法改進兩部分。在架構設計方面，通過修改自注意層將時序建模能力注入到CLIP模型中；在算法改進方面，提出了插值權重優化的新方法，取得更好的閉集性能與零樣本識別性能的權衡。

（1）注入CLIP時序建模能力

本文參考了Space-Time Mixing[2]，通過修改自注意層的信息關注范圍，讓自注意力操作過程中的每個塊關注到所屬視頻幀以及相鄰視頻幀中的圖像塊信息來實現局部時序信息聚合，并隨著自注意力層的堆疊完成全局時間信息聚合，從而實現時序建模能力的注入。該過程不需要增加額外參數，適配于后文引入的權重插值優化方法。

（2）權重插值優化算法

本文解決的是一個零歷史信息的持續學習問題，即以為模型初始化參數，通過優化將模型遷移到數據集上，同時需要盡可能保持最小。然而，標準的微調訓練方式往往容易使模型過擬合到，導致CLIP原始的開放詞匯能力流失嚴重，進而影響模型的泛化能力，這將是本文著重想要解決的問題。

受到[3]的啟發，本文首先引入了一個無需優化的權重插值策略：通過加權系數對CLIP原始參數和在數據集上完成微調后的參數進行加權平均操作，防止遷移學習后的模型在原始數據集上的過度遺忘。具體形式如下：

但這種做法由于不存在顯示的優化約束，導致插值得到的模型可能會在上有較為嚴重的欠擬合。針對此問題，本文提出在訓練過程中對于插值模型在數據集上添加正則化約束，從而緩解插值得到的模型在新數據上欠擬合嚴重的問題。具體來說，本文提出在訓練過程中對插值權重系數進行隨機采樣，針對一系列取值下的插值模型在上進行優化約束，最終的優化目標如下：

其中，插值系數在區間區間均勻采樣，該范圍對應了期望構建的低損失區域。是正則化損失的權重系數，本篇文章實現時將其取值為。對應的梯度計算如下：

最后，本文在訓練過程中對插值權重應用隨機權重平均（SWA）[4]來進一步提高方法穩定性和泛化性。在實踐中，只需要維護模型權重的移動平均值，并在最后進行權重插值即可，形式化描述如下。

實驗

本文實驗采用Kinetics-400視頻動作識別數據集作為微調CLIP的訓練數據，并將UCF、HMDB以及Kinetics-600子集作為測試視頻模型的零樣本識別能力的數據集。

（1）零樣本識別性能

與CLIP基線和標準微調模型進行對比，可以看出，相比于標準微調方法容易出現較為嚴重的遺忘現象，本文所提的Open-VCLIP方法能夠顯著提升模型的零樣本識別能力，在不同主干網絡、不同數據集上都取得了最佳的零樣本識別準確率。

此外，本文同當前先進零樣本識別性能的方法進行了對比?？梢钥吹剑琌pen-VCLIP方法在不同數據集上均取得最佳零樣本準確率。除此之外，文章還對比了凍結原始CLIP模型參數下微調Adapter模塊的高效參數微調方法，結果表明，高效參數微調方法無法有效提升零樣本識別準確率。

（2）零樣本識別性能與閉集性能的權衡

文章對不同方法應用權重插值修復算法[3]進行探究，并將不同的加權系數下的性能用折線圖的方式展現，橫坐標表示閉集性能，縱坐標為零樣本識別性能。結果表明：（i）具有時序建模能力的模型具備更強的零樣本識別性能，顯示出時序建模能力對于CLIP模型向視頻領域的遷移是必要的；（ii）Open-VCLIP曲線高于標準微調方法，反映出本文所提出的優化策略不僅能提升模型的零樣本視頻識別能力，而且能夠在零樣本識別性能和閉集性能中取得最佳權衡；（iii）同時，圖中紅色五角星對應同一個插值模型，可以看到單個模型能夠在多個數據集中取得接近最優的零樣本識別性能，且保持較高的閉集準確率，顯示出方法無需針對特定數據集專門調整插值權重。

（3）零樣本視頻文本檢索性能

評估文本到視頻/視頻到文本的檢索性能可以進一步了解模型的泛化能力。實驗遵循了在Kinetics-400數據集上訓練模型，并在MSR-VTT數據集上測試的范式。結果展示了Open-VCLIP方法提升了模型的視頻檢索文本的性能和文本檢索視頻的性能，且在視頻檢索文本任務上，Open-VCLIP方法明顯高于CLIP基線，進一步驗證了本文方法有效性。

總結

本篇工作提出了Open-VCLIP方法，通過微調于視頻識別數據集有效將CLIP轉變為開放詞匯的視頻模型。文章主題包含三個部分：將問題歸納為無歷史數據的持續學習問題；為模型添加輕量化時序建模能力；設計正則化插值優化策略提升模型泛化能力，減輕遺忘現象發生。實驗表明，Open-VCLIP在零樣本動作識別任務明顯優于最先進的方法，并在閉集性能和零樣本視頻動作識別性能之間實現了最佳的權衡，所提方法也為大模型微調提供了新思路。

阅读全文

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

建模

建模

+關注

關注
1

文章
315

瀏覽量
61267
數據集

數據集

+關注

關注
4

文章
1218

瀏覽量
25143
Clip

Clip

+關注

關注
0

文章
32

瀏覽量
6895

原文標題：ICML 2023 | 復旦和Meta提出Open-VCLIP：兼顧時序建模與開集識別的視頻理解模型

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關注！文章轉載請注明出處。

關于功能驗證、時序驗證、形式驗證、時序建模的論文

半定制/全定制混合設計的特點，提出并實現了一套半定制/全定制混合設計流程中功能和時序驗證的方法。論文從模擬驗證、等價性驗證和全定制設計的功能驗證三個方面對FF-DX的分支控制部件進行功能驗證。對于模擬

發表于 12-07 17:40

高階API構建模型和數據集使用

了TensorFlow2.0Beta版本，同pytorch一樣支持動態執行(TensorFlow2.0默認eager模式，無需啟動會話執行計算圖)，同時刪除了雜亂低階API，使用高階API簡單地構建復雜神經網絡模型，本文主要分享用高階API構建模型和數據

發表于 11-04 07:49

多片段時序數據建模預測實踐資料分享

數據集進行模型的構建與預測分析的，但是在實際的工程使用中會有一種特殊的情況就是：我們通過實驗所采集到的數據集往往不是絕對連續的而是多“片段”的。何為 “片段”？以我之前的時序

發表于 06-30 07:52

分享一種comsol磁場與結構場耦合模型建模

的專業知識，無需在意，不求甚解主要學習本專業的建模，要及時補充專業知識、了解相關知識（指一些術語、名詞）遇到問題難以理解的，且暫時沒能解決，先記住，以后遇到再深究COMSOL學習自學（孤家寡人），主要學習磁場與結構場耦合模型

發表于 07-09 06:40

結合碼本和運行期均值法的雙層背景建模方法

背景建模是視頻處理的重要部分，是后續運動目標檢測、識別和跟蹤的基礎。針對現有的背景建模方法無法兼顧抗干擾性、適應光照、背景更新速度和遮擋等問

發表于 11-29 10:04 ?0次下載

結合碼本和運行期均值法的雙層背景<b class='flag-5'>建模</b>方法

開漏（opendrain）和開集（opencollector）介紹

在電路設計時我們常常遇到開漏（open drain）和開集（open collector）的概念。開

發表于 01-11 14:21 ?5.9w次閱讀

基于視頻的人臉識別轉換為圖像集識別

將基于視頻的人臉識別轉換為圖像集識別問題，并提出兩種流形來表示每個圖像集：一種是類間流形，表示每

發表于 01-21 11:10 ?4次下載

基于視頻深度學習的時空雙流人物動作識別模型

相比，深度卷積神經網絡（ Convolutional Neural Network．CNN）在動作識別領域的表現并不突出，原因有以下兩點：第一，現今視頻數據集較小并且噪聲信息較多。視頻

發表于 04-17 10:46 ?0次下載

可高效識別視頻不同內容的視頻摘要算法

針對如何高效地識別出視頻中具有代表性的內容問題，提出了一種對不同的視頻幀賦予不同重要性的視頻摘要算法。首先使用長短期記憶網絡來

發表于 04-29 15:07 ?24次下載

面向人臉識別的FusNet網絡模型

面向人臉識別的FusNet網絡模型

發表于 06-09 14:59 ?8次下載

模型在Close set和在Open set的表現是否存在一定的相關性呢

開集識別：指對一個在訓練集上訓練好的模型，當利用一個測試集（該測試

發表于 09-09 09:26 ?1151次閱讀

基于實體和動作時空建模的視頻文本預訓練

摘要盡管常見的大規模視頻-文本預訓練模型已經在很多下游任務取得不錯的效果，現有的模型通常將視頻或者文本視為一個整體建模跨模態的表示，顯示結

發表于 05-25 11:29 ?891次閱讀

如何使用Python進行圖像識別的自動學習自動訓練？

圖像識別的自動學習和自動訓練。首先，讓我們了解一下圖像識別的基本概念。圖像識別是指通過計算機程序識別和理解圖像內容的過程。自動學習和自動訓

發表于 01-12 16:06 ?760次閱讀

Meta發布新型無監督視頻預測模型“V-JEPA”

Meta，這家社交媒體和科技巨頭，近日宣布推出一種新型的無監督視頻預測模型，名為“V-JEPA”。這一模型在視頻處理領域引起了廣泛關注，因為

發表于 02-19 11:19 ?1199次閱讀

Meta發布新AI模型Meta Motivo，旨在提升元宇宙體驗

Meta在人工智能領域邁出了重要一步。通過這款模型，Meta希望能夠為用戶提供更加自然、流暢的元宇宙交互體驗。數字代理在元宇宙中的動作將更加逼真，從而增強用戶的沉浸感和參與度。除了Meta

發表于 12-16 10:34 ?734次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

復旦和Meta提出Open-VCLIP：兼顧時序建模與開集識別的視頻理解模型

評論

關于功能驗證、時序驗證、形式驗證、時序建模的論文

高階API構建模型和數據集使用

多片段時序數據建模預測實踐資料分享

分享一種comsol磁場與結構場耦合模型建模

結合碼本和運行期均值法的雙層背景建模方法

開漏（opendrain）和開集（opencollector）介紹

基于視頻的人臉識別轉換為圖像集識別

基于視頻深度學習的時空雙流人物動作識別模型

可高效識別視頻不同內容的視頻摘要算法

面向人臉識別的FusNet網絡模型

模型在Close set和在Open set的表現是否存在一定的相關性呢

基于實體和動作時空建模的視頻文本預訓練

如何使用Python進行圖像識別的自動學習自動訓練？

Meta發布新型無監督視頻預測模型“V-JEPA”

Meta發布新AI模型Meta Motivo，旨在提升元宇宙體驗

電子發燒友