在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于文本到圖像模型的可控文本到視頻生成

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-06-14 10:39 ? 次閱讀

1. 論文信息

2. 引言

大規模擴散模型在文本到圖像合成方面取得了巨大的突破,并在創意應用方面取得了成功。一些工作試圖在視頻領域復制這個成功,即在野外世界建模高維復雜視頻分布。然而,訓練這樣的文本到視頻模型需要大量高質量的視頻和計算資源,這限制了相關社區進一步的研究和應用。為了減少過度的訓練要求,我們研究了一種新的高效形式:基于文本到圖像模型的可控文本到視頻生成。這個任務旨在根據文本描述和運動序列(例如深度或邊緣地圖)生成視頻。

如圖所示,它可以有效地利用預訓練的文本到圖像生成模型的生成能力和運動序列的粗略時間一致性來生成生動的視頻。

最近的研究探索了利用 ControlNet 或 DDIM inversion 的結構可控性進行視頻生成。在這項工作中,我們提出了一個無需訓練的高質量和一致的可控文本到視頻生成方法ControlVideo,以及一種 交錯幀平滑器來增強結構平滑度。

ControlVideo直接繼承了 ControlNet 的架構和權重,通過擴展自注意力與 完全跨幀交互 使其適用于視頻,與之前的工作不同,我們的完全跨幀交互將所有幀連接起來成為一個“更大的圖像”,從而直接繼承了 ControlNet 的高質量和一致的生成。交錯幀平滑器通過在選定的連續時間步驟上交錯插值來消除整個視頻的閃爍。

如圖所示,每個時間步驟的操作通過插值中間幀平滑交錯的三幀片段,兩個連續時間步驟的組合則平滑整個視頻。為了實現高效的長視頻合成,我們還引入了一種分層采樣器來生成具有長期連貫性的獨立短片段。具體而言,長視頻首先被分割成多個具有選定關鍵幀的短視頻片段。然后,關鍵幀通過全幀交互預先生成以實現長期連貫性。在關鍵幀的條件下,我們順序合成相應的中間短視頻片段,以實現全局一致性。作者在廣泛收集的運動提示對上進行了實驗。

實驗結果表明,我們的方法在質量和量化標準上都優于其他競爭對手。由于采用了高效的設計,即 xFormers 實現和分層采樣器,ControlVideo 可以在一個 NVIDIA 上幾分鐘內生成短視頻和長視頻。

3. 方法

3.0. 背景

潛在擴散模型(Latent Diffusion Model,簡稱LDM)是一種用于密度估計和生成高維數據(如圖像和音頻)的概率模型。它由Jonathan Ho和Stefano Ermon在2020年的論文Denosing Diffusion Probabilistic Models中提出。

LDM基于一個擴散過程,每一步向數據添加噪聲,然后通過去噪函數去除噪聲。擴散過程進行到數據完全被破壞,只剩下高斯噪聲。模型通過反向擴散過程生成新數據,從高斯噪聲開始,逐步去除噪聲。

形式上,LDM定義了一系列條件分布,給出數據如下:

其中表示時間t的數據,是一個神經網絡,將映射到,是一個固定的方差參數。擴散過程從原始數據開始,進行到,其中T是擴散步驟的總數。

為了生成新數據,LDM反轉擴散過程,從以下條件分布中采樣:

從開始,向后進行到。LDM可以通過最大化模型下數據的對數似然來進行訓練,可以使用隨機梯度下降有效地完成。LDM已經在圖像生成和密度估計任務中取得了最先進的結果,并且已經擴展到處理缺失數據和半監督學習。

3.1. 方法

論文提出的方法包括三個關鍵組件:ControlNet、ControlVideo 和交錯幀平滑器。這些組件通過控制噪聲的傳播路徑,在生成的視頻中保持了文本描述和運動信息之間的一致性,并通過完全跨幀交互和交錯幀平滑器來保持了視頻的連貫性和平滑性。

3.1.1 Fully Cross-Frame Interaction:

Fully Cross-Frame Interaction模塊旨在通過使所有幀之間相互作用來增強生成視頻的時間一致性。這是通過將所有視頻幀連接成一個“大圖像”,然后使用基于注意力機制的Fully Cross-Frame Interaction來計算幀間交互來實現的。完全跨幀交互模塊可以表示為:

其中是通過連接所有視頻幀形成的“大圖像”,,和是查詢、鍵和值矩陣,,和是可學習的權重矩陣。注意力機制通過將查詢和鍵矩陣相乘,然后使用softmax函數進行歸一化來計算注意力權重。最后,通過將注意力權重乘以值矩陣得到注意力值。

1b5a484e-09f0-11ee-962d-dac502259ad0.png

3.1.2 Interleaved-Frame Smoother:

Interleaved-Frame Smoother模塊旨在減少合成視頻中的抖動效果。這是通過插值每個三幀剪輯的中間幀,然后以交錯的方式重復它來實現的。Interleaved-Frame Smoother可以表示為:

其中表示視頻序列的第幀。Interleaved-Frame Smoother通過取前一幀和后一幀的平均值來插值每個三幀剪輯的中間幀。

3.1.3 Hierarchical Sampler:

Hierarchical Sampler模塊旨在通過逐個剪輯地生成視頻來實現高效和一致的長視頻合成。在每個時間步中,將長視頻分成多個短視頻剪輯,并使用Fully Cross-Frame Attention預先生成關鍵幀以確保長距離的一致性。然后,在每對關鍵幀的條件下,按順序合成相應的剪輯以確保整體一致性。Hierarchical Sampler可以表示為:

其中表示視頻序列的第幀,是關鍵幀,是一個擴散模型,它在先前和下一幀的條件下生成視頻幀。關鍵幀是使用Fully Cross-Frame Attention預先生成的,以確保長距離的一致性,而其余幀則使用擴散模型生成。

4. 實驗

1b7c70fe-09f0-11ee-962d-dac502259ad0.png1b864e4e-09f0-11ee-962d-dac502259ad0.png

上圖展示了對于視頻生成方法的實驗數據比較表格。共比較了三種方法:Tune-A-Video、Text2Video-Zero和ControlVideo。表格中的指標分為兩列:Frame Consistency和Prompt Consistency。其中,Frame Consistency指的是生成的視頻幀與輸入的條件(Structure Condition)之間的一致性;Prompt Consistency指的是生成的視頻與輸入的描述(Prompt)之間的一致性。兩列指標的數值都是百分比形式。可以看出,使用Canny Edge或Depth Map作為Structure Condition時,ControlVideo的Frame Consistency都比其他兩種方法高,且Prompt Consistency基本持平。這說明ControlVideo在結構一致性方面表現優異,而在描述一致性方面與其他方法相當。需要注意的是,Prompt Consistency的數值普遍較低,這也是視頻生成領域的一個研究難點。從具體數字來看,可以發現ControlVideo在兩種Structure Condition下的Frame Consistency均優于其他兩種方法,并且在Prompt Consistency方面與其他方法相當。此外,即使在表格中的最好表現下,Prompt Consistency的數值也普遍較低,這表明在描述一致性方面仍然存在改進空間。

1bc6e3e6-09f0-11ee-962d-dac502259ad0.png

該表格展示了一項用戶偏好研究的結果,比較了兩種方法和一種新的視頻合成方法“Ours”。該研究評估了每種方法合成的視頻在三個方面的質量:視頻質量、時間一致性和文本對齊。表格中展現了在每個方面上有多少評估者更喜歡“Ours”合成的視頻而不是其他方法的視頻。總體而言,結果表明,“Ours”在視頻質量、時間一致性和文本對齊方面表現比其他兩種方法更好,因為它在所有三個方面上都得到了更高比例的評估者偏好。然而,需要注意的是,該研究僅反映了評估者的意見,可能并不一定反映視頻合成方法的客觀質量。

1c29c8f8-09f0-11ee-962d-dac502259ad0.png

這一部分主要介紹了在用戶研究和消融實驗方面的結果,以及將該方法擴展到長視頻生成的有效性。在用戶研究中,本文與其他競爭方法進行了比較,并讓參與者根據視頻質量、時間連貫性和文本對齊等三個方面選擇更好的合成視頻。結果表明,本文的方法在所有三個方面都表現出了強大的優勢。在消融實驗中,本文進一步評估了完全跨幀交互和交錯幀平滑器的效果,并發現它們都對視頻生成的質量和連續性產生了重要影響。最后,本文還展示了如何將該方法擴展到長視頻生成,通過引入分層采樣器實現了高效的處理,使得該方法可以在低端硬件上生成高質量的長視頻。

5. 討論

這份工作存在以下局限性:

該方法的生成結果受預訓練的文本到圖像生成模型的質量和性能影響,因此其生成的視頻可能存在與圖像生成模型相關的問題,如圖像分辨率、細節和顏色等方面的不足。

該方法需要輸入運動序列,如深度或邊緣地圖,以幫助生成視頻,這可能會限制其適用范圍,因為這些運動序列可能難以獲取。

由于該方法使用分層采樣器來生成長視頻,因此在生成非常長的視頻時可能會存在一些不連貫的問題。

該方法的處理速度受到硬件和預訓練模型的性能限制,對于某些應用場景可能需要更快的處理速度。

大規模擴散模型在文本到視頻合成方面取得了巨大進展,但這些模型成本高昂且不對公眾開放。我們的ControlVideo專注于無需訓練的可控文本到視頻生成,并在高效視頻創建方面邁出了重要一步。具體而言,ControlVideo可以使用普通硬件合成高質量的視頻,因此可供大多數研究人員和用戶使用。例如,藝術家可以利用我們的方法在更短的時間內創建出迷人的視頻。此外,ControlVideo為視頻渲染、視頻編輯和視頻到視頻轉換等任務提供了洞見。然而,雖然作者不打算將模型用于有害目的,但它可能會被濫用并帶來一些潛在的負面影響,例如制作欺騙性、有害性或含有不當內容的視頻。盡管存在以上擔憂,但我們相信可以通過一些措施來將其最小化。例如,可以使用NSFW過濾器來過濾不健康和暴力內容。此外,我們希望政府能夠建立和完善相關法規以限制視頻創作的濫用。較為合適的應用場景包括但不限于:

視頻游戲開發:可以使用該方法生成游戲場景中的動態場景,如人物移動、車輛行駛等。

電影和廣告制作:可以使用該方法生成預覽或草圖,以幫助制片人和廣告商確定最終的場景和效果。

交互式虛擬現實應用:可以使用該方法生成虛擬現實場景,如虛擬旅游、虛擬展覽等。

視頻編輯和后期制作:可以使用該方法生成缺失的鏡頭或補充一些場景,以幫助編輯和后期制作人員完成工作。

6. 結論

這一部分主要介紹了在用戶研究和消融實驗方面的結果,以及將該方法擴展到長視頻生成的有效性。在用戶研究中,本文與其他競爭方法進行了比較,并讓參與者根據視頻質量、時間連貫性和文本對齊等三個方面選擇更好的合成視頻。結果表明,本文的方法在所有三個方面都表現出了強大的優勢。在消融實驗中,本文進一步評估了完全跨幀交互和交錯幀平滑器的效果,并發現它們都對視頻生成的質量和連續性產生了重要影響。最后,本文還展示了如何將該方法擴展到長視頻生成,通過引入分層采樣器實現了高效的處理,使得該方法可以在低端硬件上生成高質量的長視頻。
責任編輯:彭菁

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7026

    瀏覽量

    89026
  • 視頻
    +關注

    關注

    6

    文章

    1945

    瀏覽量

    72908
  • 模型
    +關注

    關注

    1

    文章

    3243

    瀏覽量

    48836

原文標題:ControlVideo: 可控的Training-free的文本生成視頻

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于擴散模型圖像生成過程

    等很難用文本指定。 ? 最近,谷歌發布了MediaPipe Diffusion插件,可以在移動設備上運行「可控文本圖像
    的頭像 發表于 07-17 11:00 ?2732次閱讀
    基于擴散<b class='flag-5'>模型</b>的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>過程

    如何去解決文本圖像生成的跨模態對比損失問題?

    文本圖像的自動生成,如何訓練模型僅通過一段文本描述輸入就能
    的頭像 發表于 06-15 10:07 ?2735次閱讀
    如何去解決<b class='flag-5'>文本</b><b class='flag-5'>到</b><b class='flag-5'>圖像</b><b class='flag-5'>生成</b>的跨模態對比損失問題?

    受控文本生成模型的一般架構及故事生成任務等方面的具體應用

    來自:哈工大訊飛聯合實驗室 本期導讀:本文是對受控文本生成任務的一個簡單的介紹。首先,本文介紹了受控文本生成模型的一般架構,點明了受控文本生成模型
    的頭像 發表于 10-13 09:46 ?3537次閱讀
    受控<b class='flag-5'>文本生成</b><b class='flag-5'>模型</b>的一般架構及故事<b class='flag-5'>生成</b>任務等方面的具體應用

    一種「個性化」的文本圖像擴散模型 DreamBooth

    一些大型文本圖像模型基于用自然語言編寫的文本提示(prompt)實現了高質量和多樣化的圖像合成
    的頭像 發表于 11-14 15:11 ?1364次閱讀

    復旦&amp;微軟提出?OmniVL:首個統一圖像視頻文本的基礎預訓練模型

    根據輸入數據和目標下游任務的不同,現有的VLP方法可以大致分為兩類:圖像-文本預訓練和視頻-文本預訓練。前者從圖像-
    的頭像 發表于 12-14 15:26 ?921次閱讀

    Stability AI推出Stable audio的文本頻生成人工智能平臺

    Stability AI是一家主要以人工智能生成的視覺效果而聞名的公司,它推出了一個名為Stable audio的文本頻生成人工智能平臺。 Stable Audio使用擴散
    的頭像 發表于 09-20 10:20 ?1312次閱讀

    OpenAI發布首個視頻生成模型Sora

    OpenAI近日宣布推出其全新的文本視頻生成模型——Sora。這一突破性的技術將視頻創作帶入了一個全新的紀元,為用戶提供了前所未有的創作可
    的頭像 發表于 02-18 10:07 ?1062次閱讀

    OpenAI新年開出王炸,視頻生成模型Sora問世

    近日,OpenAI在AI生成視頻領域取得重大突破,發布了全新的生成式人工智能模型“Sora”。該模型
    的頭像 發表于 02-20 11:46 ?810次閱讀

    openai發布首個視頻生成模型sora

    美國當地時間2024年2月15日 ,OpenAI正式發布文生視頻模型Sora ,并發布了48個文生視頻案例和技術報告 ,正式入局視頻生成領域 。Sora能夠根據提示詞
    的頭像 發表于 02-21 16:45 ?1267次閱讀

    Runway發布Gen-3 Alpha視頻生成模型

    專為電影和圖像內容創作者提供生成式AI工具的Runway公司近日宣布,其最新的Gen-3 Alpha視頻生成模型已經正式問世。這款模型在多方
    的頭像 發表于 06-19 09:25 ?579次閱讀

    商湯發布首個“可控”人物視頻生成模型Vimi

    近日,商湯科技在人工智能領域再次取得重大突破,正式發布了其首個面向消費者的“可控”人物視頻生成模型——Vimi。這一創新技術的問世,標志著視頻內容創作進入了一個全新的互動與個性化時代
    的頭像 發表于 07-04 15:29 ?753次閱讀

    今日看點丨Vishay裁員800人,關閉上海等三家工廠;字節跳動發布兩款視頻生成模型

    企業市場開啟邀測。 ? 火山引擎介紹,豆包視頻生成模型基于DiT架構,通過高效的DiT融合計算單元,能更充分地壓縮編碼視頻文本,讓視頻在大
    發表于 09-25 15:48 ?749次閱讀

    OpenAI開放Sora視頻生成模型

    升級,準備迎接廣大用戶的深入探索與廣泛應用。 據官方公告介紹,Sora Turbo作為Sora的升級版本,具備強大的視頻生成能力。它能夠根據用戶的文本提示,快速創建出最長達20秒的高清視頻片段。更令人驚喜的是,Sora Turb
    的頭像 發表于 12-10 11:16 ?322次閱讀

    中國電信發布自研視頻生成模型

    ,中國電信隆重發布了首個由央企全自研的視頻生成模型。該模型采用了創新的“VAST(Video As Storyboard from Text)二階段視頻生成技術”,實現了從
    的頭像 發表于 12-13 15:40 ?163次閱讀

    OpenAI暫不推出Sora視頻生成模型API

    OpenAI近日宣布,目前暫無推出其視頻生成模型Sora的應用程序接口(API)的計劃。Sora模型能夠基于文本圖像
    的頭像 發表于 12-20 14:23 ?124次閱讀
    主站蜘蛛池模板: 国产免费午夜| 超级乱淫伦网站| 日本不卡视频免费的| 天堂在线影院| 国产乱理论片在线观看理论| 久久久久九九精品影院| 国产a三级三级三级| 免费观看理论片毛片| 天天干天天干天天天天天天爽| 一区在线视频| 萝控喷水视频| 老师叫我揉她内裤越快越好| 日本黄色大片免费看| 天天碰天天干| 日本视频三区| 久久激情五月| 国产综合成色在线视频| 亚洲色图21p| 国产精品九九久久一区hh| 成人午夜久久| 色天使色婷婷在线影院亚洲| 午夜影视体验区| 欧美精品一区二区三区在线播放| 欧美色欧美亚洲高清在线视频| 天天摸天天躁天天添天天爽| 九九热视频免费在线观看| 久久精品视频免费播放| 国产69精品久久| 手机精品在线| 天天干天天干天天| 正在播放国产巨作| 成人看的一级毛片| 一区二区三区精品视频| 热久久国产| 久久精品女人天堂| 日本69av| 你懂的在线视频观看| 国产精品免费看久久久| 色免费看| 久久看精品| 四虎永久在线精品|