在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

浙大、微信提出精確反演采樣器新范式,徹底解決擴散模型反演問題

智能感知與物聯網技術研究所 ? 來源:智能感知與物聯網技術研 ? 2024-11-27 09:21 ? 次閱讀

隨著擴散生成模型的發展,人工智能步入了屬于AIGC的新紀元。擴散生成模型可以對初始高斯噪聲進行逐步去噪而得到高質量的采樣。當前,許多應用都涉及擴散模型的反演,即找到一個生成樣本對應的初始噪聲。當前的采樣器不能兼顧反演的準確性和采樣的質量。

為徹底解決這一問題,微信視覺團隊與浙江大學和清華大學聯手提出了基于雙向顯式線性多步法的擴散模型精確反演采樣器(BELM)這一通用算法,并通過截斷誤差分析確定了最優的 BELM 采樣器系數。

此方法在確保精確反演的同時還提升了生成樣本的質量,在圖像與視頻的編輯、插值等下游任務中有廣泛的應用前景。這一研究成果已被 NeurIPS 2024 會議接收。

當前,擴散模型在圖像生成、文字生成、音頻生成等多個領域得到了廣泛應用,表現出了卓越的性能。擴散模型的反演操作,即找到一個生成樣本對應的初始噪聲,對若干下游任務起到關鍵的作用。傳統的 DDIM 反演會造成嚴重的不一致問題,即原始圖片加噪再去噪的結果與原圖相差甚遠。

近期,研究者們提出了多種啟發式的精確反演采樣器來解決 DDIM 反演的不一致問題。然而,這些啟發式的精確反演采樣器的理論特性尚不明確,且采樣質量常常不盡如人意,這在一定程度上限制了它們的應用。

為此,本研究引入了一種通用的精確反演采樣器范式 —— 雙向顯式線性多步(BELM)采樣器,該范式包含了上文提到的啟發式精確反演采樣器。該團隊在 BELM 范式內系統地研究了局部截斷誤差(LTE),發現現有的精確反演采樣器的 LTE 并非最優。

因此,研究團隊通過 LTE 最小化方法提出了最優的 BELM(Optimal-BELM,O-BELM)采樣器。實驗表明,O-BELM 采樣器在實現精確反演的同時,也提升了采樣的質量。

8f62c698-9f6e-11ef-93f3-92fbcf53809c.png

論文題目:BELM: Bidirectional Explicit Linear Multi-step Sampler for Exact Inversion in Diffusion Models

論文鏈接:

https://arxiv.org/abs/2410.07273

項目鏈接:

https://github.com/zituitui/BELM

背景:DDIM反演造成的不一致問題 由于 DDIM 的正向過程和反演過程使用的迭代式并不相同,所以 DDIM 的反演重構樣本與初始的樣本存在較大差別。 實際使用中,DDIM 的反演有顯著的不一致問題:

8f919b1c-9f6e-11ef-93f3-92fbcf53809c.png

8faf777c-9f6e-11ef-93f3-92fbcf53809c.png

現有精確反演方法

Null-text-inversion 以 Null-tex-inversion 為代表的方法對 unconditional占位符進行 fine-tune,以達到精確反演。 問題:這類方法局限于 text-classifier-free-guidance 場景下的擴散模型;需要額外訓練,低效。

8fda2c60-9f6e-11ef-93f3-92fbcf53809c.png

EDICT EDICT 是基于 DDIM 的啟發式算法,借鑒了可逆網絡的做法,有兩個相互糅合的采樣鏈。

9003bfee-9f6e-11ef-93f3-92fbcf53809c.png

其逆過程如下,精確可逆:

90200b2c-9f6e-11ef-93f3-92fbcf53809c.png

問題:需要兩倍計算量;超參數 p 不魯棒,導致采樣質量不可控。 BDIA BDIA 改進了 EDICT,使用 x_i 的速度,x_i 和 x_{i+1} 的位置,通過下述公式實現精確可逆:

90445464-9f6e-11ef-93f3-92fbcf53809c.png

問題:超參數 gamma 不魯棒,導致采樣質量不佳。 EDICT 和 BDIA 參數的不魯棒: EDICT 和 BDIA 超參數的意義不明,沒有理論指導如何調整,導致不同情形下超參數的選擇差別巨大。使用起來極為不便。

9050124a-9f6e-11ef-93f3-92fbcf53809c.png

906219e0-9f6e-11ef-93f3-92fbcf53809c.png

雙向顯式線性多步法(BELM)框架思路起源:DDIM 的正向過程(由藍線表示)與反演過程(由紅線表示)是兩種不同的關系,這導致了 DDIM 的反演不準確。如果強制正過程與反過程使用相同關系,又會引入隱式方法,大大增加計算復雜度。如果多引入一個點,不用隱式方法也可逆(由綠線表示)。

9093515e-9f6e-11ef-93f3-92fbcf53809c.png

該論文中的算法,正向和反演過程都服從相同的關系,因此能夠精確反演。具體來說,為了系統地設計這種采樣器,首先要將擴散模型的采樣過程建模為一個 IVP(Initial Value Problem,初值問題):

90b48270-9f6e-11ef-93f3-92fbcf53809c.png

以下是IVP的一般形式,這實際上是一個變步長變公式線性多步方法(VSVFM):

90ccb156-9f6e-11ef-93f3-92fbcf53809c.png

為了避免隱式方法的復雜計算,上式需要在正向和反向都是顯式的,該團隊稱這一性質為雙向顯性(bidirectional explicit)。

90de49f2-9f6e-11ef-93f3-92fbcf53809c.png

代入雙向顯性條件,可以得到一般的 k 步 BELM 采樣器:

910a60aa-9f6e-11ef-93f3-92fbcf53809c.png

最簡單的形式是 k=2,稱為 2-BELM,其表達式如下:

911c90a4-9f6e-11ef-93f3-92fbcf53809c.png

據此很容易證明,一個滿足雙向顯性性質的線性多步法采樣器擁有精確反演性質:

9130e2fc-9f6e-11ef-93f3-92fbcf53809c.png

研究團隊還發現,前文提到的 EDICT 和 BDIA 都是 BELM 框架的特例:

9138d2be-9f6e-11ef-93f3-92fbcf53809c.png

這也解釋了 EDICT 和 BDIA 能夠精確反演的原因。

最優雙向顯式線性多步(O-BELM)采樣器研究團隊在推導 BELM 框架暫時沒有給出具體的系數選擇,而啟發式的系數選擇(如 EDICT 和 BDIA)會造成采樣質量的退化。因此,他們提出使用局部截斷誤差(LTE)來獲取最優系數。 首先分析 BELM 的局部截斷誤差:

916819f2-9f6e-11ef-93f3-92fbcf53809c.png

通過對局部截斷誤差的最小化,我們得到了最優的 BELM 系數,我們稱此系數下的 BELM 采樣器為最優 BELM(O-BELM):

918af8e6-9f6e-11ef-93f3-92fbcf53809c.png

O-BELM 的正向過程表達式如下:

91978b42-9f6e-11ef-93f3-92fbcf53809c.png

O-BELM 的反演過程表達式如下:

91aa9444-9f6e-11ef-93f3-92fbcf53809c.png

此外,研究團隊還證明了 O-BELM 滿足穩定性和全局收斂性:

91b40268-9f6e-11ef-93f3-92fbcf53809c.png

至此,可以對比幾種不同反演采樣器的性質:

91defc8e-9f6e-11ef-93f3-92fbcf53809c.png

可見,O-BELM 是第一種在嚴格的理論保證下兼顧精確反演性質和采樣質量的采樣器。

實驗重建實驗(驗證O-BELM精確反演性質) latent 空間上的 O-BELM 的重建誤差為 0,這表明 O-BELM 具有精確反演的性質:

921017a6-9f6e-11ef-93f3-92fbcf53809c.png

9216815e-9f6e-11ef-93f3-92fbcf53809c.png

采樣實驗(驗證O-BELM的高質量采樣性質)

不論在無條件生成還是條件生成中,O-BELM 都表現出了高于 DDIM,EDICT 和 BDIA 的采樣質量:

924a1032-9f6e-11ef-93f3-92fbcf53809c.png

下游任務 —— 圖像編輯

圖像編輯實驗體現了:

1. 由于 DDIM 不具有精確反演性質,編輯的結果中存在不一致問題(紅色框);

2. 由于 EDICT 和 BDIA 具有較大的采樣誤差,編輯的結果出現了不真實區域(黃色框);

3.O-BELM 在保持圖像一致的條件下完成了高質量的編輯。

9272ccb6-9f6e-11ef-93f3-92fbcf53809c.png

9281dfa8-9f6e-11ef-93f3-92fbcf53809c.png

由于 O-BELM 是一個采樣方法,因此可以無縫地與 controlNet 結合,編輯效果也優于其他方法:

92918cf0-9f6e-11ef-93f3-92fbcf53809c.png

下游任務 —— 圖像插值 由于 O-BELM 精確地建立了噪聲和生成樣本的對應關系,這個關系是 probability flow ODE 的近似,因此 O-BELM 也使得圖像插值更符合人的直覺:

92b9fe6a-9f6e-11ef-93f3-92fbcf53809c.png

結語 本研究提出的雙向顯式線性多步法采樣器從理論上分析并徹底解決了現有擴散生成模型中的反演問題,進一步拓寬了擴散模型在計算機視覺領域的能力邊界。在圖像和視頻的編輯任務上有巨大的應用前景。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4612

    瀏覽量

    92891
  • 采樣器
    +關注

    關注

    0

    文章

    34

    瀏覽量

    2468

原文標題:NeurIPS 2024 | 浙大、微信提出精確反演采樣器新范式,徹底解決擴散模型反演問題

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    通過透鏡陣列的傳播

    隨著現代技術的發展,透鏡陣列等專用光學元件越來越受到人們的重視。特別是在光學投影系統、材料加工單元、光學擴散器等領域,透鏡陣列得到了廣泛的應用。在VirtualLab Fusion中,可以
    發表于 12-11 11:32

    擴散模型的理論基礎

    擴散模型的迅速崛起是過去幾年機器學習領域最大的發展之一。在這本簡單易懂的指南中,學習你需要知道的關于擴散模型的一切。
    的頭像 發表于 10-28 09:30 ?390次閱讀
    <b class='flag-5'>擴散</b><b class='flag-5'>模型</b>的理論基礎

    如何使用TPS61390 Boost轉換對小APD電流進行精確采樣

    電子發燒友網站提供《如何使用TPS61390 Boost轉換對小APD電流進行精確采樣.pdf》資料免費下載
    發表于 09-25 11:50 ?0次下載
    如何使用TPS61390 Boost轉換<b class='flag-5'>器</b>對小APD電流進行<b class='flag-5'>精確</b><b class='flag-5'>采樣</b>

    ADS8472功耗采樣模數轉換數據表

    電子發燒友網站提供《ADS8472功耗采樣模數轉換數據表.pdf》資料免費下載
    發表于 07-27 11:48 ?0次下載
    ADS8472<b class='flag-5'>微</b>功耗<b class='flag-5'>采樣</b>模數轉換<b class='flag-5'>器</b>數據表

    ADS8382功耗采樣模數轉換數據表

    電子發燒友網站提供《ADS8382功耗采樣模數轉換數據表.pdf》資料免費下載
    發表于 07-15 09:36 ?0次下載
    ADS8382<b class='flag-5'>微</b>功耗<b class='flag-5'>采樣</b>模數轉換<b class='flag-5'>器</b>數據表

    人臉檢測模型精確度怎么算

    人臉檢測模型精確度評估是一個復雜的過程,涉及到多個方面的因素。本文將從以下幾個方面進行介紹:人臉檢測模型的基本概念、評估指標、評估方法、影響因素以及提高精確度的策略。 人臉檢測
    的頭像 發表于 07-04 09:14 ?524次閱讀

    MEMS諧振傳感范式:熱噪聲驅動的傳感的可行性與動態檢測性能

    resonant sensors”的研究論文,提出了一種新的納諧振傳感范式——熱噪聲驅動的諧振傳感, 構建了該
    的頭像 發表于 06-29 10:57 ?1.1w次閱讀
    MEMS諧振傳感<b class='flag-5'>器</b>新<b class='flag-5'>范式</b>:熱噪聲驅動的傳感<b class='flag-5'>器</b>的可行性與動態檢測性能

    鴻蒙開發Ability Kit程序框架服務:FA模型切換Stage模型概述

    本文介紹如何將一個FA模型開發的聲明式范式應用切換到Stage模型
    的頭像 發表于 06-26 14:40 ?340次閱讀
    鴻蒙開發Ability Kit程序框架服務:FA<b class='flag-5'>模型</b>切換Stage<b class='flag-5'>模型</b>概述

    浙大博導開源飛控planner源碼

    浙大博導開源飛控planner源碼
    發表于 06-12 11:43 ?4次下載

    谷歌推出新模型提升天氣預報準確性

    谷歌公司在天氣預報領域邁出了重要一步,宣布推出名為“可擴展集成包絡擴散采樣器”(SEEDS)的新型AI模型。這一生成式人工智能模型旨在提供更加精準的天氣預報服務,為人們的生活和出行提供
    的頭像 發表于 05-06 11:31 ?578次閱讀

    基于歸結反演的大語言模型邏輯推斷系統

    受邏輯符號領域的邏輯推理方法的啟發,我們引入了一個在一階邏輯下完備的邏輯推理范式歸結反演(其推理過程不會受到條件1的約束)來提高完備性,并提出一個新的推理框架GFaiR。
    發表于 04-28 18:00 ?385次閱讀
    基于歸結<b class='flag-5'>反演</b>的大語言<b class='flag-5'>模型</b>邏輯推斷系統

    一種多波段與雙透鏡集成的紅外探測氣密性封裝組件

    多光譜紅外探測技術能豐富遙感載荷的圖像信息,提高圖像的反演精度,而多透鏡和多波段探測集成封裝設計能縮小光學載荷體積,同時節約制冷資源。
    的頭像 發表于 03-14 09:32 ?869次閱讀
    一種多波段與雙透鏡集成的紅外探測<b class='flag-5'>器</b>氣密性封裝組件

    國科浙大杭州科創中心簽署協議共促集成電路產業的創新與升級

    3月11日,國科與浙江大學杭州國際科創中心(以下簡稱“浙大杭州科創中心”)簽署戰略合作協議,攜手共建聯合實驗室,旨在實現技術共研、資源共享,共促集成電路產業的創新與升級。
    的頭像 發表于 03-13 09:55 ?540次閱讀

    谷歌推出AI擴散模型Lumiere

    近日,谷歌研究院重磅推出全新AI擴散模型Lumiere,這款模型基于谷歌自主研發的“Space-Time U-Net”基礎架構,旨在實現視頻生成的一次性完成,同時保證視頻的真實性和動作連貫性。
    的頭像 發表于 02-04 13:49 ?1039次閱讀

    基于DiAD擴散模型的多類異常檢測工作

    現有的基于計算機視覺的工業異常檢測技術包括基于特征的、基于重構的和基于合成的技術。最近,擴散模型因其強大的生成能力而聞名,因此本文作者希望通過擴散模型將異常區域重構成正常。
    的頭像 發表于 01-08 14:55 ?1401次閱讀
    基于DiAD<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>的多類異常檢測工作
    主站蜘蛛池模板: 午夜免费体验| 色屁屁www免费看视频影院 | 午夜影院欧美| 日韩亚射吧| 亚洲视频区| 综合99| 在线免费视频网站| 丁香网五月天| 老熟女一级毛片| 婷婷综合七月激情啪啪| 日黄网站| 狠狠色丁香婷婷| 亚洲成人午夜影院| 国产人成午夜免视频网站| 国产黄色在线观看| 色多多a| 夜夜爽毛片| 国产精品夜夜春夜夜爽久久| 曰本女人色黄网站| 欧美色视频日本片高清在线观看| 国产专区视频| 天天干夜夜夜操| 在线看黄色的网站| 91九色麻豆| 欧美婷婷| 久久天天躁狠狠躁夜夜2020一| 中国一级生活片| 亚洲swag精品自拍一区| 男人不识本站| 亚洲黄网址| 老师办公室高h文小说| 久久夜色精品国产尤物| 亚洲精品午夜视频| 美女扒开下面让男人捅| 人人爽人人爱| 一级特黄aaa大片在线观看视频| 中文字幕一区视频| 日韩一区二区视频在线观看| a毛片免费观看完整| 国产成人亚洲影视在线| 伊人久久综合成人网小说|