在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

浙大、微信提出精確反演采樣器新范式,徹底解決擴(kuò)散模型反演問題

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:智能感知與物聯(lián)網(wǎng)技術(shù)研 ? 2024-11-27 09:21 ? 次閱讀

隨著擴(kuò)散生成模型的發(fā)展,人工智能步入了屬于AIGC的新紀(jì)元。擴(kuò)散生成模型可以對(duì)初始高斯噪聲進(jìn)行逐步去噪而得到高質(zhì)量的采樣。當(dāng)前,許多應(yīng)用都涉及擴(kuò)散模型的反演,即找到一個(gè)生成樣本對(duì)應(yīng)的初始噪聲。當(dāng)前的采樣器不能兼顧反演的準(zhǔn)確性和采樣的質(zhì)量。

為徹底解決這一問題,微信視覺團(tuán)隊(duì)與浙江大學(xué)和清華大學(xué)聯(lián)手提出了基于雙向顯式線性多步法的擴(kuò)散模型精確反演采樣器(BELM)這一通用算法,并通過截?cái)嗾`差分析確定了最優(yōu)的 BELM 采樣器系數(shù)。

此方法在確保精確反演的同時(shí)還提升了生成樣本的質(zhì)量,在圖像與視頻的編輯、插值等下游任務(wù)中有廣泛的應(yīng)用前景。這一研究成果已被 NeurIPS 2024 會(huì)議接收。

當(dāng)前,擴(kuò)散模型在圖像生成、文字生成、音頻生成等多個(gè)領(lǐng)域得到了廣泛應(yīng)用,表現(xiàn)出了卓越的性能。擴(kuò)散模型的反演操作,即找到一個(gè)生成樣本對(duì)應(yīng)的初始噪聲,對(duì)若干下游任務(wù)起到關(guān)鍵的作用。傳統(tǒng)的 DDIM 反演會(huì)造成嚴(yán)重的不一致問題,即原始圖片加噪再去噪的結(jié)果與原圖相差甚遠(yuǎn)。

近期,研究者們提出了多種啟發(fā)式的精確反演采樣器來解決 DDIM 反演的不一致問題。然而,這些啟發(fā)式的精確反演采樣器的理論特性尚不明確,且采樣質(zhì)量常常不盡如人意,這在一定程度上限制了它們的應(yīng)用。

為此,本研究引入了一種通用的精確反演采樣器范式 —— 雙向顯式線性多步(BELM)采樣器,該范式包含了上文提到的啟發(fā)式精確反演采樣器。該團(tuán)隊(duì)在 BELM 范式內(nèi)系統(tǒng)地研究了局部截?cái)嗾`差(LTE),發(fā)現(xiàn)現(xiàn)有的精確反演采樣器的 LTE 并非最優(yōu)。

因此,研究團(tuán)隊(duì)通過 LTE 最小化方法提出了最優(yōu)的 BELM(Optimal-BELM,O-BELM)采樣器。實(shí)驗(yàn)表明,O-BELM 采樣器在實(shí)現(xiàn)精確反演的同時(shí),也提升了采樣的質(zhì)量。

8f62c698-9f6e-11ef-93f3-92fbcf53809c.png

論文題目:BELM: Bidirectional Explicit Linear Multi-step Sampler for Exact Inversion in Diffusion Models

論文鏈接:

https://arxiv.org/abs/2410.07273

項(xiàng)目鏈接:

https://github.com/zituitui/BELM

背景:DDIM反演造成的不一致問題 由于 DDIM 的正向過程和反演過程使用的迭代式并不相同,所以 DDIM 的反演重構(gòu)樣本與初始的樣本存在較大差別。 實(shí)際使用中,DDIM 的反演有顯著的不一致問題:

8f919b1c-9f6e-11ef-93f3-92fbcf53809c.png

8faf777c-9f6e-11ef-93f3-92fbcf53809c.png

現(xiàn)有精確反演方法

Null-text-inversion 以 Null-tex-inversion 為代表的方法對(duì) unconditional占位符進(jìn)行 fine-tune,以達(dá)到精確反演。 問題:這類方法局限于 text-classifier-free-guidance 場景下的擴(kuò)散模型;需要額外訓(xùn)練,低效。

8fda2c60-9f6e-11ef-93f3-92fbcf53809c.png

EDICT EDICT 是基于 DDIM 的啟發(fā)式算法,借鑒了可逆網(wǎng)絡(luò)的做法,有兩個(gè)相互糅合的采樣鏈。

9003bfee-9f6e-11ef-93f3-92fbcf53809c.png

其逆過程如下,精確可逆:

90200b2c-9f6e-11ef-93f3-92fbcf53809c.png

問題:需要兩倍計(jì)算量;超參數(shù) p 不魯棒,導(dǎo)致采樣質(zhì)量不可控。 BDIA BDIA 改進(jìn)了 EDICT,使用 x_i 的速度,x_i 和 x_{i+1} 的位置,通過下述公式實(shí)現(xiàn)精確可逆:

90445464-9f6e-11ef-93f3-92fbcf53809c.png

問題:超參數(shù) gamma 不魯棒,導(dǎo)致采樣質(zhì)量不佳。 EDICT 和 BDIA 參數(shù)的不魯棒: EDICT 和 BDIA 超參數(shù)的意義不明,沒有理論指導(dǎo)如何調(diào)整,導(dǎo)致不同情形下超參數(shù)的選擇差別巨大。使用起來極為不便。

9050124a-9f6e-11ef-93f3-92fbcf53809c.png

906219e0-9f6e-11ef-93f3-92fbcf53809c.png

雙向顯式線性多步法(BELM)框架思路起源:DDIM 的正向過程(由藍(lán)線表示)與反演過程(由紅線表示)是兩種不同的關(guān)系,這導(dǎo)致了 DDIM 的反演不準(zhǔn)確。如果強(qiáng)制正過程與反過程使用相同關(guān)系,又會(huì)引入隱式方法,大大增加計(jì)算復(fù)雜度。如果多引入一個(gè)點(diǎn),不用隱式方法也可逆(由綠線表示)。

9093515e-9f6e-11ef-93f3-92fbcf53809c.png

該論文中的算法,正向和反演過程都服從相同的關(guān)系,因此能夠精確反演。具體來說,為了系統(tǒng)地設(shè)計(jì)這種采樣器,首先要將擴(kuò)散模型的采樣過程建模為一個(gè) IVP(Initial Value Problem,初值問題):

90b48270-9f6e-11ef-93f3-92fbcf53809c.png

以下是IVP的一般形式,這實(shí)際上是一個(gè)變步長變公式線性多步方法(VSVFM):

90ccb156-9f6e-11ef-93f3-92fbcf53809c.png

為了避免隱式方法的復(fù)雜計(jì)算,上式需要在正向和反向都是顯式的,該團(tuán)隊(duì)稱這一性質(zhì)為雙向顯性(bidirectional explicit)。

90de49f2-9f6e-11ef-93f3-92fbcf53809c.png

代入雙向顯性條件,可以得到一般的 k 步 BELM 采樣器:

910a60aa-9f6e-11ef-93f3-92fbcf53809c.png

最簡單的形式是 k=2,稱為 2-BELM,其表達(dá)式如下:

911c90a4-9f6e-11ef-93f3-92fbcf53809c.png

據(jù)此很容易證明,一個(gè)滿足雙向顯性性質(zhì)的線性多步法采樣器擁有精確反演性質(zhì):

9130e2fc-9f6e-11ef-93f3-92fbcf53809c.png

研究團(tuán)隊(duì)還發(fā)現(xiàn),前文提到的 EDICT 和 BDIA 都是 BELM 框架的特例:

9138d2be-9f6e-11ef-93f3-92fbcf53809c.png

這也解釋了 EDICT 和 BDIA 能夠精確反演的原因。

最優(yōu)雙向顯式線性多步(O-BELM)采樣器研究團(tuán)隊(duì)在推導(dǎo) BELM 框架暫時(shí)沒有給出具體的系數(shù)選擇,而啟發(fā)式的系數(shù)選擇(如 EDICT 和 BDIA)會(huì)造成采樣質(zhì)量的退化。因此,他們提出使用局部截?cái)嗾`差(LTE)來獲取最優(yōu)系數(shù)。 首先分析 BELM 的局部截?cái)嗾`差:

916819f2-9f6e-11ef-93f3-92fbcf53809c.png

通過對(duì)局部截?cái)嗾`差的最小化,我們得到了最優(yōu)的 BELM 系數(shù),我們稱此系數(shù)下的 BELM 采樣器為最優(yōu) BELM(O-BELM):

918af8e6-9f6e-11ef-93f3-92fbcf53809c.png

O-BELM 的正向過程表達(dá)式如下:

91978b42-9f6e-11ef-93f3-92fbcf53809c.png

O-BELM 的反演過程表達(dá)式如下:

91aa9444-9f6e-11ef-93f3-92fbcf53809c.png

此外,研究團(tuán)隊(duì)還證明了 O-BELM 滿足穩(wěn)定性和全局收斂性:

91b40268-9f6e-11ef-93f3-92fbcf53809c.png

至此,可以對(duì)比幾種不同反演采樣器的性質(zhì):

91defc8e-9f6e-11ef-93f3-92fbcf53809c.png

可見,O-BELM 是第一種在嚴(yán)格的理論保證下兼顧精確反演性質(zhì)和采樣質(zhì)量的采樣器。

實(shí)驗(yàn)重建實(shí)驗(yàn)(驗(yàn)證O-BELM精確反演性質(zhì)) latent 空間上的 O-BELM 的重建誤差為 0,這表明 O-BELM 具有精確反演的性質(zhì):

921017a6-9f6e-11ef-93f3-92fbcf53809c.png

9216815e-9f6e-11ef-93f3-92fbcf53809c.png

采樣實(shí)驗(yàn)(驗(yàn)證O-BELM的高質(zhì)量采樣性質(zhì))

不論在無條件生成還是條件生成中,O-BELM 都表現(xiàn)出了高于 DDIM,EDICT 和 BDIA 的采樣質(zhì)量:

924a1032-9f6e-11ef-93f3-92fbcf53809c.png

下游任務(wù) —— 圖像編輯

圖像編輯實(shí)驗(yàn)體現(xiàn)了:

1. 由于 DDIM 不具有精確反演性質(zhì),編輯的結(jié)果中存在不一致問題(紅色框);

2. 由于 EDICT 和 BDIA 具有較大的采樣誤差,編輯的結(jié)果出現(xiàn)了不真實(shí)區(qū)域(黃色框);

3.O-BELM 在保持圖像一致的條件下完成了高質(zhì)量的編輯。

9272ccb6-9f6e-11ef-93f3-92fbcf53809c.png

9281dfa8-9f6e-11ef-93f3-92fbcf53809c.png

由于 O-BELM 是一個(gè)采樣方法,因此可以無縫地與 controlNet 結(jié)合,編輯效果也優(yōu)于其他方法:

92918cf0-9f6e-11ef-93f3-92fbcf53809c.png

下游任務(wù) —— 圖像插值 由于 O-BELM 精確地建立了噪聲和生成樣本的對(duì)應(yīng)關(guān)系,這個(gè)關(guān)系是 probability flow ODE 的近似,因此 O-BELM 也使得圖像插值更符合人的直覺:

92b9fe6a-9f6e-11ef-93f3-92fbcf53809c.png

結(jié)語 本研究提出的雙向顯式線性多步法采樣器從理論上分析并徹底解決了現(xiàn)有擴(kuò)散生成模型中的反演問題,進(jìn)一步拓寬了擴(kuò)散模型在計(jì)算機(jī)視覺領(lǐng)域的能力邊界。在圖像和視頻的編輯任務(wù)上有巨大的應(yīng)用前景。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4673

    瀏覽量

    94189
  • 采樣器
    +關(guān)注

    關(guān)注

    0

    文章

    34

    瀏覽量

    2593

原文標(biāo)題:NeurIPS 2024 | 浙大、微信提出精確反演采樣器新范式,徹底解決擴(kuò)散模型反演問題

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 0人收藏

    評(píng)論

    相關(guān)推薦

    用騰訊ima和Deepseek建立個(gè)人知識(shí)庫

    騰訊AI圖書館來了,是時(shí)候升級(jí)英飛凌工業(yè)半導(dǎo)體的《圖書館》啦。(對(duì)于工程師零難度)近日騰訊推出了AI智能工作臺(tái)ima.copilot,本人親測,可以在平臺(tái)上建立方便實(shí)用的私人圖
    的頭像 發(fā)表于 02-25 17:33 ?979次閱讀
    用騰訊ima和Deepseek建立個(gè)人<b class='flag-5'>微</b><b class='flag-5'>信</b>知識(shí)庫

    中國電提出模型推理加速新范式Falcon

    近日,中國電信翼支付針對(duì)大模型推理加速的最新研究成果《Falcon: Faster and Parallel Inference of Large Language Models through
    的頭像 發(fā)表于 01-15 13:49 ?316次閱讀
    中國電<b class='flag-5'>提出</b>大<b class='flag-5'>模型</b>推理加速新<b class='flag-5'>范式</b>Falcon

    通過透鏡陣列的傳播

    隨著現(xiàn)代技術(shù)的發(fā)展,透鏡陣列等專用光學(xué)元件越來越受到人們的重視。特別是在光學(xué)投影系統(tǒng)、材料加工單元、光學(xué)擴(kuò)散器等領(lǐng)域,透鏡陣列得到了廣泛的應(yīng)用。在VirtualLab Fusion中,可以
    發(fā)表于 01-08 08:49

    VirtualLab Fusion應(yīng)用:衍射光束擴(kuò)散器產(chǎn)生LightTrans標(biāo)識(shí)的設(shè)計(jì)與分析

    LightTrans標(biāo)志。 結(jié)果預(yù)覽 光束和圖案條件→設(shè)計(jì)目標(biāo)圖案(DTP) 光束:尺寸評(píng)估 圖案:導(dǎo)入、準(zhǔn)備、預(yù)變形、采樣考慮 15m處的光斑尺寸 擴(kuò)散器元件以創(chuàng)建所需圖案的方式偏轉(zhuǎn)入射光束。分辨率由單個(gè)光束點(diǎn)
    發(fā)表于 01-04 08:47

    基于移動(dòng)自回歸的時(shí)序擴(kuò)散預(yù)測模型

    在人工智能領(lǐng)域,目前有很多工作采用自回歸方法來模擬或是替代擴(kuò)散模型,其中視覺自回歸建模(Visual AutoRegressive modeling,簡稱 VAR)就是其中的典型代表,該工作利用自
    的頭像 發(fā)表于 01-03 14:05 ?414次閱讀
    基于移動(dòng)自回歸的時(shí)序<b class='flag-5'>擴(kuò)散</b>預(yù)測<b class='flag-5'>模型</b>

    通過透鏡陣列的傳播

    隨著現(xiàn)代技術(shù)的發(fā)展,透鏡陣列等專用光學(xué)元件越來越受到人們的重視。特別是在光學(xué)投影系統(tǒng)、材料加工單元、光學(xué)擴(kuò)散器等領(lǐng)域,透鏡陣列得到了廣泛的應(yīng)用。在VirtualLab Fusion中,可以
    發(fā)表于 12-11 11:32

    擴(kuò)散模型的理論基礎(chǔ)

    擴(kuò)散模型的迅速崛起是過去幾年機(jī)器學(xué)習(xí)領(lǐng)域最大的發(fā)展之一。在這本簡單易懂的指南中,學(xué)習(xí)你需要知道的關(guān)于擴(kuò)散模型的一切。
    的頭像 發(fā)表于 10-28 09:30 ?1055次閱讀
    <b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>的理論基礎(chǔ)

    如何使用TPS61390 Boost轉(zhuǎn)換對(duì)小APD電流進(jìn)行精確采樣

    電子發(fā)燒友網(wǎng)站提供《如何使用TPS61390 Boost轉(zhuǎn)換對(duì)小APD電流進(jìn)行精確采樣.pdf》資料免費(fèi)下載
    發(fā)表于 09-25 11:50 ?1次下載
    如何使用TPS61390 Boost轉(zhuǎn)換<b class='flag-5'>器</b>對(duì)小APD電流進(jìn)行<b class='flag-5'>精確</b><b class='flag-5'>采樣</b>

    ADS8472功耗采樣模數(shù)轉(zhuǎn)換數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《ADS8472功耗采樣模數(shù)轉(zhuǎn)換數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 07-27 11:48 ?0次下載
    ADS8472<b class='flag-5'>微</b>功耗<b class='flag-5'>采樣</b>模數(shù)轉(zhuǎn)換<b class='flag-5'>器</b>數(shù)據(jù)表

    ADS8382功耗采樣模數(shù)轉(zhuǎn)換數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《ADS8382功耗采樣模數(shù)轉(zhuǎn)換數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 07-15 09:36 ?0次下載
    ADS8382<b class='flag-5'>微</b>功耗<b class='flag-5'>采樣</b>模數(shù)轉(zhuǎn)換<b class='flag-5'>器</b>數(shù)據(jù)表

    人臉檢測模型精確度怎么算

    人臉檢測模型精確度評(píng)估是一個(gè)復(fù)雜的過程,涉及到多個(gè)方面的因素。本文將從以下幾個(gè)方面進(jìn)行介紹:人臉檢測模型的基本概念、評(píng)估指標(biāo)、評(píng)估方法、影響因素以及提高精確度的策略。 人臉檢測
    的頭像 發(fā)表于 07-04 09:14 ?837次閱讀

    MEMS諧振傳感范式:熱噪聲驅(qū)動(dòng)的傳感的可行性與動(dòng)態(tài)檢測性能

    resonant sensors”的研究論文,提出了一種新的納諧振傳感范式——熱噪聲驅(qū)動(dòng)的諧振傳感, 構(gòu)建了該
    的頭像 發(fā)表于 06-29 10:57 ?1.1w次閱讀
    MEMS諧振傳感<b class='flag-5'>器</b>新<b class='flag-5'>范式</b>:熱噪聲驅(qū)動(dòng)的傳感<b class='flag-5'>器</b>的可行性與動(dòng)態(tài)檢測性能

    浙大博導(dǎo)開源飛控planner源碼

    浙大博導(dǎo)開源飛控planner源碼
    發(fā)表于 06-12 11:43 ?5次下載

    谷歌推出新模型提升天氣預(yù)報(bào)準(zhǔn)確性

    谷歌公司在天氣預(yù)報(bào)領(lǐng)域邁出了重要一步,宣布推出名為“可擴(kuò)展集成包絡(luò)擴(kuò)散采樣器”(SEEDS)的新型AI模型。這一生成式人工智能模型旨在提供更加精準(zhǔn)的天氣預(yù)報(bào)服務(wù),為人們的生活和出行提供
    的頭像 發(fā)表于 05-06 11:31 ?703次閱讀

    基于歸結(jié)反演的大語言模型邏輯推斷系統(tǒng)

    受邏輯符號(hào)領(lǐng)域的邏輯推理方法的啟發(fā),我們引入了一個(gè)在一階邏輯下完備的邏輯推理范式歸結(jié)反演(其推理過程不會(huì)受到條件1的約束)來提高完備性,并提出一個(gè)新的推理框架GFaiR。
    發(fā)表于 04-28 18:00 ?561次閱讀
    基于歸結(jié)<b class='flag-5'>反演</b>的大語言<b class='flag-5'>模型</b>邏輯推斷系統(tǒng)

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品
    主站蜘蛛池模板: 久久国产精品99久久久久久牛牛 | 清纯唯美亚洲综合欧美色 | 国产成人mv在线观看入口视频 | 日韩亚洲人成在线综合 | 成人精品人成网站 | 天天综合天天干 | 成人二区 | 欧美日韩一区不卡 | 中文字幕一区二区三区永久 | 一级特黄aaa大片29 | 亚洲成在人线久久综合 | 51影院在线观看成人免费 | 国内自拍 亚洲系列 欧美系列 | 色综合欧美 | ww欧洲ww在线视频看ww | 你懂的在线免费观看 | 美女黄网站人色视频免费国产 | 狠狠色噜噜狠狠狠狠狠色综合久久 | 色妞综合| 色天天天天综合男人的天堂 | 在线 你懂的 | 日韩精品在线一区二区 | 在线最新版www资源网 | 爱逼综合| 日本欧洲亚洲一区在线观看 | 亚洲九九香蕉 | 波多野结衣在线免费视频 | 欧美在线播放 | 456影院第一 | 成人xx视频免费观看 | yy8090韩国日本三理论免费 | 岛国大片在线播放 | 视频在线观看免费视频 | 黄色伊人网 | 精品三级内地国产在线观看 | 一区二区三区电影 | 免费视频h | 亚洲日本一区二区三区在线不卡 | 天天色图| 天天综合网在线 | 青青伊人91久久福利精品 |