在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

新晉圖像生成王者擴散模型

OpenCV學堂 ? 來源:StyleGAN ? 作者:StyleGAN ? 2022-06-06 10:54 ? 次閱讀

新晉圖像生成王者擴散模型,剛剛誕生沒多久。

有關它的理論和實踐都還在“野蠻生長”。

來自英偉達StyleGAN的原班作者們站了出來,嘗試給出了一些設計擴散模型的竅門和準則,結果模型的質量和效率都有所改進,比如將現有ImageNet-64模型的FID分數從2.07提高到接近SOTA的1.55分。

c89fd514-e4df-11ec-ba43-dac502259ad0.png

他們這一工作成果迅速得到了業界大佬的認同。

DeepMind研究員就稱贊道:這篇論文簡直就是訓練擴散模型的人必看,妥妥的一座金礦。

c8eb9008-e4df-11ec-ba43-dac502259ad0.png

三大貢獻顯著提高模型質量和效率

我們從以下幾個方面來看StyleGAN作者們對擴散模型所做的三大貢獻:

用通用框架表示擴散模型

在這部分,作者的貢獻主要為從實踐的角度觀察模型背后的理論,重點關注出現在訓練和采樣階段的“有形”對象和算法,更好地了解了組件是如何連接在一起的,以及它們在整個系統的設計中可以使用的自由度(degrees of freedom)。

精華就是下面這張表:

c9384056-e4df-11ec-ba43-dac502259ad0.png

該表給出了在他們的框架中復現三種模型的確定變體的公式。

(這三種方法(VP、VE、iDDPM+ DDIM)不僅被廣泛使用且實現了SOTA性能,還來自不同的理論基礎。)

這些公式讓組件之間原則上沒有隱含的依賴關系,在合理范圍內選擇任意單個公示都可以得出一個功能模型。

隨機采樣和確定性采樣的改進

作者的第二組貢獻涉及擴散模型合成圖像的采樣過程。

他們確定了最佳的時間離散化(time discretization),對采樣過程應用了更高階的Runge–Kutta方法,并在三個預訓練模型上評估不同的方法,分析了隨機性在采樣過程中的有用性。

結果在合成過程中所需的采樣步驟數量顯著減少,改進的采樣器可以用作幾個廣泛使用的擴散模型的直接替代品。

先看確定性采樣。用到的三個測試模型還是上面的那三個,來自不同的理論框架和模型族。

作者首先使用原始的采樣器(sampler)實現測量這些模型的基線結果,然后使用表1中的公式將這些采樣方法引入他們的統一框架,再進行改進。

接著根據在50000張生成圖像和所有可用真實圖像之間計算的FID分數來評估質量。

c9765d6e-e4df-11ec-ba43-dac502259ad0.png

可以看到,原始的的確定性采樣器以藍色顯示,在他們的統一框架(橙色)中重新實現這些方法會產生類似或更好的結果。

作者解釋,這些差異是由于原始實現中的某些疏忽,加上作者對離散噪聲級的處理更仔細造成的。

確定性采樣好處雖然多,但與每一步都向圖像中注入新噪聲的隨機采樣相比,它輸出的圖像質量確實更差。

不過作者很好奇,假設ODE(常微分方程)和SDE(隨機微分方程)在理論上恢復相同的分布,隨機性的作用到底是什么?

在此他們提出了一種新的隨機采樣器,它將現有的高階ODE積分器與添加和去除噪聲的顯式“Langevin-like ‘churn’”相結合。

最終模型性能提升顯著,而且僅通過對采樣器的改進,就能夠讓ImageNet-64模型原來的FID分數從2.07提高到1.55,接近SOTA水平。

c9a2bbd4-e4df-11ec-ba43-dac502259ad0.png

預處理和訓練

作者的第三組貢獻主要為分數建模(score-modeling)神經網絡的訓練。

這部分繼續依賴常用的網絡體系結構(DDPM、NCSN),作者通過對擴散模型設置中網絡的輸入、輸出和損失函數的預處理進行了原則性分析,得出了改進訓練動態的最佳實踐。

比如使用依賴于σ(noise level)的跳躍連接對神經網絡進行預處理,使其能夠估計y(signal)或n(noise),或介于兩者之間的東西。

下表具體展示了模型彩英不同訓練配置得到的FID分數。

c9fe22bc-e4df-11ec-ba43-dac502259ad0.png

作者從基線訓練配置開始,使用確定性采樣器(稱為配置A),重新調整了基本超參數(配置B),并通過移除最低分辨率層,并將最高分辨率層的容量加倍來提高模型的表達能力(配置C)。

然后用預處理(配置D)替換原來的{cin,cout,cnoise,cskip}選項。這使結果基本保持不變,但VE在64×64分辨率下有很大改善。該預處理方法的主要好處不是改善FID本身,而是使訓練更加穩健,從而將重點轉向重新設計損失函數又不會產生不利影響。

VP和VE只在Fθ的架構上有所不同(配置E和F)。

除此之外,作者還建議改進訓練期間的噪聲級分布,并發現通常與GANs一起使用的無泄漏風險增強(non-leaking augmentation)操作也有利于擴散模型。

比如從上表中,我們可以看到:有條件和無條件CIFAR-10的最新FID分別達到了1.79和1.97,打破了之前的記錄(1.85和2.1046)。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4624

    瀏覽量

    93118
  • 模型
    +關注

    關注

    1

    文章

    3279

    瀏覽量

    48974

原文標題:DeepMind谷歌研究員力薦:擴散模型效率&生成質量提升竅門,來自StyleGAN原作者

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于移動自回歸的時序擴散預測模型

    回歸取得了比傳統基于噪聲的擴散模型更好的生成效果,并且獲得了人工智能頂級會議 NeurIPS 2024 的 best paper。 然而在時間序列預測領域,當前主流的擴散方法還是傳統的
    的頭像 發表于 01-03 14:05 ?148次閱讀
    基于移動自回歸的時序<b class='flag-5'>擴散</b>預測<b class='flag-5'>模型</b>

    借助谷歌Gemini和Imagen模型生成高質量圖像

    在快速發展的生成式 AI 領域,結合不同模型的優勢可以帶來顯著的成果。通過利用谷歌的 Gemini 模型來制作詳細且富有創意的提示,然后使用 Imagen 3 模型根據這些提示
    的頭像 發表于 01-03 10:38 ?371次閱讀
    借助谷歌Gemini和Imagen<b class='flag-5'>模型</b><b class='flag-5'>生成</b>高質量<b class='flag-5'>圖像</b>

    浙大、微信提出精確反演采樣器新范式,徹底解決擴散模型反演問題

    隨著擴散生成模型的發展,人工智能步入了屬于?AIGC?的新紀元。擴散生成模型可以對初始高斯噪聲進
    的頭像 發表于 11-27 09:21 ?210次閱讀
    浙大、微信提出精確反演采樣器新范式,徹底解決<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>反演問題

    擴散模型的理論基礎

    擴散模型的迅速崛起是過去幾年機器學習領域最大的發展之一。在這本簡單易懂的指南中,學習你需要知道的關于擴散模型的一切。
    的頭像 發表于 10-28 09:30 ?602次閱讀
    <b class='flag-5'>擴散</b><b class='flag-5'>模型</b>的理論基礎

    Meta發布Imagine Yourself AI模型,重塑個性化圖像生成未來

    Meta公司近日在人工智能領域邁出了重要一步,隆重推出了其創新之作——“Imagine Yourself”AI模型,這一突破性技術為個性化圖像生成領域帶來了前所未有的變革。在社交媒體與虛擬現實技術
    的頭像 發表于 08-26 10:59 ?546次閱讀

    如何用C++創建簡單的生成式AI模型

    生成式AI(Generative AI)是一種人工智能技術,它通過機器學習模型和深度學習技術,從大量歷史數據中學習對象的特征和規律,從而能夠生成全新的、完全原創的內容,包括文本、圖像
    的頭像 發表于 07-05 17:53 ?936次閱讀

    Runway發布Gen-3 Alpha視頻生成模型

    專為電影和圖像內容創作者提供生成式AI工具的Runway公司近日宣布,其最新的Gen-3 Alpha視頻生成模型已經正式問世。這款模型在多方
    的頭像 發表于 06-19 09:25 ?598次閱讀

    南開大學和字節跳動聯合開發一款StoryDiffusion模型

    近日,南開大學和字節跳動聯合開發的 StoryDiffusion 模型解決了擴散模型生成連貫圖像與視頻的難題。
    的頭像 發表于 05-07 14:46 ?1301次閱讀

    KOALA人工智能圖像生成模型問世

    近日,韓國科學團隊宣布研發出名為 KOALA 的新型人工智能圖像生成模型,該模型在速度和質量上均實現了顯著突破。KOALA 能夠在短短 2 秒內生成
    的頭像 發表于 03-05 10:46 ?814次閱讀

    韓國科研團隊發布新型AI圖像生成模型KOALA,大幅優化硬件需求

    由此模型的核心在于其運用了“知識蒸餾”(knowledge distillation)技術,這使得開源圖像生成工具Stable Diffusion XL可大幅縮小其規模。原Stable Diffusion XL擁有25.6億個參
    的頭像 發表于 03-01 14:10 ?663次閱讀

    谷歌Gemini AI模型因人物圖像生成問題暫停運行

    據報道,部分用戶發現Gemini生成的圖片存在明顯錯誤,如特斯拉創始人和其他名人變成了黑人模樣。谷歌已決定暫停該模型的人物圖像生成功能以待改善。
    的頭像 發表于 02-25 09:59 ?612次閱讀

    Stability AI試圖通過新的圖像生成人工智能模型保持領先地位

    Stability AI的最新圖像生成模型Stable Cascade承諾比其業界領先的前身Stable Diffusion更快、更強大,而Stable Diffusion是許多其他文本到圖像
    的頭像 發表于 02-19 16:03 ?969次閱讀
    Stability AI試圖通過新的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>人工智能<b class='flag-5'>模型</b>保持領先地位

    谷歌推出AI擴散模型Lumiere

    近日,谷歌研究院重磅推出全新AI擴散模型Lumiere,這款模型基于谷歌自主研發的“Space-Time U-Net”基礎架構,旨在實現視頻生成的一次性完成,同時保證視頻的真實性和動作
    的頭像 發表于 02-04 13:49 ?1067次閱讀

    Adobe提出DMV3D:3D生成只需30秒!讓文本、圖像都動起來的新方法!

    因此,本文研究者的目標是實現快速、逼真和通用的 3D 生成。為此,他們提出了 DMV3D。DMV3D 是一種全新的單階段的全類別擴散模型,能直接根據模型文字或單張圖片的輸入,
    的頭像 發表于 01-30 16:20 ?897次閱讀
    Adobe提出DMV3D:3D<b class='flag-5'>生成</b>只需30秒!讓文本、<b class='flag-5'>圖像</b>都動起來的新方法!

    谷歌推出能一次生成完整視頻的擴散模型

    該公司指出,當前眾多文生視頻模型普遍存在無法生成長時、高品質及動作連貫的問題。這些模型往往采用“分段生成視頻”策略,即先生成少量關鍵幀,再借
    的頭像 發表于 01-29 11:14 ?563次閱讀
    主站蜘蛛池模板: 国产伦精品一区二区三区免| 国产福利影视| 婷婷色九月综合激情丁香| 国产精品久久精品牛牛影视| 久久美女免费视频| 生活片一级性| 亚洲午夜顶级嘿嘿嘿影院| xxxx69日本| 视频二区中文字幕| 资源种子在线观看| 亚洲一区二区三区四区在线| 特大一级aaaaa毛片| 免费在线观看的网站| 狠狠干2015| 婷婷视频网站| 夜夜骑首页| 五月天狠狠| 久久精品久久久久| 国产操女人| 黄色大片在线视频| 久久精品免费在线观看| 又粗又大的机巴好爽欧美| 欧美黑人性受xxxx精品| 2020天天干| 中国性猛交xxxx乱大交| 亚洲网站免费观看| 在线观看国产久青草| 在线播放你懂得| 色 在线播放| 人人爱爱人人| 欧美成人xxxx| 成年免费大片黄在线观看免费| 午夜视频免费| 1024国产手机视频基地| 国产亚洲欧美一区| 91视频-88av| 被男同桌摸内裤好爽视频| 五月亭亭六月丁香| 巨尻在线观看| 国产拍拍视频| 1314亚洲人成网站在线观看|