小说阅读网免费小说,盗墓笔记第二季,有声读物

新晉圖像生成王者擴散模型，剛剛誕生沒多久。

有關它的理論和實踐都還在“野蠻生長”。

來自英偉達StyleGAN的原班作者們站了出來，嘗試給出了一些設計擴散模型的竅門和準則，結果模型的質量和效率都有所改進，比如將現有ImageNet-64模型的FID分數從2.07提高到接近SOTA的1.55分。

他們這一工作成果迅速得到了業界大佬的認同。

DeepMind研究員就稱贊道：這篇論文簡直就是訓練擴散模型的人必看，妥妥的一座金礦。

三大貢獻顯著提高模型質量和效率

我們從以下幾個方面來看StyleGAN作者們對擴散模型所做的三大貢獻：

用通用框架表示擴散模型

在這部分，作者的貢獻主要為從實踐的角度觀察模型背后的理論，重點關注出現在訓練和采樣階段的“有形”對象和算法，更好地了解了組件是如何連接在一起的，以及它們在整個系統的設計中可以使用的自由度（degrees of freedom）。

精華就是下面這張表：

該表給出了在他們的框架中復現三種模型的確定變體的公式。

（這三種方法（VP、VE、iDDPM+ DDIM）不僅被廣泛使用且實現了SOTA性能，還來自不同的理論基礎。）

這些公式讓組件之間原則上沒有隱含的依賴關系，在合理范圍內選擇任意單個公示都可以得出一個功能模型。

隨機采樣和確定性采樣的改進

作者的第二組貢獻涉及擴散模型合成圖像的采樣過程。

他們確定了最佳的時間離散化（time discretization），對采樣過程應用了更高階的Runge–Kutta方法，并在三個預訓練模型上評估不同的方法，分析了隨機性在采樣過程中的有用性。

結果在合成過程中所需的采樣步驟數量顯著減少，改進的采樣器可以用作幾個廣泛使用的擴散模型的直接替代品。

先看確定性采樣。用到的三個測試模型還是上面的那三個，來自不同的理論框架和模型族。

作者首先使用原始的采樣器（sampler）實現測量這些模型的基線結果，然后使用表1中的公式將這些采樣方法引入他們的統一框架，再進行改進。

接著根據在50000張生成圖像和所有可用真實圖像之間計算的FID分數來評估質量。

可以看到，原始的的確定性采樣器以藍色顯示，在他們的統一框架（橙色）中重新實現這些方法會產生類似或更好的結果。

作者解釋，這些差異是由于原始實現中的某些疏忽，加上作者對離散噪聲級的處理更仔細造成的。

確定性采樣好處雖然多，但與每一步都向圖像中注入新噪聲的隨機采樣相比，它輸出的圖像質量確實更差。

不過作者很好奇，假設ODE（常微分方程）和SDE（隨機微分方程）在理論上恢復相同的分布，隨機性的作用到底是什么？

在此他們提出了一種新的隨機采樣器，它將現有的高階ODE積分器與添加和去除噪聲的顯式“Langevin-like ‘churn’”相結合。

最終模型性能提升顯著，而且僅通過對采樣器的改進，就能夠讓ImageNet-64模型原來的FID分數從2.07提高到1.55，接近SOTA水平。

預處理和訓練

作者的第三組貢獻主要為分數建模（score-modeling）神經網絡的訓練。

這部分繼續依賴常用的網絡體系結構（DDPM、NCSN），作者通過對擴散模型設置中網絡的輸入、輸出和損失函數的預處理進行了原則性分析，得出了改進訓練動態的最佳實踐。

比如使用依賴于σ（noise level）的跳躍連接對神經網絡進行預處理，使其能夠估計y（signal）或n（noise），或介于兩者之間的東西。

下表具體展示了模型彩英不同訓練配置得到的FID分數。

作者從基線訓練配置開始，使用確定性采樣器（稱為配置A），重新調整了基本超參數（配置B），并通過移除最低分辨率層，并將最高分辨率層的容量加倍來提高模型的表達能力（配置C）。

然后用預處理（配置D）替換原來的{cin，cout，cnoise，cskip}選項。這使結果基本保持不變，但VE在64×64分辨率下有很大改善。該預處理方法的主要好處不是改善FID本身，而是使訓練更加穩健，從而將重點轉向重新設計損失函數又不會產生不利影響。

VP和VE只在Fθ的架構上有所不同（配置E和F）。

除此之外，作者還建議改進訓練期間的噪聲級分布，并發現通常與GANs一起使用的無泄漏風險增強（non-leaking augmentation）操作也有利于擴散模型。

比如從上表中，我們可以看到：有條件和無條件CIFAR-10的最新FID分別達到了1.79和1.97，打破了之前的記錄（1.85和2.1046）。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

算法

算法

+關注

關注
23

文章
4624

瀏覽量
93118
模型

模型

+關注

關注
1

文章
3279

瀏覽量
48974

原文標題：DeepMind谷歌研究員力薦：擴散模型效率&生成質量提升竅門，來自StyleGAN原作者

文章出處：【微信號：CVSCHOOL，微信公眾號：OpenCV學堂】歡迎添加關注！文章轉載請注明出處。

基于移動自回歸的時序擴散預測模型

回歸取得了比傳統基于噪聲的擴散模型更好的生成效果，并且獲得了人工智能頂級會議 NeurIPS 2024 的 best paper。然而在時間序列預測領域，當前主流的擴散方法還是傳統的

發表于 01-03 14:05 ?148次閱讀

基于移動自回歸的時序<b class='flag-5'>擴散</b>預測<b class='flag-5'>模型</b>

借助谷歌Gemini和Imagen模型生成高質量圖像

在快速發展的生成式 AI 領域，結合不同模型的優勢可以帶來顯著的成果。通過利用谷歌的 Gemini 模型來制作詳細且富有創意的提示，然后使用 Imagen 3 模型根據這些提示

發表于 01-03 10:38 ?371次閱讀

借助谷歌Gemini和Imagen<b class='flag-5'>模型</b><b class='flag-5'>生成</b>高質量<b class='flag-5'>圖像</b>

浙大、微信提出精確反演采樣器新范式，徹底解決擴散模型反演問題

隨著擴散生成模型的發展，人工智能步入了屬于?AIGC?的新紀元。擴散生成模型可以對初始高斯噪聲進

發表于 11-27 09:21 ?210次閱讀

浙大、微信提出精確反演采樣器新范式，徹底解決<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>反演問題

擴散模型的理論基礎

擴散模型的迅速崛起是過去幾年機器學習領域最大的發展之一。在這本簡單易懂的指南中，學習你需要知道的關于擴散模型的一切。

發表于 10-28 09:30 ?602次閱讀

<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>的理論基礎

Meta發布Imagine Yourself AI模型，重塑個性化圖像生成未來

Meta公司近日在人工智能領域邁出了重要一步，隆重推出了其創新之作——“Imagine Yourself”AI模型，這一突破性技術為個性化圖像生成領域帶來了前所未有的變革。在社交媒體與虛擬現實技術

發表于 08-26 10:59 ?546次閱讀

如何用C++創建簡單的生成式AI模型

生成式AI（Generative AI）是一種人工智能技術，它通過機器學習模型和深度學習技術，從大量歷史數據中學習對象的特征和規律，從而能夠生成全新的、完全原創的內容，包括文本、圖像、

發表于 07-05 17:53 ?936次閱讀

Runway發布Gen-3 Alpha視頻生成模型

專為電影和圖像內容創作者提供生成式AI工具的Runway公司近日宣布，其最新的Gen-3 Alpha視頻生成模型已經正式問世。這款模型在多方

發表于 06-19 09:25 ?598次閱讀

南開大學和字節跳動聯合開發一款StoryDiffusion模型

近日，南開大學和字節跳動聯合開發的 StoryDiffusion 模型解決了擴散模型生成連貫圖像與視頻的難題。

發表于 05-07 14:46 ?1301次閱讀

KOALA人工智能圖像生成模型問世

近日，韓國科學團隊宣布研發出名為 KOALA 的新型人工智能圖像生成模型，該模型在速度和質量上均實現了顯著突破。KOALA 能夠在短短 2 秒內生成

發表于 03-05 10:46 ?814次閱讀

韓國科研團隊發布新型AI圖像生成模型KOALA，大幅優化硬件需求

由此模型的核心在于其運用了“知識蒸餾”（knowledge distillation）技術，這使得開源圖像生成工具Stable Diffusion XL可大幅縮小其規模。原Stable Diffusion XL擁有25.6億個參

發表于 03-01 14:10 ?663次閱讀

谷歌Gemini AI模型因人物圖像生成問題暫停運行

據報道，部分用戶發現Gemini生成的圖片存在明顯錯誤，如特斯拉創始人和其他名人變成了黑人模樣。谷歌已決定暫停該模型的人物圖像生成功能以待改善。

發表于 02-25 09:59 ?612次閱讀

Stability AI試圖通過新的圖像生成人工智能模型保持領先地位

Stability AI的最新圖像生成模型Stable Cascade承諾比其業界領先的前身Stable Diffusion更快、更強大，而Stable Diffusion是許多其他文本到圖像

發表于 02-19 16:03 ?969次閱讀

谷歌推出AI擴散模型Lumiere

近日，谷歌研究院重磅推出全新AI擴散模型Lumiere，這款模型基于谷歌自主研發的“Space-Time U-Net”基礎架構，旨在實現視頻生成的一次性完成，同時保證視頻的真實性和動作

發表于 02-04 13:49 ?1067次閱讀

Adobe提出DMV3D：3D生成只需30秒！讓文本、圖像都動起來的新方法！

因此，本文研究者的目標是實現快速、逼真和通用的 3D 生成。為此，他們提出了 DMV3D。DMV3D 是一種全新的單階段的全類別擴散模型，能直接根據模型文字或單張圖片的輸入，

發表于 01-30 16:20 ?897次閱讀

谷歌推出能一次生成完整視頻的擴散模型

該公司指出，當前眾多文生視頻模型普遍存在無法生成長時、高品質及動作連貫的問題。這些模型往往采用“分段生成視頻”策略，即先生成少量關鍵幀，再借

發表于 01-29 11:14 ?563次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

新晉圖像生成王者擴散模型

評論

基于移動自回歸的時序擴散預測模型

借助谷歌Gemini和Imagen模型生成高質量圖像

浙大、微信提出精確反演采樣器新范式，徹底解決擴散模型反演問題

擴散模型的理論基礎

Meta發布Imagine Yourself AI模型，重塑個性化圖像生成未來

如何用C++創建簡單的生成式AI模型

Runway發布Gen-3 Alpha視頻生成模型

南開大學和字節跳動聯合開發一款StoryDiffusion模型

KOALA人工智能圖像生成模型問世

韓國科研團隊發布新型AI圖像生成模型KOALA，大幅優化硬件需求

谷歌Gemini AI模型因人物圖像生成問題暫停運行

Stability AI試圖通過新的圖像生成人工智能模型保持領先地位

谷歌推出AI擴散模型Lumiere

Adobe提出DMV3D：3D生成只需30秒！讓文本、圖像都動起來的新方法！

谷歌推出能一次生成完整視頻的擴散模型