在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從一個(gè)名為DDPM的模型說起

新機(jī)器視覺 ? 來源:Datawhale ? 2023-01-05 15:40 ? 次閱讀

最近爆火的AI繪圖,相信大家并不陌生了

從AI繪圖軟件生成的作品打敗一眾人類藝術(shù)家,斬獲數(shù)字藝術(shù)類冠軍,到如今DALL.E、Imagen、novelai等國(guó)內(nèi)外平臺(tái)遍地開花。也許你也曾點(diǎn)開過相關(guān)網(wǎng)站,嘗試讓AI描繪你腦海中的風(fēng)景,又或者上傳了一張自己帥氣/美美的照片,然后對(duì)著最后生成的糙漢哭笑不得。那么,在你感受AI繪圖魅力的同時(shí),有沒有想過(不你肯定想過),它背后的奧妙究竟是什么?

e2e3dc1c-8cc9-11ed-bfe3-dac502259ad0.jpg

美國(guó)科羅拉多州技術(shù)博覽會(huì)中獲得數(shù)字藝術(shù)類冠軍的作品——《太空歌劇院》

一切,都要從一個(gè)名為DDPM的模型說起…

話說DDPM

DDPM模型,全稱Denoising Diffusion Probabilistic Model,可以說是現(xiàn)階段diffusion模型的開山鼻祖。不同于前輩GAN、VAE和flow等模型,diffusion模型的整體思路是通過一種偏向于優(yōu)化的方式,逐步從一個(gè)純?cè)胍舻膱D片中生成圖像。

e2f634de-8cc9-11ed-bfe3-dac502259ad0.png

現(xiàn)在已有生成圖像模型的對(duì)比

沒有相關(guān)機(jī)器學(xué)習(xí)背景的小伙伴可能會(huì)問了,什么是純?cè)胍魣D片?

很簡(jiǎn)單,老式電視機(jī)沒信號(hào)時(shí),伴隨著"刺啦刺啦"噪音出現(xiàn)的雪花圖片,就屬于純?cè)胍魣D片。而DDPM在生成階段所做的事情,就是把這些個(gè)"雪花"一點(diǎn)點(diǎn)移除,直到清晰的圖像露出它的廬山真面目,我們把這個(gè)階段稱之為"去噪"。

e34cf5c6-8cc9-11ed-bfe3-dac502259ad0.jpg

純?cè)胍魣D片:老電視的雪花屏

通過描述,大家可以感受到,去噪其實(shí)是個(gè)相當(dāng)復(fù)雜的過程。沒有一定的去噪規(guī)律,可能你忙活了好半天,到最后還是對(duì)著奇形怪狀的圖片欲哭無淚。當(dāng)然,不同類型的圖片也會(huì)有不同的去噪規(guī)律,至于怎么讓機(jī)器學(xué)會(huì)這種規(guī)律,有人靈機(jī)一動(dòng),想到了一種絕妙的方法。

"既然去噪規(guī)律不好學(xué),那我為什么不先通過加噪的方式,先把一張圖片變成純?cè)胍魣D像,再把整個(gè)過程反著來一遍呢?"

這便奠定了diffusion模型整個(gè)訓(xùn)練-推理的流程,先在前向過程(forward process)通過逐步加噪,將圖片轉(zhuǎn)換為一個(gè)近似可用高斯分布的純?cè)胍魣D像,緊接著在反向過程(reverse process)中逐步去噪,生成圖像,最后以增大原始圖像和生成圖像的相似度作為目標(biāo),優(yōu)化模型,直至達(dá)到理想效果

e36d9bd2-8cc9-11ed-bfe3-dac502259ad0.png

DDPM的訓(xùn)練-推理流程

到這里,不知道大家的接受度怎樣?如果感覺沒問題,輕輕松的話。準(zhǔn)備好,我要開始上大招(深入理論)啦。

1.前向過程(forward process)

又稱為擴(kuò)散過程(diffusion process),整體是一個(gè)參數(shù)化的馬爾可夫鏈(Markov chain。從初始數(shù)據(jù)分布 出發(fā),每步在數(shù)據(jù)分布中添加高斯噪音,持續(xù)T次。其中從第t-1步到第t步的過程可以用高斯分布表示為:

e37db4fe-8cc9-11ed-bfe3-dac502259ad0.png

通過合適的設(shè)置,隨著t不斷增大,原始數(shù)據(jù)會(huì)逐漸失去他的特征。我們可以理解為,在進(jìn)行了無限次的加噪步驟后,最終的數(shù)據(jù)會(huì)變成沒有任何特征,完全是隨機(jī)噪音的圖片,也就是我們最開始說的"雪花屏"。

在這個(gè)過程中,每一步的變化是可以通過設(shè)置超參來控制,在我們知曉最開始的圖片是什么的前提下,前向加噪的整個(gè)過程可以說是已知且可控的,我們完全能知道每一步的生成數(shù)據(jù)是什么樣子。

但問題在于,每次的計(jì)算都需要從起始點(diǎn)出發(fā),結(jié)合每一步的過程,慢慢推導(dǎo)至你想要的某步數(shù)據(jù),過于麻煩。好在因?yàn)楦咚狗植嫉囊恍┨匦裕覀兛梢砸徊降轿唬苯訌牡玫健?/p>

e3926778-8cc9-11ed-bfe3-dac502259ad0.png

(這里的為組合系數(shù),本質(zhì)上是超參的表達(dá)式)

2.反向過程(reverse process)

和前向過程同理,反向過程也是一個(gè)馬爾可夫鏈(Markov chain)只不過這里用到的參數(shù)不同,至于具體參數(shù)是什么,這個(gè)就是我們需要機(jī)器來學(xué)習(xí)的部分啦。

在了解機(jī)器如何學(xué)習(xí)前,我們首先思考,基于某一個(gè)原始數(shù)據(jù),從第t步,精準(zhǔn)反推回第t-1步的過程應(yīng)該是怎樣的?

答案是,這個(gè)仍可以用高斯分布表示:

e39e7bbc-8cc9-11ed-bfe3-dac502259ad0.png

注意這里必須要考慮,意思是反向過程最后生成圖像還是要與原始數(shù)據(jù)有關(guān)。輸入貓的圖片,模型生成的圖像應(yīng)該是貓,輸入狗的圖片,生成的圖像也應(yīng)該和狗相關(guān)。若是去除掉,則會(huì)導(dǎo)致無論輸入哪種類型的圖片訓(xùn)練,最后diffusion生成的圖像都一樣,"貓狗不分"。

經(jīng)過一系列的推導(dǎo),我們發(fā)現(xiàn),反向過程中的參數(shù)和,竟然還是可以用,,以及參數(shù)表示出來的,是不是很神奇~

e3bbf110-8cc9-11ed-bfe3-dac502259ad0.png

當(dāng)然,機(jī)器事先并不知道這個(gè)真實(shí)的反推過程,它能做到的,只是用一個(gè)大概近似的估計(jì)分布去模擬,表示為

3.優(yōu)化目標(biāo)

在最開始我們提到,需要通過增大原始數(shù)據(jù)和反向過程最終生成數(shù)據(jù)的相似度來優(yōu)化模型。在機(jī)器學(xué)習(xí)中,我們計(jì)算該相似度參考的是交叉熵(cross entropy )

關(guān)于交叉熵,學(xué)術(shù)上給出的定義是"用于度量?jī)蓚€(gè)概率分布間的差異性信息"。換句話講,交叉熵越小,模型生成的圖片就越和原始圖片接近。但是,在大多數(shù)情況下,交叉熵是很難或者無法通過計(jì)算得出的,所以我們一般會(huì)通過優(yōu)化一個(gè)更簡(jiǎn)單的表達(dá)式,達(dá)到同樣的效果。

Diffusion模型借鑒了VAE模型的優(yōu)化思路,將variational lower boundVLB,又稱ELBO)替代cross entropy來作為最大優(yōu)化目標(biāo)。通過無數(shù)步的分解,我們最終得到:

e3d3aca6-8cc9-11ed-bfe3-dac502259ad0.png

看到這么復(fù)雜的公式,好多小伙伴肯定頭都大了。但不慌,這里需要關(guān)注的,只是中間的罷了,它表示的是和之間估計(jì)分布和真實(shí)分布的差距。差距越小,模型最后生成圖片的效果就越好。

4.上代碼

在了解完DDPM背后的原理,接下來就讓我們看看DDPM模型究竟是如何實(shí)現(xiàn)…

才怪啦。相信看到這里的你,肯定也不想遭受成百上千行代碼的洗禮。好在MindSpore已經(jīng)為大家提供了開發(fā)完備的DDPM模型,訓(xùn)練推理兩手抓,操作簡(jiǎn)單,單卡即可運(yùn)行,想要體驗(yàn)效果的小伙伴,可以先pip install denoising-diffusion-mindspore后,參考如下代碼配置參數(shù):

e3e7f706-8cc9-11ed-bfe3-dac502259ad0.png

對(duì)重要的參數(shù)進(jìn)行一些解析:

  • GaussianDiffusion
    • image_size: 圖片大小
    • timesteps: 加噪步數(shù)
    • sampling_timesteps: 采樣步數(shù),為提升推理性能,需小于加噪步數(shù)
  • Trainer
    • folder_or_dataset: 對(duì)應(yīng)圖片中的path, 可以是已下載數(shù)據(jù)集的路徑(str),也可以是已做好數(shù)據(jù)處理的VisionBaseDataset, GeneratorDataset 或 MindDataset
    • train_batch_size:batch大小
    • train_lr: 學(xué)習(xí)率
    • train_num_steps: 訓(xùn)練步數(shù)

話說MindDiffusion

DDPM只是Diffusion這個(gè)故事的開篇。目前,已有無數(shù)的研究人員被其背后瑰麗的世界所吸引,紛紛投身其中。在不斷優(yōu)化模型的同時(shí),也逐漸開發(fā)了Diffusion在各個(gè)領(lǐng)域的應(yīng)用。

其中,包括了計(jì)算機(jī)視覺領(lǐng)域的圖像優(yōu)化、inpainting、3D視覺,自然語言處理中的text-to-speech,AI for Science領(lǐng)域的分子構(gòu)象生成、材料設(shè)計(jì)等,更有來自斯坦福大學(xué)計(jì)算機(jī)科學(xué)系的博士生Eric Zelikman大開腦洞,嘗試將DALLE-2與最近另一個(gè)大火的對(duì)話模型ChatGPT相結(jié)合,制作出了溫馨的繪本故事。

e42450ac-8cc9-11ed-bfe3-dac502259ad0.jpg

DALLE-2 + ChatGPT合力完成的,關(guān)于一個(gè)名叫"羅比"的小機(jī)器人的故事

不過最廣為大眾所知的,應(yīng)該還是它在文生圖(text-to-image)方面的應(yīng)用。輸入幾個(gè)關(guān)鍵詞或者一段簡(jiǎn)短的描述,模型便可以為你生成相對(duì)應(yīng)的圖畫。

比如,輸入"城市夜景 賽博朋克 格雷格.路特科夫斯基",最后生成的便是一張色彩鮮明,頗具未來科幻風(fēng)格的作品。

e4489138-8cc9-11ed-bfe3-dac502259ad0.png

再比如,輸入"莫奈 撐陽傘的女人 月亮 夢(mèng)幻",生成的便是一張極具有朦朧感的女人畫像,色彩搭配的風(fēng)格有木有讓你想起莫奈的《睡蓮》?

e4c6864c-8cc9-11ed-bfe3-dac502259ad0.png

想要寫實(shí)風(fēng)格的風(fēng)景照作為屏保?沒問題!

e5035c16-8cc9-11ed-bfe3-dac502259ad0.png

鄉(xiāng)村 田野 屏保

想要二次元濃度多一點(diǎn)的?也可以!

e514cc12-8cc9-11ed-bfe3-dac502259ad0.png

來自深淵 風(fēng)景 繪畫 寫實(shí)風(fēng)格

以上這些圖片,均是由MindDiffusion平臺(tái)的下的悟空畫畫制作而成的哦,悟空畫畫是基于擴(kuò)散模型的中文文生圖大模型,由華為諾亞團(tuán)隊(duì)攜手中軟分布式并行實(shí)驗(yàn)室昇騰計(jì)算產(chǎn)品部聯(lián)合開發(fā)。模型基于Wukong dataset訓(xùn)練,并使用昇思框架(MindSpore)+昇騰(Ascend)軟硬件解決方案實(shí)現(xiàn)。

躍躍欲試的小伙伴先別著急,為了讓大家擁有更好的體驗(yàn),更多自行開發(fā)的空間,我們打算讓MindDiffusion中的模型同樣也具備可訓(xùn)練、可推理的特性,預(yù)計(jì)在明年就要和大家見面啦,敬請(qǐng)期待,歡迎大家頭腦風(fēng)暴,生成各種別具風(fēng)格的作品哦~

(據(jù)去內(nèi)部打探情報(bào)的同事說,有人已經(jīng)開始嘗試"張飛繡花"、"劉華強(qiáng)砍瓜"、"古希臘神大戰(zhàn)哥斯拉"了。ummmm,怎么辦,突然就很期待成品了呢(?ω?))

一個(gè)突然正經(jīng)的結(jié)語

最后的最后,在Diffusion爆火的如今,有人也曾發(fā)出過疑問,它為什么可以做到如此的大紅大紫,甚至風(fēng)頭開始超過GAN網(wǎng)絡(luò)?Diffusion的優(yōu)勢(shì)突出,劣勢(shì)也很明顯;它的諸多領(lǐng)域仍是空白,它的前方還是一片未知。為什么卻有那么多的人在孜孜不倦地對(duì)它進(jìn)行研究呢?

興許,馬毅教授的一番話,可以給我們提供一種解答。

"但diffusion process的有效性以及很快取代GAN也充分說明了一個(gè)簡(jiǎn)單道理:

幾行簡(jiǎn)單正確的數(shù)學(xué)推導(dǎo),可以比近十年的大規(guī)模調(diào)試超參調(diào)試網(wǎng)絡(luò)結(jié)構(gòu)有效得多。"

或許,這就是Diffusion模型的魅力吧。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1087

    瀏覽量

    40501
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31133

    瀏覽量

    269455
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8425

    瀏覽量

    132770

原文標(biāo)題:Reference

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    ADS1256從一個(gè)通道到另一個(gè)通道的切換時(shí)間是多少?

    各位工程師,你們好。我想問ADS1256從一個(gè)通道到另一個(gè)通道的切換時(shí)間是多少?急,謝謝
    發(fā)表于 01-06 08:08

    從零開始訓(xùn)練個(gè)大語言模型需要投資多少錢?

    ,前言 ? 在AI領(lǐng)域,訓(xùn)練個(gè)大型語言模型(LLM)是個(gè)耗時(shí)且復(fù)雜的過程。幾乎每個(gè)做大型語
    的頭像 發(fā)表于 11-08 14:15 ?252次閱讀
    從零開始訓(xùn)練<b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>大語言<b class='flag-5'>模型</b>需要投資多少錢?

    為THS3001構(gòu)建個(gè)簡(jiǎn)單的SPICE模型

    電子發(fā)燒友網(wǎng)站提供《為THS3001構(gòu)建個(gè)簡(jiǎn)單的SPICE模型.pdf》資料免費(fèi)下載
    發(fā)表于 10-29 10:11 ?0次下載
    為THS3001構(gòu)建<b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>簡(jiǎn)單的SPICE<b class='flag-5'>模型</b>

    ZX-D37 BLE主從一體藍(lán)牙模塊技術(shù)手冊(cè)

    電子發(fā)燒友網(wǎng)站提供《ZX-D37 BLE主從一體藍(lán)牙模塊技術(shù)手冊(cè).pdf》資料免費(fèi)下載
    發(fā)表于 10-23 10:36 ?1次下載

    ZX-D36 BLE主從一體藍(lán)牙模塊技術(shù)手冊(cè)

    ZX-D36是款5.2 ble的主從一體的模塊,超低功耗,支持模塊之間數(shù)據(jù)互傳
    發(fā)表于 09-27 11:30 ?32次下載

    個(gè)晶體管的spice模型,可以導(dǎo)入TINA嗎?

    個(gè)晶體管的spice模型,可以導(dǎo)入TINA嗎?謝謝
    發(fā)表于 08-26 06:30

    如何訓(xùn)練個(gè)有效的eIQ基本分類模型

    在 MCX CPU和eIQ Neutron NPU上。 eIQPortal它是個(gè)直觀的圖形用戶界面(GUI),簡(jiǎn)化了ML開發(fā)。開發(fā)人員可以創(chuàng)建、優(yōu)化、調(diào)試和導(dǎo)出ML模型,以及導(dǎo)入數(shù)據(jù)集和模型
    的頭像 發(fā)表于 08-01 09:29 ?1897次閱讀
    如何訓(xùn)練<b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>有效的eIQ基本分類<b class='flag-5'>模型</b>

    在PyTorch中搭建個(gè)最簡(jiǎn)單的模型

    在PyTorch中搭建個(gè)最簡(jiǎn)單的模型通常涉及幾個(gè)關(guān)鍵步驟:定義模型結(jié)構(gòu)、加載數(shù)據(jù)、設(shè)置損失函數(shù)和優(yōu)化器,以及進(jìn)行模型訓(xùn)練和評(píng)估。
    的頭像 發(fā)表于 07-16 18:09 ?2093次閱讀

    國(guó)產(chǎn)藍(lán)牙模組 | 藍(lán)牙主從一體功能應(yīng)用

    隨著科技快速發(fā)展,藍(lán)牙技術(shù)在各個(gè)行業(yè)應(yīng)用中變得非常廣泛。今天,我們來分享種非常熱門的主從一體藍(lán)牙模塊。我們將對(duì)它的模式、概念、應(yīng)用、選購等進(jìn)行探討,讓讀者深入了解這種藍(lán)牙模塊。藍(lán)牙的工作模式藍(lán)牙
    的頭像 發(fā)表于 06-21 08:25 ?539次閱讀
    國(guó)產(chǎn)藍(lán)牙模組 | 藍(lán)牙主<b class='flag-5'>從一</b>體功能應(yīng)用

    GRU模型實(shí)戰(zhàn)訓(xùn)練 智能決策更精準(zhǔn)

    期文章帶大家認(rèn)識(shí)了個(gè)名為GRU的新朋友, GRU本身自帶處理時(shí)序數(shù)據(jù)的屬性,特別擅長(zhǎng)對(duì)于時(shí)間序列的識(shí)別和檢測(cè)(例如音頻、傳感器信號(hào)等)。GRU其實(shí)是RNN
    的頭像 發(fā)表于 06-13 09:22 ?1386次閱讀
    GRU<b class='flag-5'>模型</b>實(shí)戰(zhàn)訓(xùn)練 智能決策更精準(zhǔn)

    微軟準(zhǔn)備推出新的AI模型與谷歌及OpenAI競(jìng)爭(zhēng)

    據(jù)報(bào)道,微軟在向OpenAI投資超過100億美元后,首次成功訓(xùn)練了個(gè)名為“MAI-1”的內(nèi)部人工智能模型。這
    的頭像 發(fā)表于 05-08 10:45 ?556次閱讀

    【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

    概率推斷,利用共現(xiàn)矩陣學(xué)習(xí)每個(gè)詞的主題分布,進(jìn)而將其作為詞的表示向量。在大規(guī)模語料庫中進(jìn)行模型訓(xùn)練,使語義相似的詞具有相似的主題分布。然而,這類方法存在個(gè)問題,即模型
    發(fā)表于 05-05 12:17

    工業(yè)大模型的五個(gè)基本問題

    工業(yè)業(yè)大模型是大模型為賦能工業(yè)應(yīng)用所產(chǎn)生的產(chǎn)業(yè)新形態(tài),是制造業(yè)數(shù)字化轉(zhuǎn)型3.0的重要載體,是個(gè)新質(zhì)體。
    發(fā)表于 04-23 16:04 ?727次閱讀
    工業(yè)大<b class='flag-5'>模型</b>的五<b class='flag-5'>個(gè)</b>基本問題

    隨機(jī)抽取SV數(shù)組中的個(gè)元素方法實(shí)現(xiàn)

    如果想從一個(gè)關(guān)聯(lián)數(shù)組中隨機(jī)選取個(gè)元素,需要逐個(gè)訪問它之前的元素,原因是沒辦法能夠直接訪問到第N個(gè)元素。上面的程序示范了如何
    的頭像 發(fā)表于 03-21 10:11 ?1053次閱讀
    隨機(jī)抽取SV數(shù)組中的<b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>元素方法實(shí)現(xiàn)

    KT6368A藍(lán)牙主從一體芯片_功能簡(jiǎn)要說明

    新增KT1328A芯片方案的藍(lán)牙主從一體版本,實(shí)現(xiàn)的是主從一體相互切換,也就是說可以設(shè)置為主機(jī)【類似于手機(jī)的角色】,也可以設(shè)置為從機(jī)角色,通過AT指令 此版本的型號(hào)命名為:KT1328A-SOP8
    的頭像 發(fā)表于 03-18 18:42 ?581次閱讀
    KT6368A藍(lán)牙主<b class='flag-5'>從一</b>體芯片_功能簡(jiǎn)要說明
    主站蜘蛛池模板: 免费的毛片网站| 欲色淫香| 日本三级网址| 免费播放欧美毛片欧美aaaaa| 女人十六毛片| 福利一区二区在线观看| 国产视频观看| 九色综合网| 日本69sex护士www| 日韩精品午夜| 日本黄色爽| 色狠狠xx| 欧美爽爽| 成人精品亚洲| 国产拍拍拍免费视频网站| 久久99久久99精品免观看| 四虎成人在线视频| 九九热免费在线观看| 亚洲成人免费看| 国内精品手机在线观看视频| 午夜免费视频福利集合100| 欧美另类丰满69xxxxx| 色宅男午夜电影在线观看| 天天视频在线观看免费| jinv在线视频| 九九热精品视频在线播放| 高清人人天天夜夜曰狠狠狠狠| 丰满年轻岳欲乱中文字幕| 色五月在线视频| 天天操夜夜夜| 丁香五月缴情综合网| 丁香花在线影院观看在线播放| 91大神精品长腿在线观看网站| 欧美一级视频高清片| 乱高h辣黄文np公交车| 国产精品美女免费视频大全| 亚洲成色999久久网站| 欧美a色| 日本aaaa级毛片在线看| 天天操穴| 国产欧美亚洲精品|