豆豆小说阅读网,如何发布网络小说,手机推荐排行榜

生成式AI作為當前人工智能領域的前沿技術，已被廣泛的應用于各類視覺合成任務。

隨著DALL-E2，Stable Diffusion和DreamFusion的發布，AI作畫和3D合成實現了令人驚嘆的視覺效果并且在全球范圍內的爆炸式增長。這些生成式AI技術深刻地拓展了人們對于AI圖像生成能力的認識，那么這些生成式AI方法是如何生成以假亂真的視覺效果？又是如何利用深度學習和神經網絡技術來實現畫作、3D生成以及其他創造性任務的呢？我們的綜述論文將會給您提供這些問題的答案。

在第一章節，該綜述描述了多模態圖像合成與編輯任務的意義和整體發展，以及本論文的貢獻與總體結構。

在第二章節，根據引導圖片合成與編輯的數據模態，該綜述論文介紹了比較常用的視覺引導，文字引導，語音引導，還有近期DragGAN提出的控制點引導等，并且介紹了相應模態數據的處理方法。

在第三章節，根據圖像合成與編輯的模型框架，該論文對目前的各種方法進行了分類，包括基于GAN的方法，擴散模型方法，自回歸方法，和神經輻射場（NeRF）方法。

由于基于GAN的方法一般使用條件GAN和 GAN 反演，因此該論文進一步根據控制條件的融合方式，模型的結構，損失函數設計，多模態對齊，和跨模態監督進行了詳細描述。

近期，火熱的擴散模型也被廣泛應用于多模態合成與編輯任務。例如效果驚人的DALLE-2和Imagen都是基于擴散模型實現的。相比于GAN，擴散式生成模型擁有一些良好的性質，比如靜態的訓練目標和易擴展性。該論文依據條件擴散模型和預訓練擴散模型對現有方法進行了分類與詳細分析。

相比于基于GAN和擴散模型的方法，自回歸模型方法能夠更加自然的處理多模態數據，以及利用目前流行的Transformer模型。自回歸方法一般先學習一個向量量化編碼器將圖片離散地表示為token序列，然后自回歸式地建模token的分布。由于文本和語音等數據都能表示為token并作為自回歸建模的條件，因此各種多模態圖片合成與編輯任務都能統一到一個框架當中。

以上方法主要聚焦于2D圖像的多模態合成與編輯。近期隨著神經輻射場（NeRF）的迅速發展，3D感知的多模態合成與編輯也吸引了越來越多的關注。由于需要考慮多視角一致性，3D感知的多模態合成與編輯是更具挑戰性的任務。本文針對單場景優化NeRF，生成式NeRF兩種方法對現有工作進行了分類與總結。

隨后，該綜述對以上四種模型方法的進行了比較和討論。總體而言，相比于GAN，目前最先進的模型更加偏愛自回歸模型和擴散模型。而NeRF在多模態合成與編輯任務的應用為這個領域的研究打開了一扇新的窗戶。

在第四章節，該綜述匯集了多模態合成與編輯領域流行的數據集以及相應的模態標注，并且針對各模態典型任務（語義圖像合成，文字到圖像合成，語音引導圖像編輯）對當前方法進行了定量的比較。同時也對多種模態同時控制生成的結果進行了可視化。

在第五章節，該綜述對此領域目前的挑戰和未來方向進行了探討和分析，包括大規模的多模態數據集，準確可靠的評估指標，高效的網絡架構，以及3D感知的發展方向。

在第六和第七章節，該綜述分別闡述了此領域潛在的社會影響和總結了文章的內容與貢獻。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

圖像

圖像

+關注

關注
2

文章
1088

瀏覽量
40515
數據集

數據集

+關注

關注
4

文章
1208

瀏覽量
24749
生成式AI

生成式AI

+關注

關注
0

文章
509

瀏覽量
511

原文標題：頂刊TPAMI 2023！生成式AI與圖像合成綜述發布！

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關注！文章轉載請注明出處。

搜狗與新華社聯合發布全球首個站立式AI合成主播

，新版的AI合成主播采用了“搜狗分身”領先的wavernn波形建模技術，可以實現逼真的語音合成效果，讓AI的聲音更具有真實情感和表現力。　　而在圖像

發表于 02-25 09:28

Stability AI開源圖像生成模型Stable Diffusion

Stable Diffusion 的很多用戶已經公開發布了生成圖像的樣例，Stability AI 的首席開發者 Katherine Crowson 在推特上分享了許多

發表于 09-21 15:37 ?2979次閱讀

英偉達 GTC 2023上黃仁勛談生成式AI

英偉達 GTC 2023上黃仁勛談生成式AI 黃教主在GTC 2023上大談特談生成

發表于 03-22 17:14 ?1888次閱讀

什么是生成式AI？生成式AI的四大優勢

生成式AI是一種特定類型的AI，專注于生成新內容，如文本、圖像和音樂。這些系統在大型數據集上進行

發表于 05-29 14:12 ?4560次閱讀

虹軟圖像深度恢復技術與生成式AI的創新生成式AI助力

當前，生成式人工智能（AI）技術的快速發展令人矚目。它能夠理解人類的描述，并在短時間內生成逼真的圖像和視頻。在

發表于 06-21 09:06 ?465次閱讀

SIGGRAPH 2023 | 生成式 AI 開啟汽車行業新時代，為設計、工程、生產和銷售帶來改進

AI 技術的進步將改變汽車生命周期，大大提高生產力，并激發創新。生成內容和代碼、創建圖像和視頻、使用合成數據測試算法等生成

發表于 08-14 17:20 ?688次閱讀

解決醫療大模型訓練數據難題，商湯最新研究成果登「Nature」子刊

生成式AI正為醫療大模型迭代按下加速鍵。近日，商湯科技聯合行業合作伙伴，結合生成式人工智能和醫療圖像

發表于 09-12 18:50 ?969次閱讀

在線研討會 | 9 月 19 日，利用 GPU 加速生成式 AI 圖像內容生成

的工作效率，也為社會發展帶來了巨大的推動力。在本次課程中，我們將深入介紹生成式 AI，特別是文字生成圖像的技術。我們希望你在此學習過程中找

發表于 09-14 17:40 ?497次閱讀

德勤中國與亞馬遜云科技聯合成立生成式AI聯合實驗室

北京2023年11月16日??/美通社/ -- 德勤中國與亞馬遜云科技共同宣布創建生成式AI聯合實驗室。雙方將整合優勢資源，圍繞"1+3"展開合作。"1" 是以亞馬遜云科技的堅實技術為

發表于 11-17 09:43 ?761次閱讀

UL Procyon AI 發布圖像生成基準測試，基于Stable Diffusion

UL去年發布的首個Windows版Procyon AI推理基準測試，以計算機視覺工作負載評估AI推理性能。新推出的圖像生成測試將提供統一、精

發表于 03-25 16:16 ?928次閱讀

商湯集團2023全年業績亮眼，生成式AI業務爆發式增長

商湯集團近日發布了截至2023年12月31日的經審核全年業績報告，展現了集團在AI領域的強勁增長勢頭。在全新的戰略布局下，商湯明確了三大業務板塊：生成

發表于 03-27 09:14 ?617次閱讀

OpenAI發布圖像檢測分類器，可區分AI生成圖像與實拍照片

據OpenAI介紹，初步測試結果表明，該分類器在辨別非AI生成圖像與DALL·E 3生成圖像時，成功率高達近98%，僅有不到0.5%的非

發表于 05-09 09:57 ?487次閱讀

生成式AI的定義和特征

行為，生成全新的、具有實際意義的數據或內容。這種技術已經在自然語言處理、圖像生成、音頻合成等多個領域展現出巨大的潛力和應用價值。本文將詳細探討生成

發表于 07-05 17:33 ?1165次閱讀

Freepik攜手Magnific AI推出AI圖像生成器

近日，設計資源巨頭Freepik攜手Magnific AI，共同推出了革命性的AI圖像生成器——Freepik Mystic，這一里程碑式的

發表于 08-30 16:23 ?1165次閱讀

生成式AI工具作用

生成式AI工具是指那些能夠自動生成文本、圖像、音頻、視頻等多種類型數據的人工智能技術。在此，petacloud.

發表于 10-28 11:19 ?273次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

頂刊TPAMI 2023！生成式AI與圖像合成綜述發布！

評論

搜狗與新華社聯合發布全球首個站立式AI合成主播

Stability AI開源圖像生成模型Stable Diffusion

英偉達 GTC 2023上黃仁勛談生成式AI

什么是生成式AI？生成式AI的四大優勢

虹軟圖像深度恢復技術與生成式AI的創新生成式AI助力

SIGGRAPH 2023 | 生成式 AI 開啟汽車行業新時代，為設計、工程、生產和銷售帶來改進

解決醫療大模型訓練數據難題，商湯最新研究成果登「Nature」子刊

在線研討會 | 9 月 19 日，利用 GPU 加速生成式 AI 圖像內容生成

德勤中國與亞馬遜云科技聯合成立生成式AI聯合實驗室

UL Procyon AI 發布圖像生成基準測試，基于Stable Diffusion

商湯集團2023全年業績亮眼，生成式AI業務爆發式增長

OpenAI發布圖像檢測分類器，可區分AI生成圖像與實拍照片

生成式AI的定義和特征

Freepik攜手Magnific AI推出AI圖像生成器

生成式AI工具作用