在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AttnGAN可以生成任意圖像,從普通的田園風光到抽象的場景

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-08-24 09:01 ? 次閱讀

機器學習發展至今,我們看到很多AI模型經過大量數據能畫畫、能作曲。但是現在一個“神奇”的網站可以通過你的文字生成意想不到的圖像。事情還要從大半年前的一篇論文說起。

在今年一月份發表的一篇論文中,微軟研究院的實習生們訓練了一個機器學習算法,稱為AttnGAN。這是GAN的一種變體,可以根據寫下的文字生成圖像,圖像質量是之前技術生成的圖像質量的三倍。

這項技術可以生成任意圖像,從普通的田園風光到抽象的場景,每幅圖都能將文字描述詳細地表示出來。

論文簡介

最近很多文本生成圖像的方法都是基于生成對抗網絡(GAN)的,常用方法是將完整的文本描述編寫進整個句子向量中作為圖片生成的條件。雖然已經能生成質量不錯的圖像了,但是由于句子向量缺少在詞語層面上的微調信息,GAN無法生成更高質量的圖像。這一問題在生成復雜場景時更嚴重。

為了解決這一問題,作者提出了注意力生成對抗網絡(AttnGAN),用注意力驅動、多階段的方法對文本生成圖像的問題進行微調。AttnGAN的整體結構如圖:

模型有兩個創新元素。首先是注意力生成網絡,其中的注意力機制是通過觀察與該區域最相關的文字,生成器畫出圖像的不同部分。

更具體地說,除了將自然語言描述編碼到全局句子向量中,句中的每個單詞同樣有對應的向量。在第一階段,生成網絡利用全局句子向量生成一個低分辨率的圖像。接著,它會通過注意力層用每個區域的圖片向量查詢詞向量,從而形成一個詞-語境向量。之后,它會將區域圖像向量和對應的詞-語境向量相結合,形成一個多模態的語境向量。這就能夠在各個階段生成細節更豐富的高分辨率圖像。

該結構中的另一個重要組成部分是深度注意力多模態相似模型(DAMSM)。由于有注意力機制,DAMSM可以計算生成圖像和句子之間的相似性。所以,DAMSM對訓練生成器提供了額外的調整損失函數。

模型試驗

與此前的方法相同,這篇論文提出的方法也在CUB和COCO兩個數據集上測試。最終訓練的結果如下:

每個場景的第一張圖片都是AttnGAN的第一階段(G0),僅僅描繪出了場景的原始輪廓,圖像分辨率很低。基于詞向量,接下來的兩個階段(G1和G2)學習糾正前面的結果。

在CUB數據集上的生成結果

經過COCO數據集訓練的模型生成的結果,圖中的描述幾乎是不可能在現實中出現的

奇怪的方向

總的來說,AttnGAN的表現還是不錯的。但是國外一些研究者逐漸找到了新的玩法。研究者Cristóbal Valenzuela根據論文搭建了一個網站,用戶可以嘗試AttnGAN,但不同的是,訓練數據換成了更大的數據集。機器學習愛好者Janelle Shane在博客中寫道:“當把這個算法在另一個更大的、內容更多樣的數據集上訓練后,生成的圖片難以符合文字描述(并且變得非常奇怪)。”例如下面這個例子,同樣的一句話,用原始模型生成的圖片是這樣的:

然而換了訓練數據集后:

這是……什么?由于在更大的數據集上訓練過,所以當GAN要畫出我要求的內容時,它要搜索的圖像就更多,問題也變得廣泛。不僅僅在小鳥的生成上有限制,在生成人像上也會出現bug,例如下圖:

這個表現得就很糟了,根本分不清哪里是人臉。其他類似的還有很多,完全就是超現實主義作品。

Janelle Shane表示:“這個demo非常有趣,它也體現了目前先進的圖像識別算法是如何理解圖像和文字的。它們如何理解’狗’或’人類’?在2D圖像中,算法看到的人指向前方和側面是完全不同的。”

對于這一結果,AttnGAN論文的作者Tao Xu也給予了回復。Xu目前是美國理海大學一名研究生,她認為這是對論文結果的重要改進:

“隨著深度學習的快速發展,計算機視覺系統非常強大。例如它們可以從醫學影像中診斷疾病、在自動駕駛系統中定位行人和汽車。但是,我們仍然不能認為這些系統完全理解了它們所看到的東西。因為,如果機器真的擁有了智慧,它們不會僅識別圖像,而是可以生成圖像。

我們的AttnGAN將注意力機制和生成對抗網絡結合了起來,大大提高了文本生成圖像的模型性能。由于注意力是人類特有的概念,我們的AttnGAN就能學習這種”智慧“,像人類一樣畫畫,即注意相關詞語以及相關圖像區域。

雖然AttnGAN比之前的文本到圖像的模型表現得更好,但是生成多種“現實畫風”的物體對整個領域還是待解決的問題。我們希望未來在這一方向進行更多研究。”

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8421

    瀏覽量

    132703
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24716
  • 自然語言
    +關注

    關注

    1

    文章

    288

    瀏覽量

    13355

原文標題:雖然很驚悚,但這個AI靈魂畫手真的很努力了

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于擴散模型的圖像生成過程

    近年來,擴散模型在文本圖像生成方面取得了巨大的成功,實現了更高圖像生成質量,提高了推理性能,也可以
    的頭像 發表于 07-17 11:00 ?2755次閱讀
    基于擴散模型的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>過程

    六月,帶你品味合心鎮的合心瓜,享受田園采摘生活

    六月的綠園熱情似火,六月的合心瓜果飄香,在這喜人的季節里,迎來了又一次“瓜熟蒂落”。合心鎮地處上風上水,是綠園區農業發展主戰場,是長春市現代都市農業示范區。這里有美麗的田園風光、有淳樸的民風民俗,有
    發表于 06-21 10:57

    點陣式液晶任意圖片顯示的實現

    點陣式液晶任意圖片顯示的實現 液晶顯示器(liquid crystal display,lcd )具有功耗低、體積小、質量輕、超薄和可編程驅動等其他顯示無法比擬的優點,不
    發表于 12-14 14:29 ?1811次閱讀
    點陣式液晶<b class='flag-5'>任意圖</b>片顯示的實現

    MAX4455 任意圖形隨屏顯示視頻發生器

    MAX4455 任意圖形隨屏顯示視頻發生器   MAX4455是一款8通道的任意圖形OSD視頻發生器,可以任意灰度級位圖嵌入
    發表于 12-26 08:15 ?1068次閱讀

    紅外場景仿真在導引頭圖像實時生成中的應用

    描述了利用Vega Prime生成紅外場景的方法,針對該方法在成像制導仿真系統應用中出現的問題進行了討論。介紹了地形場景模型的建立方法;分析了制導仿真圖像
    發表于 05-19 18:25 ?0次下載
    紅外<b class='flag-5'>場景</b>仿真在導引頭<b class='flag-5'>圖像</b>實時<b class='flag-5'>生成</b>中的應用

    基于形式概念分析的圖像場景語義標注模型

    生成有效表示圖像場景語義的視覺詞典,提高場景語義標注性能,提出一種基于形式概念分析( FCA)的圖像
    發表于 01-12 15:49 ?1次下載
    基于形式概念分析的<b class='flag-5'>圖像</b><b class='flag-5'>場景</b>語義標注模型

    GAN在圖像生成應用綜述

    GAN 可以任意的分布作為輸入,這里的 Z 就是輸入,在實驗中我們多取Z~N(0,1),也多取 [?1,1] 的均勻分布作為輸入。生成器 G 的參數為 θ,輸入 Z 在生成器下得到
    的頭像 發表于 02-13 13:59 ?5703次閱讀
    GAN在<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>應用綜述

    基于生成式對抗網絡的端圖像去霧模型

    圖像中霧的特征;其次,采用殘差學習思想直接退化圖像中學習清晣圖像的特征,實現端端的去霧;最
    發表于 04-12 15:03 ?20次下載
    基于<b class='flag-5'>生成</b>式對抗網絡的端<b class='flag-5'>到</b>端<b class='flag-5'>圖像</b>去霧模型

    一種結合回復生成的對話意圖預測模型

    ,但是,在很多場景下回復可能并沒有生成。因此,文中提出了一種結合回復生成的對話意圖預測模型。在生成部分,使用Seq2Seq結構,根據對話歷史
    發表于 04-14 14:02 ?5次下載
    一種結合回復<b class='flag-5'>生成</b>的對話<b class='flag-5'>意圖</b>預測模型

    一種基于改進的DCGAN生成SAR圖像的方法

    的方法。為測試和驗證多個同類圖像識別軟件,并進行擇優,需要自行設計不同于訓練用的圖像來對測軟件進行測試。此方法可以為擇優測試提供一個公平的基準測試集。實驗分別使用原 DCGAN模型和改進的 DCGAN模型
    發表于 04-23 11:01 ?21次下載
    一種基于改進的DCGAN<b class='flag-5'>生成</b>SAR<b class='flag-5'>圖像</b>的方法

    如何去解決文本圖像生成的跨模態對比損失問題?

    文本圖像的自動生成,如何訓練模型僅通過一段文本描述輸入就能生成具體的圖像,是一項非常具有挑戰
    的頭像 發表于 06-15 10:07 ?2738次閱讀
    如何去解決文本<b class='flag-5'>到</b><b class='flag-5'>圖像</b><b class='flag-5'>生成</b>的跨模態對比損失問題?

    AIGC最新綜述:GANChatGPT的AI生成歷史

    本調查全面回顧了生成模型的歷史、基本組件、AIGC 單模態交互和多模態交互的最新進展。我們單峰性的角度介紹了文本和圖像生成任務和相關模
    的頭像 發表于 03-13 10:13 ?2824次閱讀

    基于文本圖像模型的可控文本視頻生成

    的文本視頻模型需要大量高質量的視頻和計算資源,這限制了相關社區進一步的研究和應用。為了減少過度的訓練要求,我們研究了一種新的高效形式:基于文本圖像模型的可控文本視頻
    的頭像 發表于 06-14 10:39 ?971次閱讀
    基于文本<b class='flag-5'>到</b><b class='flag-5'>圖像</b>模型的可控文本<b class='flag-5'>到</b>視頻<b class='flag-5'>生成</b>

    java抽象可以普通方法嗎

    Java中的抽象可以普通方法,但它也可以抽象方法。抽象類是一種中間狀態,介于
    的頭像 發表于 11-21 10:22 ?1583次閱讀

    一鍵解鎖:將任意圖像設備秒變GigE Vision設備的終極秘訣

    ?物聯網發展正在走向輕便和低成本。友思特eBUS Edge軟件方案,可將任意圖像設備一鍵升級為GigE Vision設備,讓機器視覺便捷處理更進一步。
    的頭像 發表于 03-13 17:20 ?742次閱讀
    一鍵解鎖:將<b class='flag-5'>任意圖像</b>設備秒變GigE Vision設備的終極秘訣
    主站蜘蛛池模板: 97大香伊在人人线色| 国产精品福利一区二区亚瑟| 国产成人精品亚洲日本在线| 国产福利乳摇在线播放| 波多野结衣在线视频免费观看| 成人观看网站a| 欲色影视香色天天影视来| 99精品偷自拍| 亚洲女人小便| 91华人在线视频| 久热久| 一区二区三区四区国产精品| 婷婷97狠狠的狠狠的爱| 日本黄色美女视频| 久久久噜噜噜久久久| 国产高清免费| 午色| 欧美一级在线观看视频| 黄色日本网站| www.日本黄色| 日本激情网| 日本老师69xxxxxxxxx| 日本不卡一区视频| 五月综合色| 男女爱爱免费视频| www.妖精视频| 久久久久久久久久久观看| 天天摸天天躁天天添天天爽| 美女禁处| 在线观看国产一级强片| 一区二区三区四区电影| 欧美色图色就是色| 扒开双腿爽爽爽视频www| 人人爱天天做夜夜爽毛片| 视频黄色在线| 一级国产特黄aa大片| 女色专区| 亚洲精品午夜视频| 天天干视频在线观看| 1024你懂的国产日韩欧美| 99综合在线|