在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從BLIP-2到SAM視覺(jué)語(yǔ)義金字塔+ChatGPT

CVer ? 來(lái)源:CVer ? 2023-04-17 11:03 ? 次閱讀

745653f2-dc7d-11ed-bfe3-dac502259ad0.jpg

8G GPU顯存即可以運(yùn)行

746049f2-dc7d-11ed-bfe3-dac502259ad0.jpg

代碼鏈接(已開(kāi)源):h

https://github.com/showlab/Image2Paragraph

動(dòng)機(jī):

怎么把圖片表示成高質(zhì)量文本一直是個(gè)熱門(mén)的問(wèn)題。傳統(tǒng)的思路Show,and Tell 等 Image Caption和Dense Caption 等都是依賴大量的人工標(biāo)注。首先依靠諸如亞馬遜AMT( 亞非拉大兄弟們)等標(biāo)注平臺(tái)給每張圖一人寫(xiě)一段描述。其中添加了一系列規(guī)則,諸如名詞數(shù)目,顏色等等。通常用一句簡(jiǎn)短的話來(lái)描述一張圖。

然而,這種樸素的標(biāo)記思路造成了嚴(yán)重的One-to-many問(wèn)題。如一張圖對(duì)應(yīng)很多文本。由于圖片和文本之間信息的不對(duì)稱性,在這類數(shù)據(jù)上訓(xùn)練的結(jié)果很容易陷入平凡解。(Pretrain中也經(jīng)常遇到的問(wèn)題)

而LLM(大語(yǔ)言模型)尤其是ChatGPT展現(xiàn)出來(lái)的邏輯能力讓人望塵莫及。我們驚訝發(fā)現(xiàn), 把Bounding Box 和 Object信息給到GPT4, GPT4很自然的能推理出物體之間的位置關(guān)系,甚至想像出物體之間的聯(lián)系。

因此一個(gè)很自然的想法就是, 用GPT4對(duì)每張圖生成高信息量的段落,F(xiàn)rom One-to-many to one-to-one

做法:

低階語(yǔ)義抽取:

Image Caption, Dense Caption, Object Detection, Segement Anything 等等統(tǒng)一當(dāng)成視覺(jué)理解組件。

74699304-dc7d-11ed-bfe3-dac502259ad0.jpg

如圖所示,首先用BLIP2 得到一張圖的Coars-grained Caption信息。再用 GRIT得到Dense Caption信息,最終用Segment Anything 去得到Fine- grained Region-level Semantic.

高階推理:

把金字塔視覺(jué)語(yǔ)義給到ChatGPT,讓ChatGPT去推理物體之間的關(guān)系和物體的物質(zhì)信息等,最終生成一個(gè)高質(zhì)量Unique的文本段落。

可視化:

最后對(duì)生成的段落,放進(jìn)Control Net生成一張重構(gòu)的圖。

實(shí)驗(yàn):

最后是一些運(yùn)行結(jié)果:

對(duì)生成的段落用ControlNet生成新圖片。

7474fdca-dc7d-11ed-bfe3-dac502259ad0.jpg

747fc548-dc7d-11ed-bfe3-dac502259ad0.jpg

748ac7e0-dc7d-11ed-bfe3-dac502259ad0.jpg


Region-level Semantic:

749b8288-dc7d-11ed-bfe3-dac502259ad0.jpg



最后有意思的是:

當(dāng)我們把圖片變成文本之后。不需要訓(xùn)練的情況下,檢索效果竟然好與在COCO上 Train的結(jié)果。

74a4cadc-dc7d-11ed-bfe3-dac502259ad0.jpg

一些呼之欲出的問(wèn)題即將到來(lái):

現(xiàn)有Vision- language Pretrain需不需要新的 Data collection 范式?

現(xiàn)有的Image- Text 數(shù)據(jù)集尤其是Caption數(shù)據(jù)需不需要Refine?

參考:

Show,And Tell.GRIT.ChatGPT.Segment Anything.ControlNet.Blip2.

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • SAM
    SAM
    +關(guān)注

    關(guān)注

    0

    文章

    112

    瀏覽量

    33547
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24749
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1564

    瀏覽量

    7863

原文標(biāo)題:從BLIP-2到SAM視覺(jué)語(yǔ)義金字塔+ChatGPT= 把圖片變文本段落, 8G顯存即可Run

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    PCB工程師金字塔分級(jí)標(biāo)準(zhǔn)

    PCB工程師金字塔分級(jí)標(biāo)準(zhǔn)
    發(fā)表于 08-06 13:21

    自制for循環(huán)打印金字塔

    自制for循環(huán)打印金字塔
    發(fā)表于 09-18 08:46

    基于近似高斯金字塔視覺(jué)注意模型快速算法

    利用輸入圖像的近似高斯金字塔,將經(jīng)典的基于顯著性的視覺(jué)注意模型改造為時(shí)空開(kāi)銷(xiāo)更小的版本,從而使其更加適合在嵌入式實(shí)時(shí)系統(tǒng)中實(shí)現(xiàn).首先采用矩形窗口近似圓形窗口,矩形平
    發(fā)表于 12-30 10:36 ?12次下載

    基于金字塔模型的地形網(wǎng)格裂縫消除算法

    本文針對(duì)基于多分辨金字塔模型繪制海量地形時(shí)的網(wǎng)格裂縫問(wèn)題,提出了一種網(wǎng)格裂縫消除算法。該算法利用分裂標(biāo)記表,結(jié)合金字塔模型本身分塊與多分辨率的特性,整體上
    發(fā)表于 12-30 12:02 ?8次下載

    工程師電子制作故事:?jiǎn)纹瑱C(jī)控制LED金字塔DIY設(shè)計(jì)

      首先要說(shuō)一下哪些人適合做這個(gè)金字塔:完全不懂程序的是可以的,但是一定要有焊接基礎(chǔ)。如果你自己焊接不出51最小系統(tǒng),也搞不定8X8的點(diǎn)陣,那我不建議你來(lái)做這個(gè)金字塔
    發(fā)表于 05-01 10:37 ?2.3w次閱讀
    工程師電子制作故事:?jiǎn)纹瑱C(jī)控制LED<b class='flag-5'>金字塔</b>DIY設(shè)計(jì)

    圖像金字塔和resize綜合示例_《OpenCV3編程入門(mén)》書(shū)本配套源代碼

    《OpenCV3編程入門(mén)》書(shū)本配套源代碼:圖像金字塔和resize綜合示例
    發(fā)表于 06-06 15:52 ?3次下載

    基于壓縮金字塔核稀疏表示的人臉識(shí)別_周凱

    基于壓縮金字塔核稀疏表示的人臉識(shí)別_周凱
    發(fā)表于 01-08 11:13 ?0次下載

    繪制金字塔程序?qū)崿F(xiàn)

    用c語(yǔ)言編程繪制金字塔
    發(fā)表于 11-27 16:24 ?837次閱讀

    可控特性的金字塔變換

    本文設(shè)計(jì)了一種具有平移不變性、方向和尺度聯(lián)合可控特性的金字塔變換,稱為幾何變形可控金字塔變換(DPT)。此DPT從一種數(shù)值形式表示的方向可控金字塔變換(SPT)發(fā)展而來(lái)。我們以SPT的每一個(gè)方向可控
    發(fā)表于 12-14 16:41 ?4次下載
    可控特性的<b class='flag-5'>金字塔</b>變換

    一種金字塔注意力網(wǎng)絡(luò),用于處理圖像語(yǔ)義分割問(wèn)題

    基于以上觀察,我們提出了特征金字塔注意力模塊 (FPA),該模塊能夠融合來(lái)自 U 型網(wǎng)絡(luò) (如特征金字塔網(wǎng)絡(luò) FPN) 所提取的三種不同尺度的金字塔特征。為了更好地提取不同尺度下金字塔
    的頭像 發(fā)表于 06-05 09:21 ?1.2w次閱讀
    一種<b class='flag-5'>金字塔</b>注意力網(wǎng)絡(luò),用于處理圖像<b class='flag-5'>語(yǔ)義</b>分割問(wèn)題

    中國(guó)集成電路封裝行業(yè)市場(chǎng)現(xiàn)狀——金字塔的尖頂與基座

    中國(guó)集成電路封裝行業(yè)技術(shù)演變路程漫漫集成電路封裝在電子學(xué)金字塔中的位置既是金字塔的尖頂又是金字塔的基座。
    的頭像 發(fā)表于 07-11 14:51 ?3374次閱讀

    如何實(shí)現(xiàn)多聚焦圖像融合的拉普拉斯金字塔方法

    本文檔的主要內(nèi)容詳細(xì)介紹的是如何實(shí)現(xiàn)多聚焦圖像融合的拉普拉斯金字塔方法。
    發(fā)表于 02-03 11:40 ?2次下載
    如何實(shí)現(xiàn)多聚焦圖像融合的拉普拉斯<b class='flag-5'>金字塔</b>方法

    基于規(guī)范化函數(shù)的深度金字塔模型算法

    時(shí)的檢測(cè)效果不理想。因此,提出一種基于規(guī)范化函欻的深度金字塔模型(Norm-DP)算法,使用規(guī)范化函數(shù)融合可變形部件模型和卷積神經(jīng)網(wǎng)絡(luò)模型,直接金字塔特征中提取正負(fù)樣本,使用隱變量攴持向量杋進(jìn)行模型訓(xùn)練,結(jié)合柔性非
    發(fā)表于 03-30 14:09 ?14次下載
    基于規(guī)范化函數(shù)的深度<b class='flag-5'>金字塔</b>模型算法

    DIY自制基于51單片機(jī)的LED金字塔

    電子發(fā)燒友網(wǎng)站提供《DIY自制基于51單片機(jī)的LED金字塔.pdf》資料免費(fèi)下載
    發(fā)表于 10-25 10:27 ?0次下載
    DIY自制基于51單片機(jī)的LED<b class='flag-5'>金字塔</b>

    談?wù)凱CB工程師金字塔分級(jí)標(biāo)準(zhǔn)

    印刷電路板(PCB)工程師是電子行業(yè)中至關(guān)重要的角色,他們的工作直接關(guān)系到電子產(chǎn)品的質(zhì)量和性能。為了明確不同PCB工程師的技能水平和職責(zé)范圍,行業(yè)內(nèi)形成了金字塔分級(jí)標(biāo)準(zhǔn)。下面將談?wù)勥@個(gè)金字塔的分級(jí)標(biāo)準(zhǔn)。
    的頭像 發(fā)表于 12-25 10:02 ?227次閱讀
    主站蜘蛛池模板: 男人j进人女人j 的视频| 中国一级生活片| 亚洲插| 国产黄网站| 1024你懂的日韩| 女18poren69| 热re99久久精品国产99热| 久久久婷婷| 亚洲一区二区色| 黄色网址播放| 亚洲韩国日本欧美一区二区三区| 午夜视频www| 亚洲欧美精品成人久久91| 天堂网在线观看| 欧美成人免费| 国产高清视频免费最新在线 | 人与禽交免费网站视频| 欧洲妇女成人淫片aaa视频| 中文字幕在线观看日剧网| 亚洲人成电影在线| 日韩美毛片| 韩国三级在线不卡播放| 18视频网站在线观看| 欧美一级免费看| 夜恋秀场欧美成人影院| 久久99热久久精品23| 五月婷亚洲| 老子影院午夜精品欧美视频| 99久久网站| 国产伦精品一区二区三区免| 亚洲欧美天堂网| 特黄特黄aaaa级毛片免费看| 老汉色视频| 天天躁日日躁狠狠躁一级毛片 | 国产精品网址你懂的| 天天做天天爱天天操| 88av影院| 伊人2233| 自拍你懂的| 免费国产成人α片| 亚洲爱爱图|