在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于圖文多模態領域典型任務

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2022-09-01 17:14 ? 次閱讀

圖文多模態領域典型任務如img-text retrieval、VQA、captioning、grounding等,目前的學術設定難度尚可。但是, 一旦知識范圍擴展,到了open-ended scenario,任務難度立刻劇增 。但是DeepMind的Flamingo模型在這些挑戰場景中使用同一個模型便做到了。當時看到論文中的這些例子,十分驚訝!

d0502f50-2915-11ed-ba43-dac502259ad0.png

可以看到,Flamingo模型不僅可以做到open-ended captioning、VQA等,甚至可以計數、算數。其中很多額外的知識,比如火烈鳥的發源地等知識,對于單模態的語言模型如GPT-3、T5、Chinchilla等可以說是難度不大。

但是對于傳統的多模態模型而言,很難通過傳統的img-text pair學到如此廣闊的外部知識,因為很多知識是蘊含在基于文本的單模態中的(如維基百科) 。所以,DeepMind在多模態領域的發力點就在 站人語言模型的巨人肩膀上,凍住超大規模訓練的語言模型,將多模態模型設計向NLP大模型靠攏。

Frozen

要介紹Flamingo模型,不得不先介紹DeepMind在NeurIPS 2021發表的前作Frozen。Frozen模型十分簡單,作者使用一個預訓練好的語言模型,并且完全凍結參數,只訓練visual encoder。

模型結構:其中LM模型是在C4數據上訓練的包含7B參數的transformer結構,visual encoder是NF-ResNet50。訓練數據:訓練時只采用了CC3M數據集,包含300萬img-text pair,預訓練數據量不大。Frozen框架如下。其中視覺特征可以看作是LM模型的prompt,凍結的語言模型就在視覺特征的“提示”下,做出應答。

d0915886-2915-11ed-ba43-dac502259ad0.png

Frozen模型結構

可以看到,通過一些img-text pair的約束,unfrozen的visual encoder是朝著frozen LM靠攏和對齊的。該算法在預訓練時只使用了captioning語料CC3M,并且知識的豐富度也有限。那么,Frozen模型能做什么呢?

d0b8bcaa-2915-11ed-ba43-dac502259ad0.png

Frozen模型在下游場景的應用

雖然由caption數據(CC3M)訓練,它竟然可以做VQA甚至基于知識的VQA,比如上圖,你告訴它飛機是萊特兄弟發明的,它就能類比出蘋果手機是喬布斯創造的。很顯然, 這種外部知識肯定不是CC3M中有限的img-text pair能夠給予的,無非是來源于從始至終未參與訓練、凍結的LM模型 。接下來作者做了一系列實驗,可以看到,其實Frozen距離SOTA模型仍十分遙遠。

d0eb882e-2915-11ed-ba43-dac502259ad0.png

Frozen實驗結果

可以看到,Frozen模型距離VQA和OKVQA數據集上的SOTA算法仍有十分巨大的gap。

幾個有意思的現象:

如果模型看不到圖片(blind模型),只依賴于LM模型,效果尚可,但是明顯低于看得見圖片的模型。 說明Frozen確實對img-text模態進行了對齊,學習到了如何參考圖片信息再做出應答

few-shot甚至zero-shot就可以達到還不錯的性能;

end-to-end finetune LM模型效果會下降,說明由大量單模態訓練出的LM模型參數很容易被少量的img-text數據破壞掉。證明了本文觀點,LM模型需要Frozen才能保留文本信息學到的知識!

Flamingo

介紹完了Frozen,那么DeepMind團隊再接再厲,創造效果驚艷的Flamingo模型就順理成章了。相比于Frozen,Flamingo模型的幾點改進:

更強的LM模型: 70B參數的語言模型Chinchilla;

更多的可訓練參數: visual encoder這次也凍結了,但是圖片特征采樣模型可以訓練,更重要的是LM模型的各層中也嵌入了可學習的參數,可訓練參數總量高達10B;

更恐怖的訓練數據:不僅加入了ALIGN算法的18億img-text pair,數百萬的video-text pair。此外,還有大量的不匹配的圖文信息,來源于MultiModal MassiveWeb (M3W) dataset,其中圖片數量上億,文本大概有182 GB。可以使用unpaired img-text數據進行訓練也是Flamingo模型的一大亮點。總而言之,它的數據量十分恐怖,已經遠遠超過目前業界的多模態算法比如CLIP、ALIGN、SimVLM、BLIP等。

下面看看Flamingo的模型結構:

d119f61e-2915-11ed-ba43-dac502259ad0.png

Flamingo模型結構

可以看到, 不同于Frozen,這一次visual encoder也是凍結的。參數可以學習的就兩部分,一個是Perceiver Resampler,一個是嵌入在LM模型中的Gated Block。Perceiver Resampler結構如下:

d14359aa-2915-11ed-ba43-dac502259ad0.png

Perceiver Resampler結構

Perceiver Resampler結構一目了然,一些可學習的embedding作為query,然后圖片特征或者時續的視頻特征attend到query上,作為最后的輸出。

d17ae7bc-2915-11ed-ba43-dac502259ad0.png

gated xattn-dense結構

嵌入在LM模型中的gated xattn-dense的結構同樣一目了然,使用文本信息作為query去aggregate視覺信息。其中text embedding作為query,visual embedding作為key和value。類比于transformer結構,唯一小的差別就是cross-attention和FFN之后額外加了一個gate。

介紹完了Flamingo的模型結構,簡單看看它的爆表性能吧,可以說,下游場景中只用few-shot的情況下做到這種程度,讓人驚訝...... 在一些答案集合固定的任務中,比如傳統的VQAv2中優勢不明顯, 但是open-ended的knowledge-based VQA任務中,比如OKVQA,只用few-shot就可以刷新當前SOTA 在盲人場景的VizWiz以及OCR信息特別多的TextVQA等任務中,效果同樣可圈可點。一些基于視頻的QA比如NextQA和iVQA效果同樣刷新當前最好性能......

d19fff34-2915-11ed-ba43-dac502259ad0.png

如果Flamingo不使用few-shot模式,而進行fine-tune模式,論文中顯示,同樣可以刷新不少業界SOTA指標,這里就不列舉了。最后再列出幾個讓人驚嘆的示例結束本文,準備再去好好研究一番論文細節。

多模態描述,多模態問答,多模態對話,多模態推薦……以前很多人覺得很遙遠,但是近年來進展飛速,距離實際場景的gap也在逐步縮小,未來可期~

d1e3fb1c-2915-11ed-ba43-dac502259ad0.png

d215a90a-2915-11ed-ba43-dac502259ad0.png

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    524

    瀏覽量

    10277
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24703
  • nlp
    nlp
    +關注

    關注

    1

    文章

    488

    瀏覽量

    22038

原文標題:站在NLP巨人模型的肩膀才是多模態的未來?

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    lABCIWQmultyWindows模態窗口2010

    lABCIWQmultyWindows模態窗口2010。
    發表于 05-17 17:47 ?0次下載

    文化場景下的模態情感識別

    自動情感識別是一個非常具有挑戰性的課題,并且有著廣泛的應用價值.本文探討了在文化場景下的模態情感識別問題.我們從語音聲學和面部表情等模態分別提取了不同的情感特征。包括傳統的手工定制
    發表于 12-18 14:47 ?0次下載

    如何讓Transformer在多種模態下處理不同領域的廣泛應用?

    一個模型完成了CV,NLP方向的7個任務,每個任務上表現都非常好。 ? Transformer架構在自然語言處理和其他領域的機器學習(ML)任務中表現出了巨大的成功,但大多僅限于單個
    的頭像 發表于 03-08 10:30 ?2780次閱讀
    如何讓Transformer在多種<b class='flag-5'>模態</b>下處理不同<b class='flag-5'>領域</b>的廣泛應用?

    模態MR和特征融合的GBM自動分割算法

    模態MR和特征融合的GBM自動分割算法
    發表于 06-27 11:45 ?32次下載

    簡述文本與圖像領域模態學習有關問題

    來自:哈工大SCIR 本期導讀:近年來研究人員在計算機視覺和自然語言處理方向均取得了很大進展,因此融合了二者的模態深度學習也越來越受到關注。本期主要討論結合文本和圖像的模態
    的頭像 發表于 08-26 16:29 ?6865次閱讀

    如何使用模態信息做prompt

    Multimodal Conditionality for Natural Language Generation 研究的任務場景則是以模態信息作為條件做 conditional 的 NLG
    的頭像 發表于 11-03 09:39 ?1893次閱讀
    如何使用<b class='flag-5'>多</b><b class='flag-5'>模態</b>信息做prompt

    DocumentAI的模型、任務和基準數據集

    隨著最近幾年模態大火的,越來越多的任務都被推陳出新為模態版本。譬如,傳統對話任務,推出了考慮
    的頭像 發表于 08-22 09:55 ?1845次閱讀

    模態圖像合成與編輯方法

    本篇綜述通過對現有的模態圖像合成與編輯方法的歸納總結,對該領域目前的挑戰和未來方向進行了探討和分析。
    的頭像 發表于 08-23 09:12 ?1271次閱讀

    一個真實閑聊模態數據集TikTalk

    隨著大量預訓練語言模型在文本對話任務中的出色表現,以及模態的發展,在對話中引入模態信息已經引起了大量學者的關注。
    的頭像 發表于 02-09 09:31 ?1851次閱讀

    中文模態對話數據集

    隨著大量預訓練語言模型在文本對話任務中的出色表現,以及模態的發展,在對話中引入模態信息已經引起了大量學者的關注。目前已經提出了各種各樣的
    的頭像 發表于 02-22 11:03 ?1373次閱讀
    中文<b class='flag-5'>多</b><b class='flag-5'>模態</b>對話數據集

    如何利用LLM做模態任務

    大型語言模型LLM(Large Language Model)具有很強的通用知識理解以及較強的邏輯推理能力,但其只能處理文本數據。雖然已經發布的GPT4具備圖片理解能力,但目前還未開放模態輸入接口并且不會透露任何模型上技術細節。因此,現階段,如何利用LLM做一些
    的頭像 發表于 05-11 17:09 ?914次閱讀
    如何利用LLM做<b class='flag-5'>多</b><b class='flag-5'>模態</b><b class='flag-5'>任務</b>?

    邱錫鵬團隊提出具有內生跨模態能力的SpeechGPT,為模態LLM指明方向

    大型語言模型(LLM)在各種自然語言處理任務上表現出驚人的能力。與此同時,模態大型語言模型,如 GPT-4、PALM-E 和 LLaVA,已經探索了 LLM 理解
    的頭像 發表于 05-22 14:38 ?691次閱讀
    邱錫鵬團隊提出具有內生跨<b class='flag-5'>模態</b>能力的SpeechGPT,為<b class='flag-5'>多</b><b class='flag-5'>模態</b>LLM指明方向

    更強更通用:智源「悟道3.0」Emu模態大模型開源,在模態序列中「補全一切」

    當前學界和工業界都對模態大模型研究熱情高漲。去年,谷歌的 Deepmind 發布了模態視覺語言模型 Flamingo ,它使用單一視覺語言模型處理多項
    的頭像 發表于 07-16 20:45 ?724次閱讀
    更強更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型開源,在<b class='flag-5'>多</b><b class='flag-5'>模態</b>序列中「補全一切」

    基于視覺的模態觸覺感知系統

    傳統的模態/多任務觸覺感知系統通過集成多種傳感單元來達到模態觸覺信息的解耦,但其往往導致系統結構的復雜性,以及需要應對來自不同刺激間的干
    發表于 10-18 11:24 ?922次閱讀
    基于視覺的<b class='flag-5'>多</b><b class='flag-5'>模態</b>觸覺感知系統

    人工智能領域模態的概念和應用場景

    隨著人工智能技術的不斷發展,模態成為了一個備受關注的研究方向。模態技術旨在將不同類型的數據和信息進行融合,以實現更加準確、高效的人工智能應用。本文將詳細介紹
    的頭像 發表于 12-15 14:28 ?9866次閱讀
    主站蜘蛛池模板: 禁漫羞羞入口| 日本午夜色| 毛片网站网址| 午夜寂寞视频在线观看| 黄色大片视频在线观看| 五月天激情开心网| 国产成人高清| 91精品久久久久含羞草| 亚洲三级毛片| 福利色播| 网站啪啪| 三级理论在线| 天天爽天天狼久久久综合| 亚洲卡一卡2卡三卡4卡国色| 日韩免费三级| 天天槽任我槽免费| 国产精品久久久久久久久久妇女| 女性一级全黄生活片免费看| 天天cao在线| 中文字幕导航| 菲菲国产在线观看| 中文字幕一区二区三区四区五区 | 最新地址四虎www4hutv| 久久这里只有精品免费视频| 九九51精品国产免费看| 亚洲a在线观看| 夜夜骑天天干| 精品一区二区三区三区| 激情免费视频| 精品国产三级a∨在线| 久久精品系列| 手机在线色| 手机看片自拍自自拍日韩免费| 真实偷清晰对白在线视频| 成人精品视频在线观看播放| 欧美xxxx性高清| 免费一级欧美片在线观免看| 荡女妇边被c边呻吟久久| 色综合狠狠操| 久久国产精品99久久久久久牛牛| 五月婷婷激情|