在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

簡(jiǎn)述文本與圖像領(lǐng)域的多模態(tài)學(xué)習(xí)有關(guān)問題

自然語(yǔ)言處理愛好者 ? 來(lái)源:哈工大SCIR ? 作者:李曉辰 ? 2021-08-26 16:29 ? 次閱讀

來(lái)自:哈工大SCIR

本期導(dǎo)讀:近年來(lái)研究人員在計(jì)算機(jī)視覺和自然語(yǔ)言處理方向均取得了很大進(jìn)展,因此融合了二者的多模態(tài)深度學(xué)習(xí)也越來(lái)越受到關(guān)注。本期主要討論結(jié)合文本和圖像的多模態(tài)任務(wù),將從多模態(tài)預(yù)訓(xùn)練模型中的幾個(gè)分支角度,簡(jiǎn)述文本與圖像領(lǐng)域的多模態(tài)學(xué)習(xí)有關(guān)問題。

1. 引言

近年來(lái),計(jì)算機(jī)視覺和自然語(yǔ)言處理方向均取得了很大進(jìn)展。而融合二者的多模態(tài)深度學(xué)習(xí)也越來(lái)越受到關(guān)注,在基于圖像和視頻的字幕生成、視覺問答(VQA)、視覺對(duì)話、基于文本的圖像生成等方面研究成果顯著,下圖1展示了有關(guān)多模態(tài)深度學(xué)習(xí)的應(yīng)用范疇。

在這些任務(wù)中,無(wú)論是文本還是語(yǔ)音,自然語(yǔ)言都起到了幫助計(jì)算機(jī)“理解”圖像內(nèi)容的關(guān)鍵作用,這里的“理解”指的是對(duì)齊語(yǔ)言中蘊(yùn)含的語(yǔ)義特征與圖像中蘊(yùn)含的圖像特征。本文主要關(guān)注于結(jié)合文本和圖像的多模態(tài)任務(wù),將從多模態(tài)預(yù)訓(xùn)練模型中的幾個(gè)分支來(lái)分析目前圖像與文本的多模態(tài)信息處理領(lǐng)域的有關(guān)問題。

2. 多模態(tài)預(yù)訓(xùn)練模型

學(xué)習(xí)輸入特征的更好表示是深度學(xué)習(xí)的核心內(nèi)容。在傳統(tǒng)的NLP單模態(tài)領(lǐng)域,表示學(xué)習(xí)的發(fā)展已經(jīng)較為完善,而在多模態(tài)領(lǐng)域,由于高質(zhì)量有標(biāo)注多模態(tài)數(shù)據(jù)較少,因此人們希望能使用少樣本學(xué)習(xí)甚至零樣本學(xué)習(xí)。最近兩年出現(xiàn)了基于Transformer結(jié)構(gòu)的多模態(tài)預(yù)訓(xùn)練模型,通過海量無(wú)標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,然后使用少量有標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)即可。

多模態(tài)預(yù)訓(xùn)練模型根據(jù)信息融合的方式可分為兩大類,分別是Cross-Stream類和Single-Stream類。

(1)Cross-Stream類模型是指將不同模態(tài)的輸入分別處理之后進(jìn)行交叉融合,例如ViLBERT[1]。2019年Lu Jiasen等人將輸入的文本經(jīng)過文本Embedding層后被輸入到Transformer編碼器中提取上下文信息。

使用預(yù)訓(xùn)練Faster R-CNN生成圖片候選區(qū)域提取特征并送入圖像Embedding層,然后將獲取好的文本和圖像表示通過Co-attention-transformer模塊進(jìn)行交互融合,得到最后的表征。

(2)Single-Stream類模型將圖片、文本等不同模態(tài)的輸入一視同仁,在同一個(gè)模型進(jìn)行融合,例如VL-BERT[2]。2020年,Su Weijie等人提出了VL-BERT,它采用transformer作為主干,將視覺和語(yǔ)言嵌入特征同時(shí)輸入模型。

3. 統(tǒng)一多模態(tài)模型

在之前的模型中,單模態(tài)數(shù)據(jù)集上訓(xùn)練的模型只能做各自領(lǐng)域的任務(wù),否則它們的表現(xiàn)會(huì)大幅下降。要想學(xué)習(xí)多模態(tài)模型必須圖文結(jié)合才行。這種多模態(tài)圖文對(duì)數(shù)據(jù)數(shù)據(jù)量少,獲取成本高。2021年,百度的Li Wei等人[3]提出的UNIMO模型,統(tǒng)一了單模態(tài)、多模態(tài)模型的訓(xùn)練方式,既可以利用海量的單模態(tài)數(shù)據(jù),又能將多模態(tài)信號(hào)統(tǒng)一在一個(gè)語(yǔ)義空間內(nèi)促進(jìn)理解。

UNIMO的核心網(wǎng)絡(luò)是Transformer,同時(shí)為圖像和文本輸入學(xué)習(xí)統(tǒng)一的語(yǔ)義表示。圖像和文本數(shù)據(jù)分別通過預(yù)訓(xùn)練的Faster R-CNN和Bert進(jìn)行特征提取和表示,多模態(tài)圖文對(duì)數(shù)據(jù)被轉(zhuǎn)換為圖像表示序列和文本表示序列的拼接。

這三種類型數(shù)據(jù)共享模型參數(shù),經(jīng)過多層注意力機(jī)制后得到圖像文本信息統(tǒng)一的語(yǔ)義表示,UNIMO結(jié)構(gòu)如圖4所示。其訓(xùn)練方式類似Bert, 此外論文還提出了一種跨模態(tài)對(duì)比學(xué)習(xí)的新預(yù)訓(xùn)練方法。

在多模態(tài)任務(wù)上, UNIMO超過了諸如ViLBERT、VLP、UNITER、Oscar、Villa等最新的多模預(yù)訓(xùn)練模型。而且在單模態(tài)任務(wù)上也取得了不錯(cuò)的效果,如圖5(b)所示。

4. 視覺物體錨點(diǎn)模型

前面的幾個(gè)模型只是將圖像區(qū)域特征和文本特征連接起來(lái)作為輸入,并不參考任何對(duì)齊線索,利用Transformer的self-attention機(jī)制,讓模型自動(dòng)學(xué)習(xí)整張圖像和文本的語(yǔ)義對(duì)齊方式。Oscar的作者[4]提出把物體用作圖像和文本語(yǔ)義層面上的錨點(diǎn)(Anchor Point),以簡(jiǎn)化圖像和文本之間的語(yǔ)義對(duì)齊的學(xué)習(xí)任務(wù)。

使用Faster R-CNN等預(yù)訓(xùn)練物體檢測(cè)器 ,將圖像表示為一組圖像區(qū)域特征,每個(gè)圖像區(qū)域特征分配一個(gè)物體標(biāo)簽,同時(shí)使用預(yù)訓(xùn)練后的BERT得到物體標(biāo)簽的詞嵌入表示。

該模型在共享空間中顯式地將圖像和文本關(guān)聯(lián)在一起,物體則扮演圖像、文本語(yǔ)義對(duì)齊中錨點(diǎn)的角色。在此例中,由于視覺重疊區(qū)域,“狗”和“沙發(fā)”在圖像區(qū)域特征空間中相似,在單詞嵌入空間中有所差異。

經(jīng)過實(shí)驗(yàn)測(cè)試,該模型的性能在多個(gè)任務(wù)上已經(jīng)超過SOTA模型。下表中 SoTAS、 SoTAB、和SoTAL分別表示小規(guī)模模型、與Bert-base和Bert-large規(guī)模相近的VLP模型。OscarB和OscarL分別是基于Bert-base和Bert-large訓(xùn)練的Oscar模型。

5. 總結(jié)

目前多模態(tài)研究已經(jīng)取得了較大進(jìn)展,但如果以構(gòu)建能感知多模態(tài)信息并利用多模態(tài)信息跨越語(yǔ)義鴻溝的智能系統(tǒng)為目標(biāo),那么現(xiàn)在的研究仍處于初級(jí)階段,既面臨著挑戰(zhàn),也存在著機(jī)遇。在未來(lái),多模態(tài)表示學(xué)習(xí)、多模態(tài)情感分析以及任務(wù)導(dǎo)向的大規(guī)模多模態(tài)人機(jī)交互系統(tǒng)等方向的發(fā)展值得我們關(guān)注。

Reference

[1] Lu J , Batra D , Parikh D , et al. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks[J]。 2019.

[2] Su W , Zhu X , Y Cao, et al. VL-BERT: Pre-training of Generic Visual-Linguistic Representations[J]。 2019.

[3] Li W , Gao C , Niu G , et al. UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning[J]。 2020.

[4] Li X , Yin X , Li C , et al. Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks[M]。 2020.

原文:李曉辰

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1084

    瀏覽量

    40468
  • 計(jì)算機(jī)視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1698

    瀏覽量

    45994
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5503

    瀏覽量

    121170
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    618

    瀏覽量

    13561

原文標(biāo)題:多模態(tài)預(yù)訓(xùn)練模型簡(jiǎn)述

文章出處:【微信號(hào):NLP_lover,微信公眾號(hào):自然語(yǔ)言處理愛好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    商湯日日新模態(tài)大模型權(quán)威評(píng)測(cè)第一

    剛剛,商湯科技日日新SenseNova模態(tài)大模型,在權(quán)威綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass的模態(tài)評(píng)測(cè)中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?191次閱讀

    一文理解模態(tài)大語(yǔ)言模型——下

    /understanding-multimodal-llms ? 《一文理解模態(tài)大語(yǔ)言模型 - 上》介紹了什么是模態(tài)大語(yǔ)言模型,以及構(gòu)建
    的頭像 發(fā)表于 12-03 15:18 ?129次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語(yǔ)言模型——下

    一文理解模態(tài)大語(yǔ)言模型——上

    /understanding-multimodal-llms 在過去幾個(gè)月中, OpenVINO? 架構(gòu)師 Yury閱讀了眾多有關(guān)模態(tài)大語(yǔ)言模型的論文和博客,在此基礎(chǔ)上,推薦了一篇解讀
    的頭像 發(fā)表于 12-02 18:29 ?328次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語(yǔ)言模型——上

    淺析OpenVINO 2024.5的新功能

    ,事實(shí)上在安全、監(jiān)控或醫(yī)療保健等某些領(lǐng)域至關(guān)重要。它代表了從處理文本到處理不同輸入和生成不同形式輸出的重大演變。例如,模態(tài)模型可以接收長(zhǎng)視頻,并以
    的頭像 發(fā)表于 11-25 17:12 ?226次閱讀

    AI大模型的最新研究進(jìn)展

    。例如,在醫(yī)療領(lǐng)域,生成式AI可以幫助醫(yī)生生成診斷報(bào)告、治療方案等;在教育領(lǐng)域,AI大模型可以生成個(gè)性化的學(xué)習(xí)資源和建議。 模態(tài)融合與交互
    的頭像 發(fā)表于 10-23 15:19 ?447次閱讀

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)(如文本圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)
    的頭像 發(fā)表于 10-18 09:39 ?440次閱讀

    Meta發(fā)布模態(tài)LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一項(xiàng)重要技術(shù)突破,成功推出了模態(tài)LLAMA 3.2人工智能模型。這一創(chuàng)新模型不僅能夠深度解析文本信息,還實(shí)現(xiàn)了對(duì)圖像內(nèi)容的精準(zhǔn)理解,標(biāo)志著Met
    的頭像 發(fā)表于 09-27 11:44 ?407次閱讀

    云知聲推出山海模態(tài)大模型

    在人工智能技術(shù)的浩瀚星海中,模態(tài)交互技術(shù)正成為引領(lǐng)未來(lái)的新航標(biāo)。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創(chuàng)新之姿,推出了其匠心獨(dú)運(yùn)的山海模態(tài)大模型,正式宣告“Her時(shí)代
    的頭像 發(fā)表于 08-27 15:20 ?394次閱讀

    依圖模態(tài)大模型伙伴CTO精研班圓滿舉辦

    大模型在不同行業(yè)領(lǐng)域的應(yīng)用前景;7月19日, “依圖科技模態(tài)大模型伙伴CTO精研班”在杭州圓滿舉辦,讓更多的伙伴們深度體驗(yàn)了依圖模態(tài)大模
    的頭像 發(fā)表于 07-23 15:16 ?422次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)在文本分類領(lǐng)域的應(yīng)用

    在自然語(yǔ)言處理(NLP)領(lǐng)域文本分類一直是一個(gè)重要的研究方向。隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡(jiǎn)稱CNN)在圖像識(shí)
    的頭像 發(fā)表于 07-01 16:25 ?729次閱讀

    李未可科技正式推出WAKE-AI模態(tài)AI大模型

    文本生成、語(yǔ)言理解、圖像識(shí)別及視頻生成等模態(tài)交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語(yǔ)音打造新一代 LLM-Based的自然交互,同時(shí)
    發(fā)表于 04-18 17:01 ?601次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型

    蘋果發(fā)布300億參數(shù)MM1模態(tài)大模型

    近日,科技巨頭蘋果公司在一篇由多位專家共同撰寫的論文中,正式公布了其最新的模態(tài)大模型研究成果——MM1。這款具有高達(dá)300億參數(shù)的模態(tài)模型系列,由密集模型和混合專家(MoE)變體組
    的頭像 發(fā)表于 03-19 11:19 ?901次閱讀

    【有獎(jiǎng)】 百度智能云度目推出首款模態(tài) AI 模組,應(yīng)用場(chǎng)景有獎(jiǎng)?wù)骷?/a>

    具備AI圖文理解、語(yǔ)音喚醒、智能輪對(duì)話等能力 數(shù)據(jù)處理能力強(qiáng)大,分析速度快,二次開發(fā)高度集成易用 點(diǎn)擊視頻可看度目LUCA互動(dòng)表現(xiàn) 度目模態(tài)AI模組LUCA系列有以下三大特點(diǎn): 1. 強(qiáng)大的處理能力 支持同時(shí)處理
    的頭像 發(fā)表于 02-26 15:19 ?545次閱讀

    韓國(guó)Kakao宣布開發(fā)模態(tài)大語(yǔ)言模型“蜜蜂”

    韓國(guó)互聯(lián)網(wǎng)巨頭Kakao最近宣布開發(fā)了一種名為“蜜蜂”(Honeybee)的模態(tài)大型語(yǔ)言模型。這種創(chuàng)新模型能夠同時(shí)理解和處理圖像文本數(shù)據(jù),為更豐富的交互和查詢響應(yīng)提供了可能性。
    的頭像 發(fā)表于 01-19 16:11 ?699次閱讀

    什么是模態(tài)模態(tài)的難題是什么?

    模態(tài)大模型,通常大于100M~1B參數(shù)。具有較強(qiáng)的通用性,比如對(duì)圖片中任意物體進(jìn)行分割,或者生成任意內(nèi)容的圖片或聲音。極大降低了場(chǎng)景的定制成本。
    的頭像 發(fā)表于 01-17 10:03 ?4647次閱讀
    什么是<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>?<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的難題是什么?
    主站蜘蛛池模板: 国内精品视频在线| 男人都懂得网址| 久久精品屋| 色777777女人色| 视频一区二区在线| 4hu44四虎在线观看| 9984四虎永久免费网站| 午夜黄色一级片| 97色资源| 搜索黄色录像| 综合7799亚洲伊人爱爱网| 91综合在线视频| 在线看片地址| 色噜噜人体337p人体| 色爱综合网| 午夜高清视频在线观看| 国产精品福利视频手机免费观看| 精品一区亚洲| 好男人www社区影视在线| 亚洲va中文va欧美va爽爽| 看片免费黄| 伊人久久狼人| 五月综合色| www.四虎影| 久久国产免费福利永久| 亚洲视频久久| 色香蕉在线观看网站| 成人a级特黄毛片| 乱人伦xxxx国语对白| 伊人成伊人成综合网2222| 丁香六月激情婷婷| 呦交小u女国产秘密入口| 5g成人影院| 天堂影院在线| 午夜8050| 中文字幕一区二区三区有限公司 | 国产资源网| 精品国产自在在线在线观看| 色播视频在线观看免费| 天天插天天色| 亚洲 欧美 日韩 综合|