在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

多模態(tài)中NLP與CV融合的方式有哪些?

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:三和廠妹 ? 2020-12-31 10:12 ? 次閱讀

最早接觸多模態(tài)是一個(gè)抖音推薦項(xiàng)目,有一些視頻,標(biāo)題,用戶點(diǎn)贊收藏等信息,給用戶推薦作品,我當(dāng)時(shí)在這個(gè)項(xiàng)目里負(fù)責(zé)用NLP部分上分,雖然最后用wide and deep 整個(gè)團(tuán)隊(duì)效果還可以,但是從a/b test 看文本部分在其中起到的作用為0... ( ) 現(xiàn)在看來還是wide and deep這種方式太粗暴了(對于復(fù)雜信息的融合),本文寫寫多模態(tài)掃盲基礎(chǔ)和最近大家精巧的一些圖像文本融合的模型設(shè)計(jì),主要是在VQA(視覺問答)領(lǐng)域,也有一個(gè)多模態(tài)QA,因?yàn)樵谕扑]領(lǐng)域,你也看到了,即使NLP的貢獻(xiàn)為零,用戶特征足夠,效果也能做到很好了。

一. 概念掃盲

多模態(tài)(MultiModal)

多種不同的信息源(不同的信息形式)中獲取信息表達(dá)

五個(gè)挑戰(zhàn)

表示(Multimodal Representation)的意思,比如shift旋轉(zhuǎn)尺寸不變形,圖像中研究出的一種表示

表示的冗余問題

不同的信號(hào),有的象征性信號(hào),有波信號(hào),什么樣的表示方式方便多模態(tài)模型提取信息

表示的方法

聯(lián)合表示將多個(gè)模態(tài)的信息一起映射到一個(gè)統(tǒng)一的多模態(tài)向量空間

協(xié)同表示負(fù)責(zé)將多模態(tài)中的每個(gè)模態(tài)分別映射到各自的表示空間,但映射后的向量之間滿足一定的相關(guān)性約束。

16adb97c-4a92-11eb-8b86-12bb97331649.jpg

2. 翻譯/轉(zhuǎn)化/映射

信號(hào)的映射,比如給一個(gè)圖像,將圖像翻譯成文字,文字翻譯成圖像,信息轉(zhuǎn)化成統(tǒng)一形式后來應(yīng)用

方式,這里就跟專門研究翻譯的領(lǐng)域是重疊,基于實(shí)例的翻譯,涉及到檢索,字典(規(guī)則)等,基于生成方法如生成翻譯的內(nèi)容

3. 對齊

多模態(tài)對齊定義為從兩個(gè)或多個(gè)模態(tài)中查找實(shí)例子組件之間的關(guān)系和對應(yīng),研究不同的信號(hào)如何對齊(比如給電影,找出劇本中哪一段)

對齊方式,有專門研究對齊的領(lǐng)域,主要兩種,顯示對齊(比如時(shí)間維度上就是顯示對齊的),隱式對齊(比如語言的翻譯就不是位置對位置)

4. 融合

比如情感分析中語氣和語句的融合等

這個(gè)最難也是被研究最多的領(lǐng)域,比如音節(jié)和唇語頭像怎么融合,本筆記主要寫融合方式

二. 應(yīng)用

試聽語音識(shí)別,多媒體內(nèi)容檢索,視頻理解,視頻總結(jié),事件監(jiān)測,情感分析,視頻會(huì)議情感分析,媒體描述,視覺問答等,應(yīng)用其實(shí)很廣,只不過被現(xiàn)在的智能程度大大限制了,whatever, 我覺得視覺也語言的結(jié)合比純NLP,是離智能更近的一步。

三.VQA掃盲 and 常用方式

VQA(Visual Question Answering)

給定一張圖片(視頻)和一個(gè)與該圖片相關(guān)的自然語言問題,計(jì)算機(jī)能產(chǎn)生一個(gè)正確的回答。這是文本QA和Image Captioning的結(jié)合,一般會(huì)涉及到圖像內(nèi)容上的推理,看起來更炫酷(不是指邏輯,就就指直觀感受)。

目前VQA的四大方式

Joint embedding approaches,只是直接從源頭編碼的角度開始融合信息,這也很自然的聯(lián)想到最簡單粗暴的方式就是把文本和圖像的embedding直接拼接(ps:粗暴拼接這種方式很work),Billiner Fusion 最常用了,F(xiàn)usion屆的LR

Attention mechanisms,很多VQA的問題都在attention上做文章,attention本身也是一個(gè)提取信息的動(dòng)作,自從attention is all you need后,大家對attention的應(yīng)用可以說是花式了,本文后面專門介紹CVPR2019的幾篇

Compositional Models,這種方式解決問題的思路是分模塊而治之,各模塊分別處理不同的功能,然后通過模塊的組裝推理得出結(jié)果

比如在[1]中,上圖,問題是What color is his tie?先選擇出 attend 和classify 模塊,并且根據(jù)推理方式組裝模塊,最后得出結(jié)論 4.Models using external knowledge base利用外部知識(shí)庫來做VQA和很好理解,QA都喜歡用知識(shí)庫,這種知識(shí)儲(chǔ)備一勞永逸,例如,為了回答“圖上有多少只哺乳動(dòng)物”這樣的問題,模型必須得知道“哺乳動(dòng)物”的定義,而你想從圖像上去學(xué)習(xí)到哺乳動(dòng)物是有難度的,因此把知識(shí)庫接進(jìn)來檢索是種解決方式,例如在[2]

四. 多模態(tài)中CV和NLP融合的幾種方式

1. Bilinear Fusion 雙線性融合 and Joint embedding Bilinear Fusion 雙線性融合是最常見的一種融合方式了,很多論文用這種方式做基礎(chǔ)結(jié)構(gòu),在CVPR2019一遍VQA多模態(tài)推理[3]中,提出的CELL就是基于這個(gè),作者做關(guān)系推理,不僅對問題與圖片區(qū)域的交互關(guān)系建模,也對圖片區(qū)域間的聯(lián)系建模。并且推導(dǎo)過程是逐步逼近的過程。

作者提出的MuRel,Bilinear Fusion 將每個(gè)圖像區(qū)域特征都分別與問題文本特征融合得到多模態(tài)embedding(Joint embedding ),后者對這些embedding進(jìn)行成對的關(guān)系建模。

第一部分雙線性融合,所謂雙線性簡單來講就是函數(shù)對于兩個(gè)變量都是線性的,參數(shù)(表達(dá)兩種信息關(guān)聯(lián))是個(gè)多為矩陣,作者采用的MUTAN模型里面的Tucker decomposition方法, 將線性關(guān)系的參數(shù)分解大大減小參數(shù)量 第二部分Pairwise relation學(xué)習(xí)的是經(jīng)過融合后節(jié)點(diǎn)之間的兩兩關(guān)系(主要是圖像的關(guān)系),然后和原始text 信息有效(粗暴)拼接 最后如下圖放在網(wǎng)絡(luò),進(jìn)行迭代推理。實(shí)驗(yàn)結(jié)果顯示在跟位置推斷類的問題中,這種結(jié)構(gòu)表現(xiàn)比較好。

2. 花式動(dòng)態(tài)attention融合 這篇[4]作者更上篇一樣同時(shí)注意到了模態(tài)內(nèi)和模態(tài)間的關(guān)系,即作者說的intra-modality relation(模態(tài)內(nèi)部關(guān)系)和inter-modality relation(跨模態(tài)關(guān)系),但是作者更機(jī)智(個(gè)人觀點(diǎn))的用了attention來做各種fusion。 作者認(rèn)為intra-modality relation是對inter-modality relation的補(bǔ)充:圖像區(qū)域不應(yīng)該僅獲得來自問題文本的信息,而且需要與其他圖像區(qū)域產(chǎn)生關(guān)聯(lián)。 模型結(jié)構(gòu)是首先各自分別對圖像和文本提取特征,然后通過通過模態(tài)內(nèi)部的attention建模和模態(tài)間的attention建模,這個(gè)模塊堆疊多次,最后拼接后進(jìn)行分類。模態(tài)間的attention是相互的(文本對圖像,圖像對文本),attention就是采用transform中的attention.

進(jìn)行模態(tài)內(nèi)關(guān)系建模的模塊是Dynamic Intra-modality Attention Flow (DyIntraMAF), 文中最大的亮點(diǎn)是進(jìn)行了 條件attention,即圖像之間的attention信心建立不應(yīng)該只根據(jù)圖像,也要根據(jù)不同的具體問題而產(chǎn)生不同的關(guān)聯(lián)。

這種條件attention的condition設(shè)計(jì)有點(diǎn)類似lstm的門機(jī)制,通過加入gating機(jī)制來控制信息,下圖中圖像的self attention 就是經(jīng)過了text的門機(jī)制來過濾信息。最后作者做了很多ablation studies,達(dá)到了SOTA效果。

1e08147e-4a92-11eb-8b86-12bb97331649.png

3. VQA對話系統(tǒng) 另外有一篇[5]個(gè)多模態(tài)的QA,這篇文章fusion 挺普通的multimodal fusion 也是普通的 billinear, 但是這個(gè)應(yīng)用場景非常非常實(shí)用,我們通常用語言描述的說不清楚的時(shí)候,會(huì)有一圖勝千言語感覺,而多模態(tài)就是從這個(gè)點(diǎn)出發(fā),發(fā)一張圖,like this, like that... 文中就是用這個(gè)做商業(yè)客服的QA

1f0968be-4a92-11eb-8b86-12bb97331649.jpg

模型比較常規(guī),encoder端,先CNN提取了圖片特征,然后根據(jù)商品屬性建一個(gè)屬性分類樹,文本常規(guī)處理,最后通過MFB融合

Decoder 時(shí),文本RNNdecode, 但是圖像居然是用求cos相似,就電商那種產(chǎn)品數(shù)據(jù)的量級(jí),除非在業(yè)務(wù)上做很多前置工作,這種計(jì)算量就不現(xiàn)實(shí)

1f980132-4a92-11eb-8b86-12bb97331649.jpg

In all

這篇屬于擴(kuò)展NLP的廣度,寫的不深,選的論文和很隨便(因?yàn)槲也缓芰私猓鳛橐粋€(gè)NLPer, 寬度上來說我覺得這也是一個(gè)方向.

原文標(biāo)題:多模態(tài)中NLP與CV融合的一些方式

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5510

    瀏覽量

    121336
  • MLP
    MLP
    +關(guān)注

    關(guān)注

    0

    文章

    57

    瀏覽量

    4260

原文標(biāo)題:多模態(tài)中NLP與CV融合的一些方式

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    商湯科技推出“日日新”融合大模型

    剛剛,商湯正式推出“日日新”融合大模型,領(lǐng)先實(shí)現(xiàn)原生融合模態(tài),深度推理能力與模態(tài)信息處理能力均大幅提升,并在兩大權(quán)威評(píng)測榜單奪得第一,成為
    的頭像 發(fā)表于 01-10 15:59 ?217次閱讀

    昱感微創(chuàng)始人&CEO蔣宏受邀出席“聚焦模態(tài)雷視融合感知技術(shù)”學(xué)術(shù)沙龍,共探AI機(jī)器視覺未來

    2025年1月7日,由中新廣州知識(shí)城開發(fā)建設(shè)辦公室、西安電子科技大學(xué)廣州研究院以及海絲產(chǎn)教融合協(xié)同創(chuàng)新中心共同組織的“聚焦模態(tài)雷視融合感知技術(shù)”的學(xué)術(shù)沙龍?jiān)谖靼搽娮涌萍即髮W(xué)廣州研究院
    的頭像 發(fā)表于 01-09 10:35 ?102次閱讀
    昱感微創(chuàng)始人&amp;CEO蔣宏受邀出席“聚焦<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>雷視<b class='flag-5'>融合</b>感知技術(shù)”學(xué)術(shù)沙龍,共探AI機(jī)器視覺未來

    商湯日日新模態(tài)大模型權(quán)威評(píng)測第一

    剛剛,商湯科技日日新SenseNova模態(tài)大模型,在權(quán)威綜合評(píng)測權(quán)威平臺(tái)OpenCompass的模態(tài)評(píng)測取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?271次閱讀

    一文理解模態(tài)大語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態(tài)大語言模型 - 上》介紹了什么是模態(tài)大語言模型,以及構(gòu)建
    的頭像 發(fā)表于 12-03 15:18 ?162次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言模型——下

    超聲界“內(nèi)卷終結(jié)者”!ZRT智銳通提供全新引擎打造模態(tài)影像融合系統(tǒng)

    模態(tài)影像融合超聲系統(tǒng)的市場規(guī)模也在不斷擴(kuò)大,國內(nèi)眾多超聲系統(tǒng)廠家也在不斷尋找合適的硬件平臺(tái),用以承載旗下的模態(tài)影像
    的頭像 發(fā)表于 11-11 10:52 ?675次閱讀
    超聲界“內(nèi)卷終結(jié)者”!ZRT智銳通提供全新引擎打造<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>影像<b class='flag-5'>融合</b>系統(tǒng)

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡單來說,
    的頭像 發(fā)表于 10-18 09:39 ?504次閱讀

    云知聲推出山海模態(tài)大模型

    在人工智能技術(shù)的浩瀚星海中,模態(tài)交互技術(shù)正成為引領(lǐng)未來的新航標(biāo)。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創(chuàng)新之姿,推出了其匠心獨(dú)運(yùn)的山海模態(tài)大模型,正式宣告“Her時(shí)代
    的頭像 發(fā)表于 08-27 15:20 ?406次閱讀

    計(jì)算機(jī)視覺的圖像融合

    在許多計(jì)算機(jī)視覺應(yīng)用(例如機(jī)器人運(yùn)動(dòng)和醫(yī)學(xué)成像),需要將多個(gè)圖像的相關(guān)信息整合到單一圖像。這種圖像融合可以提供更高的可靠性、準(zhǔn)確性和數(shù)據(jù)質(zhì)量。視圖
    的頭像 發(fā)表于 08-01 08:28 ?729次閱讀
    計(jì)算機(jī)視覺<b class='flag-5'>中</b>的圖像<b class='flag-5'>融合</b>

    慕尼黑電子展回顧:啟明智顯模態(tài)硬件智能體引領(lǐng)科技潮流

    人流如織,熱鬧非凡。模態(tài)硬件智能體:未來科技的集大成者展會(huì)現(xiàn)場,啟明智顯隆重推出了其自主研發(fā)的模態(tài)硬件智能體。這一創(chuàng)新產(chǎn)品融合了HMI(
    的頭像 發(fā)表于 07-10 16:17 ?395次閱讀
    慕尼黑電子展回顧:啟明智顯<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>硬件智能體引領(lǐng)科技潮流

    nlp神經(jīng)語言和NLP自然語言的區(qū)別和聯(lián)系

    神經(jīng)語言(Neuro-Linguistic Programming,NLP) 神經(jīng)語言是一種心理學(xué)方法,它研究人類思維、語言和行為之間的關(guān)系。NLP的核心理念是,我們可以通過改變我們的思維方式和語言
    的頭像 發(fā)表于 07-09 10:35 ?816次閱讀

    nlp自然語言處理模型哪些

    自然語言處理(Natural Language Processing,NLP)是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的一個(gè)重要分支,旨在使計(jì)算機(jī)能夠理解、解釋和生成人類語言。以下是對NLP領(lǐng)域一些模型的介紹
    的頭像 發(fā)表于 07-05 09:57 ?803次閱讀

    李未可科技正式推出WAKE-AI模態(tài)AI大模型

    李未可科技模態(tài) AI 大模型正式發(fā)布,積極推進(jìn) AI 在終端的場景應(yīng)用 ? 4月18日,2024國生成式AI大會(huì)上李未可科技正式發(fā)布為眼鏡等未來終端定向優(yōu)化等自研WAKE-AI
    發(fā)表于 04-18 17:01 ?627次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型

    未來已來,傳感器融合感知是自動(dòng)駕駛破局的關(guān)鍵

    技術(shù) ,攝像頭和雷達(dá)等傳感器的探測數(shù)據(jù) 在前端(數(shù)據(jù)獲取時(shí))交互驗(yàn)證,讓自動(dòng)駕駛系統(tǒng)能感知到“看不見”的危險(xiǎn)。 例如,在反向車道強(qiáng)遠(yuǎn)光燈干擾的情況下,當(dāng)雷達(dá)子系統(tǒng)探測到潛在運(yùn)動(dòng)目標(biāo)時(shí),融合感知系統(tǒng)
    發(fā)表于 04-11 10:26

    MWC2024:高通推出全新AI Hub及前沿模態(tài)大模型

    2024年世界移動(dòng)通信大會(huì)(MWC)上,高通再次展現(xiàn)其技術(shù)領(lǐng)導(dǎo)力,通過發(fā)布全新的高通AI Hub和展示前沿的模態(tài)大模型技術(shù),推動(dòng)了5G和AI技術(shù)的融合創(chuàng)新。
    的頭像 發(fā)表于 02-26 16:59 ?1309次閱讀

    什么是模態(tài)?模態(tài)的難題是什么?

    模態(tài)大模型,通常大于100M~1B參數(shù)。具有較強(qiáng)的通用性,比如對圖片中任意物體進(jìn)行分割,或者生成任意內(nèi)容的圖片或聲音。極大降低了場景的定制成本。
    的頭像 發(fā)表于 01-17 10:03 ?4726次閱讀
    什么是<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>?<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的難題是什么?
    主站蜘蛛池模板: 98色花堂国产第一页| 国产一区二区三区美女图片| 韩国一区二区三区视频| 被暗卫肉高h| xx性欧美高清| 最猛91大神ben与女教师| 加勒比一木道|视频在线看| 久久免费香蕉视频| 忘忧草爱网| 国产免费人成在线视频视频| 欧美一区二区三区综合色视频| 欧美在线精品一区二区三区| 黄色大片免费观看| 亚洲国产系列| 午夜影视免费完整高清在线观看网站| 天天躁夜夜躁狠狠躁| 国产亚洲美女精品久久久久狼| 视频在线免费看| 2019天天操夜夜操| h在线观看网站| 国产亚洲一区二区在线观看| 特黄特色三级在线播放| 亚洲精品456| 伊人草| 国产美女精品久久久久久久免费| 22eee在线播放成人免费视频 | 农村一级片| 二级黄绝大片中国免费视频 | 亚洲美女视频一区二区三区| 日本三级在线| 日本精品一在线观看视频| 久久久久久久蜜桃| 久久久综合色| 午夜香蕉网| 丁香六月激情网| 亚洲男人的天堂在线播放| susu成人影院| 亚洲美女精品| 国产一级特黄老妇女大片免费| 国产精品久久久亚洲| 成年网站在线在免费播放|