怎么写网络小说,听中国有声小说,完美世界前传下载

論文標(biāo)題：

Universal Vision-Language Dense Retrieval: Learning A Unified Representation Space for Multi-Modal Retrieval

背景介紹盡管當(dāng)前主流搜索引擎主要面向文本數(shù)據(jù)，然而多媒體內(nèi)容的增長(zhǎng)一直是互聯(lián)網(wǎng)上最顯著趨勢(shì)之一，各種研究表明用戶(hù)更喜歡搜索結(jié)果中出現(xiàn)生動(dòng)的多模態(tài)內(nèi)容。因而，針對(duì)于多模態(tài)數(shù)據(jù)的信息獲取需求在用戶(hù)搜索過(guò)程中尤為重要。

▲圖1. 不同多模態(tài)檢索框架示意圖

為了實(shí)現(xiàn)多模態(tài)檢索過(guò)程，當(dāng)前的多媒體搜索系統(tǒng)通常采用“分而治之”的方法。如圖 1(a) 所示，這些方法首先在單個(gè)模態(tài)中進(jìn)行搜索，包括文本、圖像、視頻等，然后將各個(gè)模態(tài)的檢索結(jié)果融合在一起，例如，在這些單/交叉模態(tài)檢索器之上構(gòu)建另一個(gè)排序模塊來(lái)進(jìn)行模態(tài)融合。

顯而易見(jiàn)，相關(guān)性建模（Relevance Modeling）和檢索結(jié)果融合（Retrieval Result Fusion）二者的建模過(guò)程通常交織在一起，以實(shí)現(xiàn)更準(zhǔn)確的多模態(tài)檢索結(jié)果。然而，由于模態(tài)差距，這類(lèi)模型只能以分而治之的方式進(jìn)行流水線建模，這使得融合來(lái)自不同模態(tài)的檢索結(jié)果具有挑戰(zhàn)性。

在本文中，我們提出端到端多模態(tài)檢索模型，通過(guò)用戶(hù)查詢(xún)對(duì)多模態(tài)文檔進(jìn)行統(tǒng)一的檢索。如圖 1(b) 所示，通用多模態(tài)檢索將查詢(xún)和多模態(tài)文檔映射到一個(gè)統(tǒng)一的嵌入空間，并通過(guò)最近鄰搜索檢索多模態(tài)候選結(jié)果。最終，本文將相關(guān)性建模（Relevance Modeling）、跨模態(tài)匹配（Cross-Modality Matching）和檢索結(jié)果融合（Retrieval Result Fusion）進(jìn)行統(tǒng)一的建模。

多模態(tài)檢索任務(wù)介紹

▲圖2. 不同檢索任務(wù)示意圖

單模態(tài)檢索（Single Modality Retrieval）。如圖 2（a）所示，單模態(tài)檢索側(cè)重于在一個(gè)模態(tài)空間內(nèi)進(jìn)行相關(guān)性檢索，包括文本-文本檢索和圖像-圖像檢索。文本-文本檢索旨在從文本集合中檢索出與查詢(xún)相關(guān)的文本文檔；而圖像-圖像檢索期望于從圖像集合中檢索出與給定查詢(xún)圖像匹配度較高的圖像。

跨模態(tài)檢索（Cross Modality Retrieval）。如圖 2（b）所示，該檢索場(chǎng)景包含兩個(gè)子任務(wù)：文本-圖像檢索，圖像-文本檢索。這兩種任務(wù)要求檢索模型在圖像與圖像對(duì)應(yīng)的描述文字之間進(jìn)行跨模態(tài)匹配，

例如，在圖像-文本檢索任務(wù)中，對(duì)于給定的圖像，檢索模型需要在給定的圖像描述文本集合中檢索出與之匹配的描述文本。這種跨模態(tài)檢索場(chǎng)景中的任務(wù)更加側(cè)重于文本與圖像之間的跨模態(tài)語(yǔ)義信息匹配，不同于信息檢索中的相似度搜索，這種跨模態(tài)匹配更加注重“淺層”的語(yǔ)義匹配，對(duì)于深層的文檔理解能力要求不高。

多模態(tài)檢索（Multi-Modal Retrieval）。如圖 2（c）所示，該檢索場(chǎng)景旨在包含多模態(tài)文檔的數(shù)據(jù)集合中檢索相關(guān)文檔。在多模態(tài)檢索場(chǎng)景下，檢索模型需要同時(shí)處理查詢(xún)與不同模態(tài)文檔之間的相似度計(jì)算，例如，對(duì)于給定的查詢(xún)，檢索模型需要在給定的文檔集合中檢索出相似文檔。

不同于單模態(tài)檢索和跨模態(tài)檢索，多模態(tài)檢索的目的是從多模態(tài)文檔集合中檢索、返回相關(guān)文檔。根據(jù)用戶(hù)的查詢(xún)，檢索結(jié)果可能由文本文檔、圖像文檔或文本文檔與圖像文檔的混合序列組成。多模態(tài)檢索更加關(guān)注查詢(xún)和文檔之間的關(guān)聯(lián)建模，且檢索過(guò)程中涉及查詢(xún)與文本文檔的單模態(tài)匹配、查詢(xún)與圖像文檔的跨模態(tài)匹配以及不同模態(tài)文檔與查詢(xún)的相似度之間的比較，這使得這項(xiàng)任務(wù)具有更大的挑戰(zhàn)性。

UniVL-DR：基于統(tǒng)一表征空間的多模態(tài)稠密向量檢索框架

▲圖3. UniVL-DR模型結(jié)構(gòu)圖

在多模態(tài)信息檢索場(chǎng)景下，本文提出了 Universal Vision-Language Dense Retrieval (UniVL-DR) 模型來(lái)建模多模態(tài)檢索過(guò)程。如圖 3 所示，對(duì)于給定用戶(hù)查詢(xún)和多模態(tài)文檔，UniVL-DR 將用戶(hù)查詢(xún)、文本文檔和圖像文檔編碼在一個(gè)統(tǒng)一的向量表征空間中，并在該表征空間中進(jìn)行用戶(hù)查詢(xún)與相關(guān)文檔的相關(guān)性建模以及多模態(tài)文檔向量表征建模。

UniVL-DR 由兩個(gè)編碼器構(gòu)成：文本編碼器和圖像編碼器。查詢(xún)、圖像文檔和文本文檔均通過(guò)這兩個(gè)編碼器編碼得到稠密向量表示。

查詢(xún)編碼：如公式（1）所示，本文算法直接通過(guò)文本編碼器對(duì)查詢(xún)進(jìn)行編碼，得到查詢(xún)的表征向量：

文本文檔編碼：如公式（2）所示，對(duì)于文本文檔，本文算法將其經(jīng)過(guò)文本編碼器得到文本文檔的稠密表征向量：

圖像文檔編碼：與文本文檔不同，圖像文檔可以通過(guò)圖像特征和圖像描述表示，并且圖像的文本描述可以幫助模型更好地理解圖像文檔的語(yǔ)義。因此，如公式（3）所示，本文對(duì)圖像和圖像的文本描述進(jìn)行編碼，得到編碼后的向量，再對(duì)這些向量進(jìn)行求和得到第 i 個(gè)圖像文檔的稠密表征向量：

圖像文檔的稠密表征向量和文本文檔的稠密表征向量使用相同的文本編碼器進(jìn)行編碼，這種處理方式在文本空間中架起了兩種模態(tài)文檔間的橋梁，為多模態(tài)檢索建立了一個(gè)統(tǒng)一的以語(yǔ)言為中心的稠密向量表征空間。在檢索時(shí)，由公式（4）所示，本算法通過(guò)計(jì)算查詢(xún)與候選文檔的余弦相似度得分來(lái)評(píng)估查詢(xún)與該文檔之間的相似度：

在訓(xùn)練過(guò)程中，本文采用模態(tài)均衡化的難負(fù)例選取策略，有效地構(gòu)建多模態(tài)文檔表征空間并進(jìn)行優(yōu)化，避免了在多模態(tài)數(shù)據(jù)共同訓(xùn)練過(guò)程中對(duì)某一模態(tài)信息的過(guò)擬合。具體來(lái)說(shuō)，由公式（5）所示，對(duì)于給定查詢(xún)及候選文檔，本文通過(guò)對(duì)不同模態(tài)的難負(fù)例進(jìn)行采樣并最小化對(duì)比學(xué)習(xí)損失來(lái)優(yōu)化表征向量空間。這使得查詢(xún)表征向量的空間分布更接近相關(guān)文檔而遠(yuǎn)離不相關(guān)文檔。K1 和 K2 分別代表圖像文檔負(fù)例的數(shù)量和文本文檔負(fù)例的數(shù)量，如果訓(xùn)練過(guò)程中，K1 與 K2 不相等，那么模型很可能學(xué)習(xí)到偏差較大的分布空間，例如，若 K1偏差的問(wèn)題。，訓(xùn)練時(shí)，查詢(xún)的表征分布將偏向于文本文檔的表征域，以此來(lái)獲得較低的損失值。這種情況會(huì)造成模型訓(xùn)練時(shí)對(duì)某個(gè)模態(tài)過(guò)擬合，從而導(dǎo)致檢索中僅關(guān)注某一模態(tài)的文檔，造成模態(tài)<>為了避免這種模態(tài)過(guò)擬合的問(wèn)題，本文使用模態(tài)均衡化的難負(fù)例選擇策略，即訓(xùn)練過(guò)程中始終保持 K1=K2=K，從而構(gòu)建更加均衡、穩(wěn)定的多模態(tài)表征空間。

為解決圖像文檔與文本文檔在表征上的模態(tài)屏障，本文提出通過(guò)圖像的語(yǔ)言化拓展來(lái)彌合不同模態(tài)文檔間表征鴻溝的方法。

▲圖4. 圖像的語(yǔ)言拓展算法示意圖

本文借鑒信息檢索領(lǐng)域中的文檔拓展技術(shù)對(duì)圖像進(jìn)行語(yǔ)言化拓展，增強(qiáng)圖像的語(yǔ)義表示。如圖（4）所示，首先對(duì)圖像進(jìn)行目標(biāo)檢測(cè)，得到圖像的區(qū)域特征和檢測(cè)出的區(qū)域文本標(biāo)簽集合。本文首先將由圖像和目標(biāo)檢測(cè)得到的區(qū)域標(biāo)簽生成圖像描述形式的語(yǔ)言化拓展，輸入結(jié)構(gòu)如公式（6）所示：

其次將由圖像文檔生成與圖像對(duì)應(yīng)的查詢(xún)形式的語(yǔ)言化拓展，輸入結(jié)構(gòu)如公式（7）所示：

最后，如公式（8）所示本文將生成的圖像語(yǔ)言化拓展與圖像原始的文本描述拼接作為圖像文檔中文本部分的新表示。新的文本表示具有更強(qiáng)的語(yǔ)義信息，可以幫助圖像文檔更好地適配語(yǔ)言信息的表征空間。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果如表 2 所示。UniVL-DR 在性能評(píng)估上比所有基線模型提高了 7% 以上，顯著的檢索性能提升說(shuō)明了本文算法在構(gòu)建面向多模態(tài)文檔的信息檢索系統(tǒng)方面的有效性。相比較分而治之的策略，UniVL-DR 甚至超過(guò)了 BM25&CLIP-DPR（Oracle Modality）模型，該模型利用了數(shù)據(jù)集中標(biāo)注的與用戶(hù)問(wèn)題相關(guān)的文檔模態(tài)信息進(jìn)行模態(tài)路由。證明統(tǒng)一化的多模態(tài)文檔向量建模能夠很好地建模多模態(tài)檢索任務(wù)。

▲表2. 主實(shí)驗(yàn)結(jié)果

如表 3 所示，本文展示了模型的消融試驗(yàn)結(jié)果。在實(shí)驗(yàn)中我們發(fā)現(xiàn)針對(duì)于多模態(tài)檢索任務(wù)，圖像文檔的標(biāo)題信息相比較像素信息更加重要。同時(shí)，在圖像文檔標(biāo)題信息的基礎(chǔ)上加入圖像像素信息能夠進(jìn)一步提升檢索的效果。

▲表3. 消融實(shí)驗(yàn)結(jié)果

如圖 5 所示，在用戶(hù)問(wèn)題中，往往會(huì)出現(xiàn)與圖片所描述內(nèi)容相關(guān)的實(shí)體，例如：明尼通卡杜鵑花（Minnetonka Rhododendron flower），然而，現(xiàn)有的圖片編碼器（例如：CLIP）往往缺少此類(lèi)的背景知識(shí)，因而導(dǎo)致在多模態(tài)檢索過(guò)程中圖像文本的像素編碼向量的作用不大。此原因?qū)е铝嗽诙嗄B(tài)檢索過(guò)程中圖片像素的語(yǔ)義信息對(duì)檢索精度的提升貢獻(xiàn)不大的現(xiàn)象。

▲圖5. 圖片檢索樣例

進(jìn)一步我們通過(guò)不同負(fù)例選取方式訓(xùn)練得到的多模態(tài)檢索模型的向量空間可視化，如圖 6 所示。我們的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)，通過(guò)模態(tài)平衡難負(fù)例訓(xùn)練的檢索模型學(xué)習(xí)的向量空間更加的均勻。同時(shí)，通過(guò)對(duì)難負(fù)例的模態(tài)進(jìn)行平衡可以很好地緩解檢索模型對(duì)于模態(tài)的偏見(jiàn)問(wèn)題。

▲圖6. 稠密向量可視化

總結(jié)本文提出了 UniVL-DR，UniVL-DR 構(gòu)建了統(tǒng)一的多模態(tài)向量表征空間，將單模態(tài)、跨模態(tài)匹配和檢索結(jié)果融合建模在一起，實(shí)現(xiàn)端到端的多模態(tài)信息檢索。具體來(lái)講，本文的主要貢獻(xiàn)有以下兩點(diǎn)：1）通過(guò)模態(tài)均衡的難負(fù)例選取策略進(jìn)行統(tǒng)一多模態(tài)表征空間的對(duì)比優(yōu)化。2）利用圖像語(yǔ)言化方法彌合了原始數(shù)據(jù)空間中圖像和文本之間的模態(tài)差距。實(shí)驗(yàn)表明，UniVL-DR 可以通過(guò)圖像語(yǔ)言化技術(shù)彌合模態(tài)差距，并通過(guò)模態(tài)均衡的難負(fù)例選取策略避免過(guò)度擬合某一種模態(tài)的訓(xùn)練監(jiān)督信號(hào)。 ·

原文標(biāo)題：UniVL-DR: 多模態(tài)稠密向量檢索模型

文章出處：【微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

物聯(lián)網(wǎng)

物聯(lián)網(wǎng)

+關(guān)注

關(guān)注
2910

文章
44778

瀏覽量
374686

原文標(biāo)題：UniVL-DR: 多模態(tài)稠密向量檢索模型

文章出處：【微信號(hào)：tyutcsplab，微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

商湯日日新多模態(tài)大模型權(quán)威評(píng)測(cè)第一

剛剛，商湯科技日日新SenseNova多模態(tài)大模型，在權(quán)威綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass的多模態(tài)評(píng)測(cè)中取得榜單第一。

發(fā)表于 12-20 10:39 ?259次閱讀

一文理解多模態(tài)大語(yǔ)言模型——下

/understanding-multimodal-llms ? 《一文理解多模態(tài)大語(yǔ)言模型 - 上》介紹了什么是多模態(tài)大語(yǔ)言

發(fā)表于 12-03 15:18 ?155次閱讀

一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語(yǔ)言<b class='flag-5'>模型</b>——下

一文理解多模態(tài)大語(yǔ)言模型——上

/understanding-multimodal-llms 在過(guò)去幾個(gè)月中， OpenVINO? 架構(gòu)師 Yury閱讀了眾多有關(guān)多模態(tài)大語(yǔ)言模型的論文和博客，在此基礎(chǔ)上，推薦了一篇解讀多

發(fā)表于 12-02 18:29 ?361次閱讀

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進(jìn)行融合，通過(guò)學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)，實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來(lái)說(shuō)，多

發(fā)表于 10-18 09:39 ?483次閱讀

云知聲山海多模態(tài)大模型UniGPT-mMed登頂MMMU測(cè)評(píng)榜首

近日，多模態(tài)人工智能模型基準(zhǔn)評(píng)測(cè)集MMMU更新榜單，云知聲山海多模態(tài)大模型UniGPT-mMed

發(fā)表于 10-12 14:09 ?305次閱讀

Meta發(fā)布多模態(tài)LLAMA 3.2人工智能模型

Meta Platforms近日宣布了一項(xiàng)重要技術(shù)突破，成功推出了多模態(tài)LLAMA 3.2人工智能模型。這一創(chuàng)新模型不僅能夠深度解析文本信息，還實(shí)現(xiàn)了對(duì)圖像內(nèi)容的精準(zhǔn)理解，標(biāo)志著Met

發(fā)表于 09-27 11:44 ?417次閱讀

云知聲推出山海多模態(tài)大模型

在人工智能技術(shù)的浩瀚星海中，多模態(tài)交互技術(shù)正成為引領(lǐng)未來(lái)的新航標(biāo)。繼OpenAI的GPT-4o掀起滔天巨浪后，云知聲以創(chuàng)新之姿，推出了其匠心獨(dú)運(yùn)的山海多模態(tài)大

發(fā)表于 08-27 15:20 ?405次閱讀

依圖多模態(tài)大模型伙伴CTO精研班圓滿(mǎn)舉辦

大模型在不同行業(yè)領(lǐng)域的應(yīng)用前景;7月19日， “依圖科技多模態(tài)大模型伙伴CTO精研班”在杭州圓滿(mǎn)舉辦，讓更多的伙伴們深度體驗(yàn)了依圖多

發(fā)表于 07-23 15:16 ?430次閱讀

人大系初創(chuàng)公司智子引擎發(fā)布全新多模態(tài)大模型Awaker 1.0

人大系初創(chuàng)公司智子引擎近日震撼發(fā)布了新一代多模態(tài)大模型Awaker 1.0，這一里程碑式的成果標(biāo)志著公司在通用人工智能（AGI）領(lǐng)域取得了重要突破。與前代ChatImg序列模型相比，A

發(fā)表于 05-06 09:59 ?629次閱讀

李未可科技正式推出WAKE-AI多模態(tài)AI大模型

李未可科技多模態(tài) AI 大模型正式發(fā)布，積極推進(jìn) AI 在終端的場(chǎng)景應(yīng)用 ? 4月18日，2024中國(guó)生成式AI大會(huì)上李未可科技正式發(fā)布為眼鏡等未來(lái)終端定向優(yōu)化等自研WAKE-AI多

發(fā)表于 04-18 17:01 ?623次閱讀

AI機(jī)器人迎來(lái)多模態(tài)模型

配備 GR00T 模型的機(jī)器人由于需要“吸收消化”外界的多模態(tài)信息，還要快速完成理解、決策、行動(dòng)等一系列動(dòng)作，因此對(duì)于算力的需求是巨量的。

發(fā)表于 04-12 10:39 ?291次閱讀

蘋(píng)果發(fā)布300億參數(shù)MM1多模態(tài)大模型

近日，科技巨頭蘋(píng)果公司在一篇由多位專(zhuān)家共同撰寫(xiě)的論文中，正式公布了其最新的多模態(tài)大模型研究成果——MM1。這款具有高達(dá)300億參數(shù)的多模態(tài)

發(fā)表于 03-19 11:19 ?921次閱讀

螞蟻集團(tuán)推出20億參數(shù)多模態(tài)遙感基礎(chǔ)模型SkySense

近日，螞蟻集團(tuán)聯(lián)合武漢大學(xué)宣布成功研發(fā)出20億參數(shù)多模態(tài)遙感基礎(chǔ)模型SkySense。這一創(chuàng)新模型由螞蟻集團(tuán)的AI創(chuàng)新研發(fā)部門(mén)NextEvo與武漢大學(xué)共同完成，是迄今為止國(guó)際上參數(shù)規(guī)模

發(fā)表于 03-04 11:22 ?841次閱讀

韓國(guó)Kakao宣布開(kāi)發(fā)多模態(tài)大語(yǔ)言模型“蜜蜂”

韓國(guó)互聯(lián)網(wǎng)巨頭Kakao最近宣布開(kāi)發(fā)了一種名為“蜜蜂”(Honeybee)的多模態(tài)大型語(yǔ)言模型。這種創(chuàng)新模型能夠同時(shí)理解和處理圖像和文本數(shù)據(jù)，為更豐富的交互和查詢(xún)響應(yīng)提供了可能性。

發(fā)表于 01-19 16:11 ?714次閱讀

機(jī)器人基于開(kāi)源的多模態(tài)語(yǔ)言視覺(jué)大模型

ByteDance Research 基于開(kāi)源的多模態(tài)語(yǔ)言視覺(jué)大模型 OpenFlamingo 開(kāi)發(fā)了開(kāi)源、易用的 RoboFlamingo 機(jī)器人操作模型，只用單機(jī)就可以訓(xùn)練。

發(fā)表于 01-19 11:43 ?425次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

UniVL-DR: 多模態(tài)稠密向量檢索模型

評(píng)論

商湯日日新多模態(tài)大模型權(quán)威評(píng)測(cè)第一

一文理解多模態(tài)大語(yǔ)言模型——下

一文理解多模態(tài)大語(yǔ)言模型——上

利用OpenVINO部署Qwen2多模態(tài)模型

云知聲山海多模態(tài)大模型UniGPT-mMed登頂MMMU測(cè)評(píng)榜首

Meta發(fā)布多模態(tài)LLAMA 3.2人工智能模型

云知聲推出山海多模態(tài)大模型

依圖多模態(tài)大模型伙伴CTO精研班圓滿(mǎn)舉辦

人大系初創(chuàng)公司智子引擎發(fā)布全新多模態(tài)大模型Awaker 1.0

李未可科技正式推出WAKE-AI多模態(tài)AI大模型

AI機(jī)器人迎來(lái)多模態(tài)模型

蘋(píng)果發(fā)布300億參數(shù)MM1多模態(tài)大模型

螞蟻集團(tuán)推出20億參數(shù)多模態(tài)遙感基礎(chǔ)模型SkySense

韓國(guó)Kakao宣布開(kāi)發(fā)多模態(tài)大語(yǔ)言模型“蜜蜂”

機(jī)器人基于開(kāi)源的多模態(tài)語(yǔ)言視覺(jué)大模型