小说网,完美世界,玄幻小说排行榜

很榮幸我們近期的工作Parameter-efficient Tuning of Large-scaleMultimodal Foundation Model被NeurIPS2023錄用！

https://arxiv.org/abs/2305.08381

這是我們第一篇拓展至多模態(tài)領(lǐng)域的高效微調(diào)的工作，在該工作中我們首次采用模式逼近（mode apprximation）的方法來進行大模型的輕量化高效微調(diào)，僅需訓練預(yù)訓練大模型0.04%的參數(shù)。同時我們設(shè)計了兩個啟發(fā)性模塊來增強高效微調(diào)時極低參數(shù)條件下的模態(tài)對齊。實驗上，我們在六大跨模態(tài)基準測試集上進行全面評估顯示,我們的方法不僅超越當前的sota, 還在一些任務(wù)上優(yōu)于全量微調(diào)方法。

論文的相關(guān)代碼也會開源在這個GitHub項目：

github.com/WillDreamer/Aurora

大模型的高效微調(diào)是一個非常新且日漸繁榮的task，歡迎小伙伴們一起學習交流～

一、背景

深度學習的大模型時代已經(jīng)來臨,越來越多的大規(guī)模預(yù)訓練模型在文本、視覺和多模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個明顯缺點。第一,它帶來巨大的計算和物理存儲成本,使預(yù)訓練和遷移變得非常昂貴。第二,微調(diào)限制了預(yù)訓練知識在小規(guī)模數(shù)據(jù)量的下游任務(wù)中的應(yīng)用效果。這兩點阻礙了大模型從特定數(shù)據(jù)集擴展到更廣泛場景。

為緩解預(yù)訓練大模型的高昂成本,一系列參數(shù)高效微調(diào)方法相繼提出。其通用范式是凍結(jié)大模型的骨干網(wǎng)絡(luò),并引入少量額外參數(shù)。最近,一些工作開始關(guān)注多模態(tài)領(lǐng)域的高效微調(diào)任務(wù),例如UniAdapter、VL-Adapter和MAPLE。但是,它們的通用思路是將自然語言處理領(lǐng)域的現(xiàn)有架構(gòu)用于多模態(tài)模型并組合使用,然后直接在單模態(tài)和多模態(tài)分支的骨干網(wǎng)絡(luò)中插入可訓練參數(shù)以獲得良好表現(xiàn)。直接、簡單的設(shè)計無法將參數(shù)高效遷移的精髓融入多模態(tài)模型。此外，還有兩個主要挑戰(zhàn)需要面對: （1）如何在極輕量級高效微調(diào)框架下進行知識遷移;（2）在極低參數(shù)環(huán)境下如何提高各模態(tài)間的對齊程度。

圖1:與現(xiàn)有主流的高效微調(diào)方法的對比

在這篇文章中，我們嘗試解決這兩種挑戰(zhàn)，貢獻可以總結(jié)為：

介紹了名為Aurora的多模態(tài)基礎(chǔ)大模型高效微調(diào)框架，它解決了當前大規(guī)模預(yù)訓練和微調(diào)策略的局限性。

提出了模式近似（mode approximation）方法來生成輕量級可學習參數(shù)，并提出了兩個啟發(fā)性模塊來更好地增強模態(tài)融合。

通過六個跨模態(tài)任務(wù)和兩個零樣本任務(wù)進行實驗驗證，結(jié)果顯示Aurora相比其他方法取得了最先進的性能，同時也只使用最少的可學習參數(shù)。

二、高效微調(diào)的輕量化架構(gòu)的設(shè)計

Aurora的整體過程示意圖。

三、高效微調(diào)的模態(tài)對齊的設(shè)計

3.1 Informative Context Enhancement

該模塊的目標是為了實現(xiàn)更好的模態(tài)對齊，在交叉注意力模塊后的融合特征中提供提示文本來更好的激活。受“上下文學習”這一領(lǐng)域的進步啟發(fā),我們意識到為提示詞提供示范模板是很重要的。最直觀的方法是對圖像與文本對進行對齊,以獲得更多跨模態(tài)上下文信息。但是,即使與相關(guān)圖像區(qū)域匹配,描述這些區(qū)域的文本可能還是有多個選擇。一些文本可能準確概括圖像內(nèi)容,而另一些可能不行。在沒有事先匹配文本信息的先驗情況下,我們決定引入上下文增強模塊來涵蓋各個方面的可能的文本信息。

四、實驗結(jié)果

4.1 實驗設(shè)置

數(shù)據(jù)集與基準比較。我們在六個跨模態(tài)任務(wù)領(lǐng)域的benchmark上評估了Aurora,這些任務(wù)包括圖片文本檢索、問答(QA)、視頻文本檢索和視頻QA。我們將Aurora與兩類方法進行比較:完全微調(diào)后的SOTA方法以及Frozen重要部分的LoRA和UniAdapter方法。更多細節(jié)請參閱附錄。

實現(xiàn)細節(jié)。我們的實現(xiàn)基于Salesforce開源代碼庫。與UniAdapter一致,我們使用BLIP-base作為所有多模態(tài)下游任務(wù)的視覺語言初始化權(quán)重。我們使用PyTorch在8臺NVIDIA V100 GPU(32G)設(shè)備上實現(xiàn)所有實驗。我們使用AdamW優(yōu)化器,設(shè)置權(quán)重衰減為0.05,學習率通過網(wǎng)格搜索得到為1e-4。需要注意的是,在微調(diào)過程中,參數(shù)組只更新交叉注意模塊的權(quán)重, backbone初始化權(quán)重不更新。

4.2 實驗結(jié)果

Image-Text Retrieval

Video-Text Retrieval

VQA

實驗氣泡圖

4.3 消融實驗

How Rank of CP Decomposition Affects Aurora?

How Does Aurora Benefit from Informative Context Enhancement

How Does Aurora Benefit from Gated Query Transformation?

How Does Aurora Benefit from Parameter Sharing?

4.4 可視化分析

參數(shù)分布可視化

Video-Text retrieval cases on MSRVTT

Video Question Answering cases on MSRVTT-QA

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

框架

框架

+關(guān)注

關(guān)注
0

文章
403

瀏覽量
17490
深度學習

深度學習

+關(guān)注

關(guān)注
73

文章
5503

瀏覽量
121170
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2451

瀏覽量
2714

原文標題：NeurIPS 2023 | 北大&華為提出：多模態(tài)基礎(chǔ)大模型的高效微調(diào)

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

AMP01 SPICE宏模型

AMP01 SPICE宏模型

發(fā)表于 04-14 08:52 ?0次下載

<b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

AMP02 SPICE宏模型

AMP02 SPICE宏模型

發(fā)表于 04-14 08:55 ?0次下載

<b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

AMP01 SPICE宏模型

AMP01 SPICE宏模型

發(fā)表于 06-17 15:53 ?0次下載

AMP02 SPICE宏模型

AMP02 SPICE宏模型

發(fā)表于 06-17 15:55 ?2次下載

如何區(qū)分Java中的&amp;和&amp;&amp;

首先給i賦值為0，如果i大于10，并且i++等于1，則輸出“錯誤”和i的值。否則輸出“正確”和i的值。分別用&amp;和&amp;&amp;運行，觀察運行結(jié)果的不同。

發(fā)表于 02-24 10:46 ?1547次閱讀

如何區(qū)分Java中的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;和&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;

單張消費級顯卡微調(diào)多模態(tài)大模型

把大模型的訓練門檻打下來！我們在單張消費級顯卡上實現(xiàn)了多模態(tài)大模型（LaVIN-7B, LaVIN-13B）的適配和訓練

發(fā)表于 06-30 10:43 ?2406次閱讀

單張消費級顯卡<b class='flag-5'>微調(diào)</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

VisCPM：邁向多語言多模態(tài)大模型時代

隨著 GPT-4 和 Stable Diffusion 等模型多模態(tài)能力的突飛猛進，多模態(tài)大模型

發(fā)表于 07-10 10:05 ?718次閱讀

VisCPM：邁向多語言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>時代

更強更通用：智源「悟道3.0」Emu多模態(tài)大模型開源，在多模態(tài)序列中「補全一切」

當前學界和工業(yè)界都對多模態(tài)大模型研究熱情高漲。去年，谷歌的 Deepmind 發(fā)布了多模態(tài)視覺語言模型

發(fā)表于 07-16 20:45 ?724次閱讀

中科大&amp;amp;字節(jié)提出UniDoc：統(tǒng)一的面向文字場景的多模態(tài)大模型

如上圖所示，UniDoc基于預(yù)訓練的視覺大模型及大語言模型，將文字的檢測、識別、spotting(圖中未畫出)、多模態(tài)理解等四個任務(wù)，通過多模態(tài)

發(fā)表于 08-31 15:29 ?1566次閱讀

探究編輯多模態(tài)大語言模型的可行性

不同于單模態(tài)模型編輯，多模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點依然從單

發(fā)表于 11-09 14:53 ?513次閱讀

用語言對齊多模態(tài)信息，北大騰訊等提出LanguageBind，刷新多個榜單

目前的 VL 預(yù)訓練方法通常僅適用于視覺和語言模態(tài)，而現(xiàn)實世界中的應(yīng)用場景往往包含更多的模態(tài)信息，如深度圖、熱圖像等。如何整合和分析不同模態(tài)的信息，并且能夠在多個模態(tài)之間建立準確的語義

發(fā)表于 11-23 15:46 ?718次閱讀

大模型+多模態(tài)的3種實現(xiàn)方法

我們知道，預(yù)訓練LLM已經(jīng)取得了諸多驚人的成就，然而其明顯的劣勢是不支持其他模態(tài)（包括圖像、語音、視頻模態(tài)）的輸入和輸出，那么如何在預(yù)訓練LLM的基礎(chǔ)上引入跨模態(tài)的信息，讓其變得更強大、更通用呢？本節(jié)將介紹“大

發(fā)表于 12-13 13:55 ?1708次閱讀

基于AX650N芯片部署MiniCPM-V 2.0高效端側(cè)多模態(tài)大模型

今年4月份，面壁智能&amp;清華大學自然語言處理實驗室推出MiniCPM系列的最新多模態(tài)版本MiniCPM-V 2.0。該模型基于MiniCPM 2.4B和SigLip-400M構(gòu)建

發(fā)表于 07-15 09:34 ?898次閱讀

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進行融合，通過學習不同模態(tài)之間的關(guān)聯(lián)，實現(xiàn)更加智能化的信息處理。簡單來說，多

發(fā)表于 10-18 09:39 ?440次閱讀

商湯日日新多模態(tài)大模型權(quán)威評測第一

剛剛，商湯科技日日新SenseNova多模態(tài)大模型，在權(quán)威綜合評測權(quán)威平臺OpenCompass的多模態(tài)評測中取得榜單第一。

發(fā)表于 12-20 10:39 ?191次閱讀