在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

北大&華為提出:多模態(tài)基礎(chǔ)大模型的高效微調(diào)

CVer ? 來源:CVer ? 2023-11-08 16:20 ? 次閱讀

很榮幸我們近期的工作Parameter-efficient Tuning of Large-scaleMultimodal Foundation Model被NeurIPS2023錄用!

0a78a91c-7d2c-11ee-939d-92fbcf53809c.png

https://arxiv.org/abs/2305.08381

這是我們第一篇拓展至多模態(tài)領(lǐng)域的高效微調(diào)的工作,在該工作中我們首次采用模式逼近(mode apprximation)的方法來進行大模型的輕量化高效微調(diào),僅需訓練預(yù)訓練大模型0.04%的參數(shù)。同時我們設(shè)計了兩個啟發(fā)性模塊來增強高效微調(diào)時極低參數(shù)條件下的模態(tài)對齊。實驗上,我們在六大跨模態(tài)基準測試集上進行全面評估顯示,我們的方法不僅超越當前的sota, 還在一些任務(wù)上優(yōu)于全量微調(diào)方法。

論文的相關(guān)代碼也會開源在這個GitHub項目:

github.com/WillDreamer/Aurora

大模型的高效微調(diào)是一個非常新且日漸繁榮的task,歡迎小伙伴們一起學習交流~

一、背景

深度學習的大模型時代已經(jīng)來臨,越來越多的大規(guī)模預(yù)訓練模型在文本、視覺和多模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個明顯缺點。第一,它帶來巨大的計算和物理存儲成本,使預(yù)訓練和遷移變得非常昂貴。第二,微調(diào)限制了預(yù)訓練知識在小規(guī)模數(shù)據(jù)量的下游任務(wù)中的應(yīng)用效果。這兩點阻礙了大模型從特定數(shù)據(jù)集擴展到更廣泛場景。

為緩解預(yù)訓練大模型的高昂成本,一系列參數(shù)高效微調(diào)方法相繼提出。其通用范式是凍結(jié)大模型的骨干網(wǎng)絡(luò),并引入少量額外參數(shù)。最近,一些工作開始關(guān)注多模態(tài)領(lǐng)域的高效微調(diào)任務(wù),例如UniAdapter、VL-Adapter和MAPLE。但是,它們的通用思路是將自然語言處理領(lǐng)域的現(xiàn)有架構(gòu)用于多模態(tài)模型并組合使用,然后直接在單模態(tài)和多模態(tài)分支的骨干網(wǎng)絡(luò)中插入可訓練參數(shù)以獲得良好表現(xiàn)。直接、簡單的設(shè)計無法將參數(shù)高效遷移的精髓融入多模態(tài)模型。此外,還有兩個主要挑戰(zhàn)需要面對: (1)如何在極輕量級高效微調(diào)框架下進行知識遷移;(2)在極低參數(shù)環(huán)境下如何提高各模態(tài)間的對齊程度。

0a83d436-7d2c-11ee-939d-92fbcf53809c.jpg

圖1:與現(xiàn)有主流的高效微調(diào)方法的對比

在這篇文章中,我們嘗試解決這兩種挑戰(zhàn),貢獻可以總結(jié)為:

介紹了名為Aurora的多模態(tài)基礎(chǔ)大模型高效微調(diào)框架,它解決了當前大規(guī)模預(yù)訓練和微調(diào)策略的局限性。

提出了模式近似(mode approximation)方法來生成輕量級可學習參數(shù),并提出了兩個啟發(fā)性模塊來更好地增強模態(tài)融合。

通過六個跨模態(tài)任務(wù)和兩個零樣本任務(wù)進行實驗驗證,結(jié)果顯示Aurora相比其他方法取得了最先進的性能,同時也只使用最少的可學習參數(shù)。

二、高效微調(diào)的輕量化架構(gòu)的設(shè)計

0a9c301c-7d2c-11ee-939d-92fbcf53809c.png

0aa7d0e8-7d2c-11ee-939d-92fbcf53809c.jpg

Aurora的整體過程示意圖。

三、高效微調(diào)的模態(tài)對齊的設(shè)計

3.1 Informative Context Enhancement

該模塊的目標是為了實現(xiàn)更好的模態(tài)對齊,在交叉注意力模塊后的融合特征中提供提示文本來更好的激活。受“上下文學習”這一領(lǐng)域的進步啟發(fā),我們意識到為提示詞提供示范模板是很重要的。最直觀的方法是對圖像與文本對進行對齊,以獲得更多跨模態(tài)上下文信息。但是,即使與相關(guān)圖像區(qū)域匹配,描述這些區(qū)域的文本可能還是有多個選擇。一些文本可能準確概括圖像內(nèi)容,而另一些可能不行。在沒有事先匹配文本信息的先驗情況下,我們決定引入上下文增強模塊來涵蓋各個方面的可能的文本信息。

0ab5ae84-7d2c-11ee-939d-92fbcf53809c.png

四、實驗結(jié)果

4.1 實驗設(shè)置

數(shù)據(jù)集與基準比較。我們在六個跨模態(tài)任務(wù)領(lǐng)域的benchmark上評估了Aurora,這些任務(wù)包括圖片文本檢索、問答(QA)、視頻文本檢索和視頻QA。我們將Aurora與兩類方法進行比較:完全微調(diào)后的SOTA方法以及Frozen重要部分的LoRA和UniAdapter方法。更多細節(jié)請參閱附錄。

實現(xiàn)細節(jié)。我們的實現(xiàn)基于Salesforce開源代碼庫。與UniAdapter一致,我們使用BLIP-base作為所有多模態(tài)下游任務(wù)的視覺語言初始化權(quán)重。我們使用PyTorch在8臺NVIDIA V100 GPU(32G)設(shè)備上實現(xiàn)所有實驗。我們使用AdamW優(yōu)化器,設(shè)置權(quán)重衰減為0.05,學習率通過網(wǎng)格搜索得到為1e-4。需要注意的是,在微調(diào)過程中,參數(shù)組只更新交叉注意模塊的權(quán)重, backbone初始化權(quán)重不更新。

4.2 實驗結(jié)果

0ac0ab9a-7d2c-11ee-939d-92fbcf53809c.jpg

Image-Text Retrieval

0acbc44e-7d2c-11ee-939d-92fbcf53809c.jpg

Video-Text Retrieval

0ae334da-7d2c-11ee-939d-92fbcf53809c.jpg

VQA

0aee2c1e-7d2c-11ee-939d-92fbcf53809c.jpg

實驗氣泡圖

4.3 消融實驗

0b151b8a-7d2c-11ee-939d-92fbcf53809c.jpg

How Rank of CP Decomposition Affects Aurora?

0b2deebc-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Informative Context Enhancement

0b4231f6-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Gated Query Transformation?

0b467522-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Parameter Sharing?

4.4 可視化分析

0b59e8a0-7d2c-11ee-939d-92fbcf53809c.jpg

參數(shù)分布可視化

0b694610-7d2c-11ee-939d-92fbcf53809c.jpg

Video-Text retrieval cases on MSRVTT

0b74c512-7d2c-11ee-939d-92fbcf53809c.jpg

Video Question Answering cases on MSRVTT-QA

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    403

    瀏覽量

    17490
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5503

    瀏覽量

    121170
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2451

    瀏覽量

    2714

原文標題:NeurIPS 2023 | 北大&華為提出:多模態(tài)基礎(chǔ)大模型的高效微調(diào)

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    發(fā)表于 04-14 08:52 ?0次下載
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    發(fā)表于 04-14 08:55 ?0次下載
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    發(fā)表于 06-17 15:53 ?0次下載
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    發(fā)表于 06-17 15:55 ?2次下載
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    如何區(qū)分Java中的&amp;amp;和&amp;amp;&amp;amp;

    首先給i賦值為0,如果i大于10,并且i++等于1,則輸出“錯誤”和i的值。否則輸出“正確”和i的值。分別用&amp;和&amp;&amp;運行,觀察運行結(jié)果的不同。
    的頭像 發(fā)表于 02-24 10:46 ?1547次閱讀
    如何區(qū)分Java中的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;和&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;

    單張消費級顯卡微調(diào)模態(tài)模型

    把大模型的訓練門檻打下來!我們在單張消費級顯卡上實現(xiàn)了模態(tài)模型(LaVIN-7B, LaVIN-13B)的適配和訓練
    的頭像 發(fā)表于 06-30 10:43 ?2406次閱讀
    單張消費級顯卡<b class='flag-5'>微調(diào)</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    VisCPM:邁向多語言模態(tài)模型時代

    隨著 GPT-4 和 Stable Diffusion 等模型模態(tài)能力的突飛猛進,模態(tài)模型
    的頭像 發(fā)表于 07-10 10:05 ?718次閱讀
    VisCPM:邁向多語言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>時代

    更強更通用:智源「悟道3.0」Emu模態(tài)模型開源,在模態(tài)序列中「補全一切」

    當前學界和工業(yè)界都對模態(tài)模型研究熱情高漲。去年,谷歌的 Deepmind 發(fā)布了模態(tài)視覺語言模型
    的頭像 發(fā)表于 07-16 20:45 ?724次閱讀
    更強更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>開源,在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列中「補全一切」

    中科大&amp;amp;字節(jié)提出UniDoc:統(tǒng)一的面向文字場景的模態(tài)模型

    如上圖所示,UniDoc基于預(yù)訓練的視覺大模型及大語言模型,將文字的檢測、識別、spotting(圖中未畫出)、模態(tài)理解等四個任務(wù),通過多模態(tài)
    的頭像 發(fā)表于 08-31 15:29 ?1566次閱讀
    中科大&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;字節(jié)<b class='flag-5'>提出</b>UniDoc:統(tǒng)一的面向文字場景的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    探究編輯模態(tài)大語言模型的可行性

    不同于單模態(tài)模型編輯,模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點依然從單
    發(fā)表于 11-09 14:53 ?513次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言<b class='flag-5'>模型</b>的可行性

    用語言對齊模態(tài)信息,北大騰訊等提出LanguageBind,刷新多個榜單

    目前的 VL 預(yù)訓練方法通常僅適用于視覺和語言模態(tài),而現(xiàn)實世界中的應(yīng)用場景往往包含更多的模態(tài)信息,如深度圖、熱圖像等。如何整合和分析不同模態(tài)的信息,并且能夠在多個模態(tài)之間建立準確的語義
    的頭像 發(fā)表于 11-23 15:46 ?718次閱讀
    用語言對齊<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>信息,<b class='flag-5'>北大</b>騰訊等<b class='flag-5'>提出</b>LanguageBind,刷新多個榜單

    模型+模態(tài)的3種實現(xiàn)方法

    我們知道,預(yù)訓練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(tài)(包括圖像、語音、視頻模態(tài))的輸入和輸出,那么如何在預(yù)訓練LLM的基礎(chǔ)上引入跨模態(tài)的信息,讓其變得更強大、更通用呢?本節(jié)將介紹“大
    的頭像 發(fā)表于 12-13 13:55 ?1708次閱讀
    大<b class='flag-5'>模型</b>+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3種實現(xiàn)方法

    基于AX650N芯片部署MiniCPM-V 2.0高效端側(cè)模態(tài)模型

    今年4月份,面壁智能&amp;清華大學自然語言處理實驗室推出MiniCPM系列的最新模態(tài)版本MiniCPM-V 2.0。該模型基于MiniCPM 2.4B和SigLip-400M構(gòu)建
    的頭像 發(fā)表于 07-15 09:34 ?898次閱讀
    基于AX650N芯片部署MiniCPM-V 2.0<b class='flag-5'>高效</b>端側(cè)<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態(tài)之間的關(guān)聯(lián),實現(xiàn)更加智能化的信息處理。簡單來說,
    的頭像 發(fā)表于 10-18 09:39 ?440次閱讀

    商湯日日新模態(tài)模型權(quán)威評測第一

    剛剛,商湯科技日日新SenseNova模態(tài)模型,在權(quán)威綜合評測權(quán)威平臺OpenCompass的模態(tài)評測中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?191次閱讀
    主站蜘蛛池模板: 久久婷婷色一区二区三区| 波多野结衣在线观看一区二区 | 婷婷激情综合| 黄色生活毛片| 国产精品九九久久一区hh| 久久天天躁狠狠躁夜夜爽 | 萌白酱一线天粉嫩喷水在线观看| 久久久久久久综合狠狠综合| 神马午夜影视| 亚洲国产网| 全国男人的天堂网站| 狠狠激情五月综合婷婷俺| 免费网站黄成人影院| 不卡一区| 狠狠做久久深爱婷婷97动漫| 国产自产视频在线观看香蕉| 亚洲性色成人| 大黄香蕉| se97se成人亚洲网站| 日本高清黄色| 天天干天天干天天干天天干天天干| 亚洲乱码卡一卡二卡三| 免费手机黄色网址| 永久视频在线观看| 59日本人xxxxxxxxx69| 日本高清视频成人网www| 天天操欧美| xxx性xxx| 8050网午夜一级毛片免费不卡| 理论片亚洲| 亚洲高清免费在线观看| 4hu44四虎在线观看| 亚洲网站免费观看| 四虎色影院| 天天干天天爱天天操| 永井玛丽亚中文在线观看视频 | 欧美色图888| 国产自在自线午夜精品视频| 四虎影院欧美| 日本超黄视频| 男女一区二区三区免费|