很榮幸我們近期的工作Parameter-efficient Tuning of Large-scaleMultimodal Foundation Model被NeurIPS2023錄用!
https://arxiv.org/abs/2305.08381
這是我們第一篇拓展至多模態(tài)領(lǐng)域的高效微調(diào)的工作,在該工作中我們首次采用模式逼近(mode apprximation)的方法來進行大模型的輕量化高效微調(diào),僅需訓練預(yù)訓練大模型0.04%的參數(shù)。同時我們設(shè)計了兩個啟發(fā)性模塊來增強高效微調(diào)時極低參數(shù)條件下的模態(tài)對齊。實驗上,我們在六大跨模態(tài)基準測試集上進行全面評估顯示,我們的方法不僅超越當前的sota, 還在一些任務(wù)上優(yōu)于全量微調(diào)方法。
論文的相關(guān)代碼也會開源在這個GitHub項目:
github.com/WillDreamer/Aurora
大模型的高效微調(diào)是一個非常新且日漸繁榮的task,歡迎小伙伴們一起學習交流~
一、背景
深度學習的大模型時代已經(jīng)來臨,越來越多的大規(guī)模預(yù)訓練模型在文本、視覺和多模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個明顯缺點。第一,它帶來巨大的計算和物理存儲成本,使預(yù)訓練和遷移變得非常昂貴。第二,微調(diào)限制了預(yù)訓練知識在小規(guī)模數(shù)據(jù)量的下游任務(wù)中的應(yīng)用效果。這兩點阻礙了大模型從特定數(shù)據(jù)集擴展到更廣泛場景。
為緩解預(yù)訓練大模型的高昂成本,一系列參數(shù)高效微調(diào)方法相繼提出。其通用范式是凍結(jié)大模型的骨干網(wǎng)絡(luò),并引入少量額外參數(shù)。最近,一些工作開始關(guān)注多模態(tài)領(lǐng)域的高效微調(diào)任務(wù),例如UniAdapter、VL-Adapter和MAPLE。但是,它們的通用思路是將自然語言處理領(lǐng)域的現(xiàn)有架構(gòu)用于多模態(tài)模型并組合使用,然后直接在單模態(tài)和多模態(tài)分支的骨干網(wǎng)絡(luò)中插入可訓練參數(shù)以獲得良好表現(xiàn)。直接、簡單的設(shè)計無法將參數(shù)高效遷移的精髓融入多模態(tài)模型。此外,還有兩個主要挑戰(zhàn)需要面對: (1)如何在極輕量級高效微調(diào)框架下進行知識遷移;(2)在極低參數(shù)環(huán)境下如何提高各模態(tài)間的對齊程度。
圖1:與現(xiàn)有主流的高效微調(diào)方法的對比
在這篇文章中,我們嘗試解決這兩種挑戰(zhàn),貢獻可以總結(jié)為:
介紹了名為Aurora的多模態(tài)基礎(chǔ)大模型高效微調(diào)框架,它解決了當前大規(guī)模預(yù)訓練和微調(diào)策略的局限性。
提出了模式近似(mode approximation)方法來生成輕量級可學習參數(shù),并提出了兩個啟發(fā)性模塊來更好地增強模態(tài)融合。
通過六個跨模態(tài)任務(wù)和兩個零樣本任務(wù)進行實驗驗證,結(jié)果顯示Aurora相比其他方法取得了最先進的性能,同時也只使用最少的可學習參數(shù)。
二、高效微調(diào)的輕量化架構(gòu)的設(shè)計
Aurora的整體過程示意圖。
三、高效微調(diào)的模態(tài)對齊的設(shè)計
3.1 Informative Context Enhancement
該模塊的目標是為了實現(xiàn)更好的模態(tài)對齊,在交叉注意力模塊后的融合特征中提供提示文本來更好的激活。受“上下文學習”這一領(lǐng)域的進步啟發(fā),我們意識到為提示詞提供示范模板是很重要的。最直觀的方法是對圖像與文本對進行對齊,以獲得更多跨模態(tài)上下文信息。但是,即使與相關(guān)圖像區(qū)域匹配,描述這些區(qū)域的文本可能還是有多個選擇。一些文本可能準確概括圖像內(nèi)容,而另一些可能不行。在沒有事先匹配文本信息的先驗情況下,我們決定引入上下文增強模塊來涵蓋各個方面的可能的文本信息。
四、實驗結(jié)果
4.1 實驗設(shè)置
數(shù)據(jù)集與基準比較。我們在六個跨模態(tài)任務(wù)領(lǐng)域的benchmark上評估了Aurora,這些任務(wù)包括圖片文本檢索、問答(QA)、視頻文本檢索和視頻QA。我們將Aurora與兩類方法進行比較:完全微調(diào)后的SOTA方法以及Frozen重要部分的LoRA和UniAdapter方法。更多細節(jié)請參閱附錄。
實現(xiàn)細節(jié)。我們的實現(xiàn)基于Salesforce開源代碼庫。與UniAdapter一致,我們使用BLIP-base作為所有多模態(tài)下游任務(wù)的視覺語言初始化權(quán)重。我們使用PyTorch在8臺NVIDIA V100 GPU(32G)設(shè)備上實現(xiàn)所有實驗。我們使用AdamW優(yōu)化器,設(shè)置權(quán)重衰減為0.05,學習率通過網(wǎng)格搜索得到為1e-4。需要注意的是,在微調(diào)過程中,參數(shù)組只更新交叉注意模塊的權(quán)重, backbone初始化權(quán)重不更新。
4.2 實驗結(jié)果
Image-Text Retrieval
Video-Text Retrieval
VQA
實驗氣泡圖
4.3 消融實驗
How Rank of CP Decomposition Affects Aurora?
How Does Aurora Benefit from Informative Context Enhancement
How Does Aurora Benefit from Gated Query Transformation?
How Does Aurora Benefit from Parameter Sharing?
4.4 可視化分析
參數(shù)分布可視化
Video-Text retrieval cases on MSRVTT
Video Question Answering cases on MSRVTT-QA
-
框架
+關(guān)注
關(guān)注
0文章
403瀏覽量
17490 -
深度學習
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121170 -
大模型
+關(guān)注
關(guān)注
2文章
2451瀏覽量
2714
原文標題:NeurIPS 2023 | 北大&華為提出:多模態(tài)基礎(chǔ)大模型的高效微調(diào)
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論