引言
今年 3 月 14 日,OpenAI 發(fā)布了 GPT-4 多模態(tài)大模型,但是僅公開了文本能力的接口,遲遲未向公眾開放體驗(yàn)多模態(tài)能力。學(xué)術(shù)界和工業(yè)界立刻跟進(jìn)研究并開源多模態(tài)大模型的相關(guān)工作。目前熱度最高的三個同期工作依次是 LLaVA [1]、MiniGPT-4 [2] 和 mPLUG-Owl [3]。本文意在分析這三個工作,探討“類 GPT-4 模型”的研究方向。
援引自 mPLUG-Owl,這三個工作的主要區(qū)別如圖 1 所示,總體而言,模型結(jié)構(gòu)和訓(xùn)練策略方面大同小異,主要體現(xiàn)在LLaVA 和 MiniGPT4 都凍住基礎(chǔ)視覺編碼器,mPLUG-Owl 將其放開,得到了更好的視覺文本跨模態(tài)理解效果;在實(shí)驗(yàn)方面mPLUG-Owl 首次構(gòu)建并開源視覺相關(guān)的指令理解測試集 OwlEval,通過人工評測對比了已有的模型,包括 BLIP2 [4]、LLaVA、MiniGPT4 以及系統(tǒng)類工作 MM-REACT [5]。
▲ 圖1: mPLUG-Owl vs MiniGPT4 vs LLaVA
LLaVA
自然語言處理領(lǐng)域的 instruction tuning 可以幫助 LLM 理解多樣化的指令并生成比較詳細(xì)的回答。LLaVA 首次嘗試構(gòu)建圖文相關(guān)的 instruction tuning 數(shù)據(jù)集來將 LLM 拓展到多模態(tài)領(lǐng)域。 具體來說,基于 MSCOCO 數(shù)據(jù)集,每張圖有 5 個較簡短的 ground truth 描述和 object bbox(包括類別和位置)序列,將這些作為 text-only GPT4 的輸入,通過 prompt 的形式讓 GPT4 生成 3 種類型的文本:1)關(guān)于圖像中對象的對話;2)針對圖片的詳細(xì)描述;3)和圖片相關(guān)的復(fù)雜的推理過程。 注意,這三種類型都是 GPT4 在不看到圖片的情況下根據(jù)輸入的文本生成的,為了讓 GPT4 理解這些意圖,作者額外人工標(biāo)注了一些樣例用于 in-context learning。
模型結(jié)構(gòu):采用 CLIP 的 ViT-L/14 [6] 作為視覺編碼器,采用 LLaMA [7] 作為文本解碼器,通過一個簡單的線性映射層將視覺編碼器的輸出映射到文本解碼器的詞嵌入空間,如圖 2。
▲ 圖2: LLaVA模型結(jié)構(gòu)
模型訓(xùn)練:
第一階段:跨模態(tài)對齊預(yù)訓(xùn)練,從CC3M中通過限制 caption 中名詞詞組的最小頻率過濾出595k圖文數(shù)據(jù),凍住視覺編碼器和文本解碼器,只訓(xùn)練線性映射層;
第二階段:指令微調(diào),一版針對多模態(tài)聊天機(jī)器人場景,采用自己構(gòu)建的158k多模態(tài)指令數(shù)據(jù)集進(jìn)行微調(diào);另一版針對 Science QA 數(shù)據(jù)集進(jìn)行微調(diào)。微調(diào)階段,線性層和文本解碼器(LLaMA)都會進(jìn)行優(yōu)化。
實(shí)驗(yàn)分析:
消融實(shí)驗(yàn):在 30 個 MSCOCO val 的圖片上,每張圖片設(shè)計 3 個問題(對話、詳細(xì)描述、推理),參考 Vicuna [8],用 GPT4 對 LLaVA 和 text-only GPT4 的回復(fù)進(jìn)行對比打分,報告相對 text-only GPT4 的相對值。
SOTA 對比:在Science QA上微調(diào)的版本實(shí)現(xiàn)了該評測集上的SOTA效果。
MiniGPT-4
Mini-GPT4 和 LLaVA 類似,也發(fā)現(xiàn)了多模態(tài)指令數(shù)據(jù)對于模型在多模態(tài)開放式場景中表現(xiàn)的重要性。
模型結(jié)構(gòu):采用 BLIP2 的 ViT 和 Q-Former 作為視覺編碼器,采用 LLaMA 經(jīng)過自然語言指令微調(diào)后的版本 Vicuna 作為文本解碼器,也通過一個線性映射層將視覺特征映射到文本表示空間,如圖 3。
▲ 圖3: MiniGPT-4模型結(jié)構(gòu)
模型訓(xùn)練:
第一階段:目標(biāo)通過大量圖文對數(shù)據(jù)學(xué)習(xí)視覺和語言的關(guān)系以及知識,采用 CC+SBU+LAION 數(shù)據(jù)集,凍住視覺編碼器和文本解碼器,只訓(xùn)練線性映射層; 第二階段:作者發(fā)現(xiàn)只有第一階段的預(yù)訓(xùn)練并不能讓模型生成流暢且豐富的符合用戶需求的文本,為了緩解這個問題,本文也額外利用 ChatGPT 構(gòu)建一個多模態(tài)微調(diào)數(shù)據(jù)集。 具體來說,1)其首先用階段 1 的模型對 5k 個 CC 的圖片進(jìn)行描述,如果長度小于 80,通過 prompt 讓模型繼續(xù)描述,將多步生成的結(jié)果合并為一個描述;2)通過 ChatGPT 對于構(gòu)建的長描述進(jìn)行改寫,移除重復(fù)等問題;3)人工驗(yàn)證以及優(yōu)化描述質(zhì)量。最后得到 3.5k 圖文對,用于第二階段的微調(diào)。第二階段同樣只訓(xùn)練線性映射層。
實(shí)驗(yàn)分析:
主要進(jìn)行效果展示,沒有定量的實(shí)驗(yàn)分析。
mPLUG-Owl
mPLUG-Owl 是阿里巴巴達(dá)摩院 mPLUG 系列的最新工作,繼續(xù)延續(xù)mPLUG 系列的模塊化訓(xùn)練思想,將 LLM 遷移為一個多模態(tài)大模型。此外,Owl第一次針對視覺相關(guān)的指令評測提出一個全面的測試集 OwlEval,通過人工評測對比了已有工作,包括 LLaVA 和 MiniGPT-4。該評測集以及人工打分的結(jié)果都進(jìn)行了開源,助力后續(xù)多模態(tài)開放式回答的公平對比。
模型結(jié)構(gòu):采用 CLIP ViT-L/14 作為“視覺基礎(chǔ)模塊”,采用 LLaMA 初始化的結(jié)構(gòu)作為文本解碼器,采用類似 Flamingo 的 Perceiver Resampler 結(jié)構(gòu)對視覺特征進(jìn)行重組(名為“視覺摘要模塊”),如圖 4。
▲ 圖4: mPLUG-Owl模型結(jié)構(gòu)模型訓(xùn)練: 第一階段:主要目的也是先學(xué)習(xí)視覺和語言模態(tài)間的對齊。不同于前兩個工作,Owl提出凍住視覺基礎(chǔ)模塊會限制模型關(guān)聯(lián)視覺知識和文本知識的能力。因此 Owl 在第一階段只凍住 LLM 的參數(shù),采用 LAION-400M,COYO-700M,CC 以及 MSCOCO訓(xùn)練視覺基礎(chǔ)模塊和視覺摘要模塊。 第二階段:延續(xù) mPLUG [9] 和 mPLUG-2 [10] 中不同模態(tài)混合訓(xùn)練對彼此有收益的發(fā)現(xiàn),Owl 在第二階段的指令微調(diào)訓(xùn)練中也同時采用了純文本的指令數(shù)據(jù)(102k from Alpaca+90k from Vicuna+50k from Baize)和多模態(tài)的指令數(shù)據(jù)(150k from LLaVA)。 作者通過詳細(xì)的消融實(shí)驗(yàn)驗(yàn)證了引入純文本指令微調(diào)在指令理解等方面帶來的收益。第二階段中視覺基礎(chǔ)模塊、視覺摘要模塊和原始 LLM 的參數(shù)都被凍住,參考 LoRA,只在 LLM 引入少量參數(shù)的 adapter 結(jié)構(gòu)用于指令微調(diào)。實(shí)驗(yàn)分析:
除了訓(xùn)練策略,mPLUG-Owl 另一個重要的貢獻(xiàn)在于通過構(gòu)建OwlEval 評測集,對比了目前將 LLM 用于多模態(tài)指令回答的 SOTA 模型的效果。和 NLP 領(lǐng)域一樣,在指令理解場景中,模型的回答由于開放性很難進(jìn)行評估。
SOTA 對比:本文初次嘗試構(gòu)建了一個基于 50 張圖片(21 張來自MiniGPT-4, 13 張來自 MM-REACT,9 張來自 BLIP-2, 3 來自 GPT-4 以及 4 張自收集)的 82 個視覺相關(guān)的指令回答評測集 OwlEval。由于目前并沒有合適的自動化指標(biāo),本文參考 Self-Intruct [11] 對模型的回復(fù)進(jìn)行人工評測,打分規(guī)則為:A=“正確且令人滿意”;B=“有一些不完美,但可以接受”;C=“理解了指令但是回復(fù)存在明顯錯誤”;D=“完全不相關(guān)或不正確的回復(fù)”。 實(shí)驗(yàn)證明 Owl 在視覺相關(guān)的指令回復(fù)任務(wù)上優(yōu)于已有的 OpenFlamingo、BLIP2、LLaVA、MiniGPT4 以及集成了 Microsoft 多個 API 的 MM-REACT。作者對這些人工評測的打分同樣進(jìn)行了開源以方便其他研究人員檢驗(yàn)人工評測的客觀性。多維度能力對比:多模態(tài)指令回復(fù)任務(wù)中牽扯到多種能力,例如指令理解、視覺理解、圖片上文字理解以及推理等。為了細(xì)粒度地探究模型在不同能力上的水平,本文進(jìn)一步定義了多模態(tài)場景中的 6 種主要的能力,并對 OwlEval 每個測試指令人工標(biāo)注了相關(guān)的能力要求以及模型的回復(fù)中體現(xiàn)了哪些能力。
在該部分實(shí)驗(yàn),作者既進(jìn)行了 Owl 的消融實(shí)驗(yàn),驗(yàn)證了訓(xùn)練策略和多模態(tài)指令微調(diào)數(shù)據(jù)的有效性,也和上一個實(shí)驗(yàn)中表現(xiàn)最佳的 baseline——MiniGPT4 進(jìn)行了對比,結(jié)果顯示 Owl 在各個能力方面都優(yōu)于 MiniGPT4。
總結(jié)
mPLUG-Owl, MiniGPT4, LLaVA 三篇工作的目標(biāo)都是希望在已有 LLM 的基礎(chǔ)上,通過較少的訓(xùn)練代價達(dá)到 GPT4 技術(shù)報告中所展示多模態(tài)理解效果。他們都證明第一階段的圖文預(yù)訓(xùn)練對于建立圖文之間的聯(lián)系十分關(guān)鍵,第二階段的多模態(tài)指令微調(diào)對于模型理解指令以及生成詳細(xì)的回復(fù)十分必要。三個工作都通過樣例展示了不錯的效果,mPLUG-Owl 進(jìn)一步構(gòu)建一個公平比較的多模態(tài)指令評測集,雖然還不夠完善(例如測試指令數(shù)量還不夠多,依賴人工評測等),但也是為了該領(lǐng)域標(biāo)準(zhǔn)化發(fā)展的一個探索和嘗試。
審核編輯 :李倩
-
編碼器
+關(guān)注
關(guān)注
45文章
3655瀏覽量
134899 -
模型
+關(guān)注
關(guān)注
1文章
3279瀏覽量
48980 -
GPT
+關(guān)注
關(guān)注
0文章
354瀏覽量
15446
原文標(biāo)題:追趕GPT-4的多模態(tài)大模型對比分析
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論