完美世界国际版下载,欢乐颂第一季免费阅读,有声读物

引言

今年 3 月 14 日，OpenAI 發(fā)布了 GPT-4 多模態(tài)大模型，但是僅公開了文本能力的接口，遲遲未向公眾開放體驗(yàn)多模態(tài)能力。學(xué)術(shù)界和工業(yè)界立刻跟進(jìn)研究并開源多模態(tài)大模型的相關(guān)工作。目前熱度最高的三個同期工作依次是 LLaVA [1]、MiniGPT-4 [2] 和 mPLUG-Owl [3]。本文意在分析這三個工作，探討“類 GPT-4 模型”的研究方向。

援引自 mPLUG-Owl，這三個工作的主要區(qū)別如圖 1 所示，總體而言，模型結(jié)構(gòu)和訓(xùn)練策略方面大同小異，主要體現(xiàn)在LLaVA 和 MiniGPT4 都凍住基礎(chǔ)視覺編碼器，mPLUG-Owl 將其放開，得到了更好的視覺文本跨模態(tài)理解效果；在實(shí)驗(yàn)方面mPLUG-Owl 首次構(gòu)建并開源視覺相關(guān)的指令理解測試集 OwlEval，通過人工評測對比了已有的模型，包括 BLIP2 [4]、LLaVA、MiniGPT4 以及系統(tǒng)類工作 MM-REACT [5]。

▲ 圖1: mPLUG-Owl vs MiniGPT4 vs LLaVA

LLaVA

自然語言處理領(lǐng)域的 instruction tuning 可以幫助 LLM 理解多樣化的指令并生成比較詳細(xì)的回答。LLaVA 首次嘗試構(gòu)建圖文相關(guān)的 instruction tuning 數(shù)據(jù)集來將 LLM 拓展到多模態(tài)領(lǐng)域。具體來說，基于 MSCOCO 數(shù)據(jù)集，每張圖有 5 個較簡短的 ground truth 描述和 object bbox（包括類別和位置）序列，將這些作為 text-only GPT4 的輸入，通過 prompt 的形式讓 GPT4 生成 3 種類型的文本：1）關(guān)于圖像中對象的對話；2）針對圖片的詳細(xì)描述；3）和圖片相關(guān)的復(fù)雜的推理過程。注意，這三種類型都是 GPT4 在不看到圖片的情況下根據(jù)輸入的文本生成的，為了讓 GPT4 理解這些意圖，作者額外人工標(biāo)注了一些樣例用于 in-context learning。

模型結(jié)構(gòu)：采用 CLIP 的 ViT-L/14 [6] 作為視覺編碼器，采用 LLaMA [7] 作為文本解碼器，通過一個簡單的線性映射層將視覺編碼器的輸出映射到文本解碼器的詞嵌入空間，如圖 2。

▲ 圖2: LLaVA模型結(jié)構(gòu)

模型訓(xùn)練：

第一階段：跨模態(tài)對齊預(yù)訓(xùn)練，從CC3M中通過限制 caption 中名詞詞組的最小頻率過濾出595k圖文數(shù)據(jù)，凍住視覺編碼器和文本解碼器，只訓(xùn)練線性映射層；

第二階段：指令微調(diào)，一版針對多模態(tài)聊天機(jī)器人場景，采用自己構(gòu)建的158k多模態(tài)指令數(shù)據(jù)集進(jìn)行微調(diào)；另一版針對 Science QA 數(shù)據(jù)集進(jìn)行微調(diào)。微調(diào)階段，線性層和文本解碼器（LLaMA）都會進(jìn)行優(yōu)化。

實(shí)驗(yàn)分析：

消融實(shí)驗(yàn)：在 30 個 MSCOCO val 的圖片上，每張圖片設(shè)計 3 個問題（對話、詳細(xì)描述、推理），參考 Vicuna [8]，用 GPT4 對 LLaVA 和 text-only GPT4 的回復(fù)進(jìn)行對比打分，報告相對 text-only GPT4 的相對值。

SOTA 對比：在Science QA上微調(diào)的版本實(shí)現(xiàn)了該評測集上的SOTA效果。

MiniGPT-4

Mini-GPT4 和 LLaVA 類似，也發(fā)現(xiàn)了多模態(tài)指令數(shù)據(jù)對于模型在多模態(tài)開放式場景中表現(xiàn)的重要性。

模型結(jié)構(gòu)：采用 BLIP2 的 ViT 和 Q-Former 作為視覺編碼器，采用 LLaMA 經(jīng)過自然語言指令微調(diào)后的版本 Vicuna 作為文本解碼器，也通過一個線性映射層將視覺特征映射到文本表示空間，如圖 3。

▲ 圖3: MiniGPT-4模型結(jié)構(gòu)

模型訓(xùn)練：

第一階段：目標(biāo)通過大量圖文對數(shù)據(jù)學(xué)習(xí)視覺和語言的關(guān)系以及知識，采用 CC+SBU+LAION 數(shù)據(jù)集，凍住視覺編碼器和文本解碼器，只訓(xùn)練線性映射層；第二階段：作者發(fā)現(xiàn)只有第一階段的預(yù)訓(xùn)練并不能讓模型生成流暢且豐富的符合用戶需求的文本，為了緩解這個問題，本文也額外利用 ChatGPT 構(gòu)建一個多模態(tài)微調(diào)數(shù)據(jù)集。具體來說，1）其首先用階段 1 的模型對 5k 個 CC 的圖片進(jìn)行描述，如果長度小于 80，通過 prompt 讓模型繼續(xù)描述，將多步生成的結(jié)果合并為一個描述；2）通過 ChatGPT 對于構(gòu)建的長描述進(jìn)行改寫，移除重復(fù)等問題；3）人工驗(yàn)證以及優(yōu)化描述質(zhì)量。最后得到 3.5k 圖文對，用于第二階段的微調(diào)。第二階段同樣只訓(xùn)練線性映射層。

實(shí)驗(yàn)分析：

主要進(jìn)行效果展示，沒有定量的實(shí)驗(yàn)分析。

mPLUG-Owl

mPLUG-Owl 是阿里巴巴達(dá)摩院 mPLUG 系列的最新工作，繼續(xù)延續(xù)mPLUG 系列的模塊化訓(xùn)練思想，將 LLM 遷移為一個多模態(tài)大模型。此外，Owl第一次針對視覺相關(guān)的指令評測提出一個全面的測試集 OwlEval，通過人工評測對比了已有工作，包括 LLaVA 和 MiniGPT-4。該評測集以及人工打分的結(jié)果都進(jìn)行了開源，助力后續(xù)多模態(tài)開放式回答的公平對比。

模型結(jié)構(gòu)：采用 CLIP ViT-L/14 作為“視覺基礎(chǔ)模塊”，采用 LLaMA 初始化的結(jié)構(gòu)作為文本解碼器，采用類似 Flamingo 的 Perceiver Resampler 結(jié)構(gòu)對視覺特征進(jìn)行重組（名為“視覺摘要模塊”），如圖 4。

▲ 圖4: mPLUG-Owl模型結(jié)構(gòu)模型訓(xùn)練：第一階段：主要目的也是先學(xué)習(xí)視覺和語言模態(tài)間的對齊。不同于前兩個工作，Owl提出凍住視覺基礎(chǔ)模塊會限制模型關(guān)聯(lián)視覺知識和文本知識的能力。因此 Owl 在第一階段只凍住 LLM 的參數(shù)，采用 LAION-400M，COYO-700M，CC 以及 MSCOCO訓(xùn)練視覺基礎(chǔ)模塊和視覺摘要模塊。第二階段：延續(xù) mPLUG [9] 和 mPLUG-2 [10] 中不同模態(tài)混合訓(xùn)練對彼此有收益的發(fā)現(xiàn)，Owl 在第二階段的指令微調(diào)訓(xùn)練中也同時采用了純文本的指令數(shù)據(jù)（102k from Alpaca+90k from Vicuna+50k from Baize）和多模態(tài)的指令數(shù)據(jù)（150k from LLaVA）。作者通過詳細(xì)的消融實(shí)驗(yàn)驗(yàn)證了引入純文本指令微調(diào)在指令理解等方面帶來的收益。第二階段中視覺基礎(chǔ)模塊、視覺摘要模塊和原始 LLM 的參數(shù)都被凍住，參考 LoRA，只在 LLM 引入少量參數(shù)的 adapter 結(jié)構(gòu)用于指令微調(diào)。實(shí)驗(yàn)分析：

除了訓(xùn)練策略，mPLUG-Owl 另一個重要的貢獻(xiàn)在于通過構(gòu)建OwlEval 評測集，對比了目前將 LLM 用于多模態(tài)指令回答的 SOTA 模型的效果。和 NLP 領(lǐng)域一樣，在指令理解場景中，模型的回答由于開放性很難進(jìn)行評估。

SOTA 對比：本文初次嘗試構(gòu)建了一個基于 50 張圖片（21 張來自MiniGPT-4, 13 張來自 MM-REACT，9 張來自 BLIP-2, 3 來自 GPT-4 以及 4 張自收集）的 82 個視覺相關(guān)的指令回答評測集 OwlEval。由于目前并沒有合適的自動化指標(biāo)，本文參考 Self-Intruct [11] 對模型的回復(fù)進(jìn)行人工評測，打分規(guī)則為：A=“正確且令人滿意”；B=“有一些不完美，但可以接受”；C=“理解了指令但是回復(fù)存在明顯錯誤”；D=“完全不相關(guān)或不正確的回復(fù)”。實(shí)驗(yàn)證明 Owl 在視覺相關(guān)的指令回復(fù)任務(wù)上優(yōu)于已有的 OpenFlamingo、BLIP2、LLaVA、MiniGPT4 以及集成了 Microsoft 多個 API 的 MM-REACT。作者對這些人工評測的打分同樣進(jìn)行了開源以方便其他研究人員檢驗(yàn)人工評測的客觀性。多維度能力對比：多模態(tài)指令回復(fù)任務(wù)中牽扯到多種能力，例如指令理解、視覺理解、圖片上文字理解以及推理等。為了細(xì)粒度地探究模型在不同能力上的水平，本文進(jìn)一步定義了多模態(tài)場景中的 6 種主要的能力，并對 OwlEval 每個測試指令人工標(biāo)注了相關(guān)的能力要求以及模型的回復(fù)中體現(xiàn)了哪些能力。

在該部分實(shí)驗(yàn)，作者既進(jìn)行了 Owl 的消融實(shí)驗(yàn)，驗(yàn)證了訓(xùn)練策略和多模態(tài)指令微調(diào)數(shù)據(jù)的有效性，也和上一個實(shí)驗(yàn)中表現(xiàn)最佳的 baseline——MiniGPT4 進(jìn)行了對比，結(jié)果顯示 Owl 在各個能力方面都優(yōu)于 MiniGPT4。

總結(jié)

mPLUG-Owl, MiniGPT4, LLaVA 三篇工作的目標(biāo)都是希望在已有 LLM 的基礎(chǔ)上，通過較少的訓(xùn)練代價達(dá)到 GPT4 技術(shù)報告中所展示多模態(tài)理解效果。他們都證明第一階段的圖文預(yù)訓(xùn)練對于建立圖文之間的聯(lián)系十分關(guān)鍵，第二階段的多模態(tài)指令微調(diào)對于模型理解指令以及生成詳細(xì)的回復(fù)十分必要。三個工作都通過樣例展示了不錯的效果，mPLUG-Owl 進(jìn)一步構(gòu)建一個公平比較的多模態(tài)指令評測集，雖然還不夠完善（例如測試指令數(shù)量還不夠多，依賴人工評測等），但也是為了該領(lǐng)域標(biāo)準(zhǔn)化發(fā)展的一個探索和嘗試。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3655

瀏覽量
134899
模型

模型

+關(guān)注

關(guān)注
1

文章
3279

瀏覽量
48980
GPT

GPT

+關(guān)注

關(guān)注
0

文章
354

瀏覽量
15446

原文標(biāo)題：追趕GPT-4的多模態(tài)大模型對比分析

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

高性能計算與多模態(tài)處理的探索之旅：英偉達(dá)GH200性能優(yōu)化與GPT-4V的算力加速未來

隨著人工智能技術(shù)的不斷發(fā)展，多模態(tài)大模型成為越來越重要的發(fā)展趨勢。GPT-4V（GPT-4 近日開放的視覺

發(fā)表于 10-19 10:45 ?1356次閱讀

高性能計算與<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>處理的探索之旅：英偉達(dá)GH200性能優(yōu)化與<b class='flag-5'>GPT-4</b>V的算力加速未來

GPT-4發(fā)布！多領(lǐng)域超越“人類水平”，專家：國內(nèi)落后2-3年

排隊(duì)申請內(nèi)測。對于GPT-4的性能，很多國外網(wǎng)友的描述都是“GPT-4，起飛！” ? 多模態(tài)大型語言模型

發(fā)表于 03-16 01:58 ?4740次閱讀

<b class='flag-5'>GPT-4</b>發(fā)布！<b class='flag-5'>多</b>領(lǐng)域超越“人類水平”，專家：國內(nèi)落后2-3年

ChatGPT升級　OpenAI史上最強(qiáng)大模型GPT-4發(fā)布

是 Generative Pre-trained Transformer 4 的縮寫，即生成型預(yù)訓(xùn)練變換模型 4，是一個多模態(tài)大型語言

發(fā)表于 03-15 18:15 ?2843次閱讀

GPT-4多模態(tài)模型發(fā)布，對ChatGPT的升級和斷崖式領(lǐng)先

而且 GPT-4 是多模態(tài)的，同時支持文本和圖像輸入功能。此外，GPT-4 比以前的版本“更大”，這意味著其已經(jīng)在更多的數(shù)據(jù)上進(jìn)行了訓(xùn)練，并且在模型

發(fā)表于 03-17 10:31 ?3460次閱讀

GPT-4 的模型結(jié)構(gòu)和訓(xùn)練方法

在 GPT-4 的發(fā)布報道上，GPT-4 的多模態(tài)能力讓人印象深刻，它可以理解圖片內(nèi)容給出圖片描述，甚至能在圖片內(nèi)容的基礎(chǔ)上理解其中的隱喻或推斷下一時刻的發(fā)展。

發(fā)表于 05-22 15:21 ?2698次閱讀

阿里達(dá)摩院：GPT-4的成本只有高級數(shù)據(jù)分析員的0.45％

師對比中，GPT-4 在信息的正確性、圖表的美觀性、洞察的復(fù)雜性等方面輸給人類。如果與 2 年工作經(jīng)驗(yàn)的初級分析師對比，GPT-4 在正確性

發(fā)表于 06-09 16:06 ?739次閱讀

VisCPM：邁向多語言多模態(tài)大模型時代

隨著 GPT-4 和 Stable Diffusion 等模型多模態(tài)能力的突飛猛進(jìn)，多模態(tài)大

發(fā)表于 07-10 10:05 ?738次閱讀

GPT-4沒有推理能力嗎？

今年三月，OpenAI 重磅發(fā)布了 GPT-4 大模型，帶來了比 ChatGPT 背后 GPT-3.5 更強(qiáng)的推理、計算、邏輯能力，也引發(fā)了全民使用的熱潮。在各行各領(lǐng)域研究人員、開發(fā)者、設(shè)計師的使用過程中，「

發(fā)表于 08-11 14:20 ?926次閱讀

OpenAI最新大模型曝光！劍指多模態(tài)，GPT-4之后最大升級！

目前為止，OpenAI還沒有對爆料中的傳聞做出回應(yīng)，但此前發(fā)布過多模態(tài)模型測試。CEO奧特曼在回應(yīng)有關(guān)GPT-5的傳聞時，也暗示過GPT-4“正在增強(qiáng)”。

發(fā)表于 09-20 17:34 ?1249次閱讀

新火種AI|谷歌深夜發(fā)布復(fù)仇神器Gemini，原生多模態(tài)碾壓GPT-4？

谷歌背水一戰(zhàn)，發(fā)布Gemini，狙擊GPT-4

發(fā)表于 12-08 09:09 ?1180次閱讀

全球最強(qiáng)大模型易主：GPT-4被超越，Claude 3系列嶄露頭角

近日，人工智能領(lǐng)域迎來了一場革命性的突破。Anthropic公司發(fā)布了全新的Claude 3系列模型，該系列模型在多模態(tài)和語言能力等關(guān)鍵指標(biāo)上展現(xiàn)出卓越性能，成功超越了此前被廣泛認(rèn)為是

發(fā)表于 03-05 09:42 ?685次閱讀

Anthropic推出Claude 3系列模型，全面超越GPT-4，樹立AI新標(biāo)桿

近日，AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic震撼發(fā)布了全新的Claude 3系列模型，該系列模型在多模態(tài)和語言能力等關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能，成功擊敗了此前被廣泛認(rèn)為是全球最強(qiáng)AI

發(fā)表于 03-05 09:49 ?718次閱讀

微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

起初，Copilot作為Bing Chat AI助手推出，初期采用GPT-3.5模型，隨后升級至GPT-4取得顯著進(jìn)步，如今再次更新至性能卓越的GPT-4 Turbo

發(fā)表于 03-13 13:42 ?762次閱讀

商湯科技發(fā)布5.0多模態(tài)大模型，綜合能力全面對標(biāo)GPT-4 Turbo

商湯科技發(fā)布5.0多模態(tài)大模型，綜合能力全面對標(biāo)GPT-4 Turbo 4月23日，商湯科技董事長兼CEO徐立在2024商湯技術(shù)交流日上發(fā)布

發(fā)表于 04-24 16:49 ?1142次閱讀

國內(nèi)直聯(lián)使用ChatGPT 4.0 API Key使用和多模態(tài)GPT4o API調(diào)用開發(fā)教程！

1. 前言 ChatGPT-4o API 是 OpenAI 提供的強(qiáng)大工具，可用于自然語言處理和多模態(tài)任務(wù)。在國內(nèi)直聯(lián)使用這些服務(wù)需要一些配置和技巧。本文將詳細(xì)介紹GPT-4o

發(fā)表于 06-08 00:33 ?5386次閱讀