在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

阿里&華科大提出ONE-PEACE:更好的通用表征模型,刷新多個SOTA!

CVer ? 來源:CVer ? 2023-06-02 17:26 ? 次閱讀

上次介紹ImageBind給大家預告了我們近期會推出一個新工作,今天正式推出我們的通用多模態表征模型ONE-PEACE,拿到多個SOTA,展現emergent zeroshot的能力。正式放arxiv,github repo剛開,歡迎關注以及給個star支持下!

d39877cc-f885-11ed-90ce-dac502259ad0.png

ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

論文:https://arxiv.org/abs/2305.11172

代碼:https://github.com/OFA-Sys/ONE-PEACE

為什么是通用多模態表征模型

表征模型的重要性無需多言,尤其CLIP之后大家都意識到一個好的多模態表征模型在很多單模態任務上都會發揮著至關重要的基礎模型的作用。學習了大量模態alignment的數據之后的模型逐漸在學會去理解各個模態和模態間蘊含的知識。但過去大部分模型,基本都把重點關注在圖文數據上了,主要還是得益于社區貢獻了大量高質量的如LAION這類的數據集。然而如果想更進一步去理解世界,我們希望能夠把全世界各種模態的信息關聯在一起,至少我們希望看到一個prototype來說明怎么實現一個不限模態(unlimited modalities)的通用表征模型。

ImageBind算是跨出了重要的一步,但我之前文章提了我的個人觀點,就是采用小規模其他模態和圖像的對齊數據來實現其他模態encoder和CLIP的vision encoder的方案,這類取巧的方案成本低實現容易,也能拿到不錯的結果,但真想做到足夠好,還有一定距離。

我們大概去年意識到這個問題開始嘗試做這個事情,相對來說兩位核心輸出的同學做起來有點苦哈哈,辛苦去收集數據和吭吭搞大規模預訓練。不過功夫不負有心人,我們還是一把輸出了一個4B規模的通用表征模型(圖文音三模態統一),在語義分割、音文檢索、音頻分類和視覺定位幾個任務都達到了新SOTA表現,在視頻分類、圖像分類圖文檢索、以及多模態經典benchmark也都取得了比較領先的結果。另外,模型展現出來新的zeroshot能力,即實現了新的模態對齊,比如音頻和圖像的對齊,或者音頻+文字和圖像的對齊,而這類數據并沒有出現在我們的預訓練數據集里。下面我來具體介紹下方法實現

ONE-PEACE的方法

總體而言,ONE-PEACE的模型結構核心還是基于transformer,只不過針對多模態做了特殊的設計,當然這里也得感謝前人的很多工作積累了非常多有用的經驗。預訓練任務的思路就是幾個重要的多任務訓練,圍繞contrastive learning展開。模型架構和訓練方法整體如下圖所示:

d3a5f0aa-f885-11ed-90ce-dac502259ad0.jpg

模型結構本質上還是transformer,處理方法和我們之前做OFA接近,通過各自模態的adaptor實現信息的向量化,傳入Transformer engine。這里language adaptor就是最簡單的word embedding,vision adaptor采用了hierarchical MLP,相比過去使用ResNet或者CLIP ViT成本更低,audio adaptor采用的是convolutional feature extractor。輸入Transformer模型后,我們希望模型既有統一處理的部分,也有模態特定的處理部分。參考VLMo和BeiT-3的成功經驗,我們將FFN部分設計成multiway(Modality-specific MoE)的方式,每個模態包含各自的FFN層。而在Transformer內部,主要實現了幾處改動。一是GeGLU的引入,相比GeLU能實現更好的效果;二是相對位置編碼,實現更好的position表示;三是使用了Magneto的方案,在attention和FFN均新增layernorm增加訓練穩定性,四是使用LayerScale,同樣能夠提升訓練穩定性。

訓練方法上,我們主要圍繞對比學習展開,只不過實際實現并非只使用一個模態一個embedding然后做InfoNCE的方案。這部分主要分為兩類任務:

跨模態對比學習:這部分可以認為和CLIP的訓練方法類似,只不過擴展到更多的模態組合,從而實現模態和模態之間的對齊。這里我們同樣沒有遍歷所有模態的兩兩組合,而選用文本作為中介。

模態內去噪對比學習:名字有點拗口,這里用的詞是intra-modal denoising contrastive learning。這個任務的本質是masked element(language/image/audio)modeling,但走的是feature distillation的路線。之后有機會整理下feature distillation這條線的工作,在表征學習上還是取得不錯的進展。那么這里的masked element modeling,用的是拿沒被mask的輸入得到的表征作為teacher指導被mask輸入得到的表征這個student。有別于對應位置向量做L1/L2 loss的經典方案,這里用的是對比學習。

整個訓練分為兩個階段,第一個階段可以理解為奠定基礎的訓練,即經典的圖文數據預訓練。在這一部分圖文相關的參數都會被更新,包括self attention以及這兩個模態各自的FFN。而訓練完備后,如果要增加新的模態,比如語音,只需要使用語音-文本對數據繼續預訓練,而這個階段就只有語音相關的參數會被更新,比如語音adaptor和語音FFN等。這種增加模態的方案同樣可以不斷拓展到更多模態上,只要使用上能夠align上其中一個模態的配對數據即可,而且因為很多參數共用,相比重新訓一個modality specific的encoder更容易拿到好結果。

實驗效果

實驗分為finetuning和zeroshot兩個部分,其中finetuning更多追求效果上的絕對提升,而zeroshot則是觀測其本身作為通用模型的表現,尤其是emergent zeroshot capabilities這個部分更是展現這種模型能夠達到類比無監督訓練的效果。

這里我調換下順序先介紹下比較有趣的emergent zeroshot capabilities。這里我們沒有合適的benchmark去評估,但是可以看不少有趣的例子。可以看到,模型不僅實現了新的模態對齊,還學會組合不同模態的元素去對齊新的模態。比如一個經典的例子就是語音+文本召回圖片,比如snow這個文本配上鳥叫的聲音,就能召回鳥在雪中的圖片,挺有意思。下面給出更多例子:

d3ad2ee2-f885-11ed-90ce-dac502259ad0.jpg

再看finetuning部分,ONE-PEACE主要在CV的任務上表現比較突出。其中在ADE20K上做語義分割,超出了EVA、BeiT-3、InternImage等一眾SOTA模型:

d3b59320-f885-11ed-90ce-dac502259ad0.jpg

在MSCOCO上做物體檢測和實例分割僅次于RevCol,并且ONE-PEACE并沒有做Object365的intermediate finetuning:

d3bd349a-f885-11ed-90ce-dac502259ad0.jpg

視頻分類的K400上,也達到88.1,超過了之前諸如CoCa的模型:

d3c627da-f885-11ed-90ce-dac502259ad0.jpg

而落到語音領域,不管在音文檢索、音頻分類還是語音VQA上,都實現了新的SOTA,超過了LAION的LAION-CLAP:

d3cdd1f6-f885-11ed-90ce-dac502259ad0.jpg

d3d76ad6-f885-11ed-90ce-dac502259ad0.jpg

經典的多模態benchmark上,在視覺定位這個任務上ONE-PEACE直接達到了SOTA表現,并且在out-of-domain的setup下面也有很robust的表現:

d3e10780-f885-11ed-90ce-dac502259ad0.jpg

d3e9ed82-f885-11ed-90ce-dac502259ad0.jpg

圖文檢索上,我們主要和沒有經過intermediate finetuning的模型進行比較,主要對標的是雙塔召回模型,同樣可以看到ONE-PEACE不俗的表現:

d3f3e97c-f885-11ed-90ce-dac502259ad0.jpg

VQA和NLVR-2屬實肝不動BeiT-3,不過相比其他基本都有明顯優勢:

d3faf726-f885-11ed-90ce-dac502259ad0.jpg

當然,說這么多效果方面的東西,只是為了證明這個模型還是比較能打的。雖然沒法全部刷新那么狠,但可以看到一個模型可以做到整體這個效果,應該拉出去實際場景用用還是可以的。

不足與未來工作

不足之處其實上文也可以看到確實有些效果沒太做到頂,但僅僅追求SOTA意義其實不大。下一步我們要做的,其實是給出更多成功的實踐將這個模型擴展更多模態,尤其是對比如視頻這類復雜模態,怎么在真正高難度的任務上做得更好。另外,表征模型的潛力絕不僅僅只是在finetuning,也不在單純的zeroshot檢索,而在于其良好的對齊從而通過通用大模型做更復雜的人物,比如結合LLM。當前多模態LLM這個賽道發展如火如荼,ONE-PEACE怎么實現和強大的LLM結合,從而實現對世界的跨模態復雜任務的處理,也許相比追求benchmark更加關鍵。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1088

    瀏覽量

    40515
  • 模型
    +關注

    關注

    1

    文章

    3279

    瀏覽量

    48980
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24754

原文標題:阿里&華科大提出ONE-PEACE:更好的通用表征模型,刷新多個SOTA!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    IGBT的物理結構模型—BJT&MOS模型(1)

    在前面關于PIN&MOS模型分析中,特別強調了這個模型所存在的一個短板,即所有電流都通過MOS溝道,實際上只有電子電流通過MOS溝道,而空穴電流則通過p-base。
    的頭像 發表于 12-01 10:17 ?1499次閱讀
    IGBT的物理結構<b class='flag-5'>模型</b>—BJT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;MOS<b class='flag-5'>模型</b>(1)

    厲害了!阿里安全圖靈實驗室在ICDAR2017 MLT競賽刷新世界最好成績

    。該模型已經全面支撐阿里生態中的商品內容安全、業務安全、平臺治理、評價、交互、認證等多個業務場景,同時,還通過阿里云盾-內容安全(綠網)產品,輸出給第三方客戶使用。目前,ATL Can
    發表于 03-14 10:54

    Slew Rate of Op Amp Circuits

    of the output of an op amp circuit. The SR in general describes the degradation effect on the high frequency response of the active amplifier (
    發表于 09-26 10:45 ?12次下載

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    發表于 04-14 08:52 ?0次下載
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    發表于 04-14 08:55 ?0次下載
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    發表于 06-17 15:53 ?0次下載
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    發表于 06-17 15:55 ?2次下載
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    存儲類&amp;作用域&amp;生命周期&amp;鏈接屬性

    、鏈接屬性前言本篇文章將會為大家介紹一些變量相關的存儲屬性、作用域、生命周期以及鏈接屬性的一些知識,有助于大家更好地理解程序,分析程序。一、存儲類&amp;amp;作用域&amp;
    發表于 12-09 15:51 ?5次下載
    存儲類&<b class='flag-5'>amp</b>;作用域&<b class='flag-5'>amp</b>;生命周期&<b class='flag-5'>amp</b>;鏈接屬性

    如何區分Java中的&amp;amp;和&amp;amp;&amp;amp;

    首先給i賦值為0,如果i大于10,并且i++等于1,則輸出“錯誤”和i的值。否則輸出“正確”和i的值。分別用&amp;和&amp;&amp;運行,觀察運行結果的不同。
    的頭像 發表于 02-24 10:46 ?1575次閱讀
    如何區分Java中的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;和&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;

    if(a==1 &amp;amp;&amp;amp; a==2 &amp;amp;&amp;amp; a==3),為true,你敢信?

    接下來咱們來嘗試解決這個問題。假設 if(a==1&amp;&amp;a==12)是等于 true的,那么a肯定不可能是一個“普通的變量”。它勢必要有能力在執行的時候能夠動態改動值。
    的頭像 發表于 05-08 11:01 ?1136次閱讀
    if(a==1 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==2 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==3),為true,你敢信?

    攝像機&amp;amp;amp;雷達對車輛駕駛的輔助

    攝像機&amp;amp;雷達擔負著可輔助駕駛員安全駕駛的、高級駕駛輔助系統的傳感功能。尼得科正在進一步推進攝像機&amp;amp;雷達的高性能化進程。
    的頭像 發表于 11-26 10:02 ?943次閱讀
    攝像機&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;雷達對車輛駕駛的輔助

    科大&amp;amp;字節提出UniDoc:統一的面向文字場景的多模態大模型

    如上圖所示,UniDoc基于預訓練的視覺大模型及大語言模型,將文字的檢測、識別、spotting(圖中未畫出)、多模態理解等四個任務,通過多模態指令微調的方式,統一到一個框架中。具體地,輸入一張圖像以及一條指令(可以是檢測、識別、spotting、語義理解)
    的頭像 發表于 08-31 15:29 ?1591次閱讀
    中<b class='flag-5'>科大</b>&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;字節<b class='flag-5'>提出</b>UniDoc:統一的面向文字場景的多模態大<b class='flag-5'>模型</b>

    低成本擴大輸入分辨率!科大提出Monkey:新的多模態大模型

    下圖展示了Monkey的卓越性能,在 18 個不同的數據集上進行測試的結果表明,Monkey能夠很好地勝任圖像描述生成、場景問答、以場景文本為中心的視覺問答和面向文檔的視覺問答等任務,并在16個數據集上取得SOTA
    的頭像 發表于 12-04 15:33 ?1359次閱讀
    低成本擴大輸入分辨率!<b class='flag-5'>華</b><b class='flag-5'>科大提出</b>Monkey:新的多模態大<b class='flag-5'>模型</b>

    高分工作!Uni3D:3D基礎大模型刷新多個SOTA

    的結果,但是在3D視覺中模型的scale up始終沒有成功。我們旨在將NLP/2D中scale up的成功復現到3D表征模型上。
    的頭像 發表于 01-30 15:56 ?923次閱讀
    高分工作!Uni3D:3D基礎大<b class='flag-5'>模型</b>,<b class='flag-5'>刷新</b><b class='flag-5'>多個</b><b class='flag-5'>SOTA</b>!

    FS201資料(pcb &amp;amp; DEMO &amp;amp; 原理圖)

    電子發燒友網站提供《FS201資料(pcb &amp; DEMO &amp; 原理圖).zip》資料免費下載
    發表于 07-16 11:24 ?0次下載
    主站蜘蛛池模板: 婷婷综合亚洲| 狼色网| 欧美性白人极品1819hd高清| 一区二区三区免费视频播放器| 欧美视频亚洲色图| 亚洲狠狠操| 日韩高清成人毛片不卡| 5151hh四虎国产精品| 日韩伊人网| 97色在线视频观看香蕉| 激情福利网| 欧美视频精品在线| 黄色美女网站免费看| 老色批网站| 欧美一区二区三区黄色| 色六月婷婷| 四虎影院一级片| 亚洲伊人成人| 亚洲最大的成人网| 日韩毛片在线看| 日本a网| 日韩a毛片| 久久国产色| 狠狠做久久深爱婷婷97动漫| 成年片色大黄全免费网址| 国产成人在线播放视频| 国产一卡二卡≡卡四卡无人| 精品一级毛片| 在线免费影视| 国语对白老女人8av| 久久99精品国产麻豆宅宅| 手机看片国产在线| 色天天综合色天天天天看大| 成在线人永久免费播放视频| 成人午夜大片免费看爽爽爽| xxxx黄| 国产精品久久久久久久成人午夜| 视频1区| 天天色综合久久| 色多多视频在线观看播放| 日韩三级免费|