日前,智源「悟道·視界」通用視覺大模型系列,帶來計算機視覺多任務處理能力方面的6項國際領先技術,迎接通用視覺智能曙光降臨,包括:
在多模態序列中補全一切的多模態大模型Emu
最強十億級視覺基礎模型EVA
一通百通、分割一切的視界通用分割模型
首創上下文圖像學習技術路徑的通用視覺模型Painter
性能最強開源CLIP模型 EVA-CLIP
簡單prompt(提示)即可視頻編輯的 vid2vid-zero 零樣本視頻編輯技術
“悟道·視界”
通用視覺大模型系列開源地址:
EVA代碼和論文
Github 項目地址
https://github.com/baaivision/EVA
論文地址
https://arxiv.org/abs/2211.07636
EVA-CLIP代碼和論文
Github 項目地址
https://github.com/baaivision/EVA/tree/master/EVA-CLIP
論文地址
https://arxiv.org/abs/2303.15389
Painter代碼和論文
Github 項目地址
https://github.com/baaivision/Painter
論文地址
https://arxiv.org/abs/2212.02499
「視界通用分割模型」代碼和論文
Github 項目地址
https://github.com/baaivision/Painter
論文地址
https://arxiv.org/abs/2304.03284
Demo 地址
https://huggingface.co/spaces/BAAI/SegGPT
vid2vid-zero代碼和論文
Github 項目地址
https://github.com/baaivision/vid2vid-zero
論文鏈接
https://arxiv.org/abs/2303.17599
Demo 地址
https://huggingface.co/spaces/BAAI/vid2vid-zero
Emu:在多模態序列中補全一切的多模態大模型
多模態輸入,多模態輸出。
Emu作為業界首個多模態-to-多模態的多模態大模型,可以接受和處理不同模態的數據,并輸出想要的多模態類別。
基于多模態上下文學習技術路徑,從圖文、交錯圖文、交錯視頻文本等海量多模態序列中學習。訓練完成后,Emu能在多模態序列的上下文中補全一切,對圖像、文本和視頻等多種模態的數據進行感知、推理和生成,實現多輪圖文對話、視頻理解、精準圖像認知、文圖生成、多模態上下文學習、視頻問答和圖圖生成等多模態能力。
在零樣本COCO圖像描述性能方面,Emu超越Flagmingo-80B,取得109分。相比其他多模態模型,可以準確識別出莫奈的日出印象;可以完成少樣本圖文理解,以兩個圖文對為例,可自動完成對應任務;還可根據圖片或視頻進行問答和多輪對話。
在生成能力方面,可以根據任意長度文本生成圖像;在圖圖生成方面,可以自動推理生成新的圖片;在多模態上下文生成方面,可以根據文本-圖片作為prompt,生成融合了上下文的新圖片。
EVA:最強十億級視覺基礎模型
通用性是大模型能力的重要指標,亦是研究難點所在。如何讓通用視覺模型,在更高效的同時更簡單?語義學習和幾何結構學習是解決視覺問題的兩大關鍵點。
將最強十億級視覺基礎模型 EVA 正是將最強語義學習(CLIP)與最強幾何結構學習(MIM)結合,再將標準的 ViT 模型擴大規模至 10 億參數進行訓練,一舉在 ImageNet 分類、COCO 檢測分割、Kinetics 視頻分類等廣泛的視覺感知任務中取得當時最強性能。
視覺預訓練模型EVA的命名來源于論文標題“Exploring the Limits of Masked Visual Representation Learning at Scale”相關字母的簡化,意為探索遮蔽視覺表征學習的極限。
EVA模型把以“視覺為中心”作為建模思想,將語義學習(CLIP)與幾何結構學習(MIM)結合,僅使用標準的 ViT 模型,并將其規模擴大到十億參數(1-Billion)進行訓練。
模型訓練方法是使用圖像-文本對齊(即CLIP)的視覺特征作為MIM的預測目標,模型設計思路有兩個特點:
高效,EVA僅使用開源的純圖像數據即可進行掩碼預測任務,不需要預訓練階段重新學習語義以及不需要巨量的成對有標注數據。相比而言,主流標桿性模型(ViT-g、SwinV2、CoCa等)仍依賴于冗長的有監督或弱監督訓練,以及不可公開訪問的數億級有標簽數據。
簡單,EVA不需要特殊設計網絡結構。使用簡單的網絡結構—標準的ViT-g,而無需額外特殊設計的算子,使得其非常容易的遷移到廣泛的下游任務,并且可以和其他模態共享。
經過實驗,模型在ImageNet分類、COCO檢測分割、Kinetics視頻分類等廣泛的視覺感知任務中取得當前最強性能。
如上圖,ImageNet圖像分類中取得89.7%的top-1準確率;Kinetics-700視頻動作識別取得82.9%的top-1準確率;COCO目標檢測取得64.7 mAP、實例分割取得55.5 mAP;LVIS的實例分割取得55.0 mAP;語義分割的COCO-stuff取得53.4 mIoU、ADE-20K取得62.3 mIoU。
Painter通用視覺模型:首創「上下文視覺學習」技術路徑
圖像理解圖像、圖像解釋圖像,圖像輸出圖像。將NLP中的上下文學習概念引入視覺模型,是智源對通用智能的新探索。
通用視覺模型 Painter , 將“以視覺為中心”作為建模核心思想,將圖像作為輸入和輸出,從而獲得上下文視覺信息,完成不同的視覺任務。
通用視覺模型Painter的設計思路是將大多數視覺任務看成”圖像修復問題“,即給定輸入(“缺失”)圖像,預測輸出是“修復“過的圖像。這保持了像素之間的空間關系,確保每個輸出圖像的像素仍然代表相關任務的輸出。
Painter的建模要素可以歸納為三部分:輸入、架構以及損失函數。
輸入為圖像。任務輸入和輸出都是圖像,會隨機遮蔽任務輸出圖像,并訓練模型重構缺失(被遮蔽掉)的像素。研究人員發現,遮蔽比例為75%效果最好。
損失函數采用簡單的回歸損失。研究人員發現,Smooth l1 損失能幫助模型取得最好的性能。
架構采用基本的ViT(vision Transformer)作為編碼器。具體來說,神經網絡頭部(head)由兩個線性層(每個是1×1卷積),一個3×3卷積層組成。
模型目前可完成 7 種主流視覺任務,已經在深度估計、語義分割等核心視覺任務中性能“大幅超越同類”,相比同類模型具有 11%~25% 的性能提升,超過了圖靈獎得主 Geoffrey Hinton 團隊的 Pix2Seqv2,艾倫AI研究所的視覺通用模型 Unified-IO 和谷歌的 UViM。
「視界」通用分割模型:一通百通,分割一切
「視界通用分割模型」基于通用模型Painter開發,是首個利用視覺提示(prompt)完成任意分割任務的通用視覺模型,一通百通、分割一切。
從影像中分割出各種各樣的對象,是視覺智能的關鍵里程碑。今年年初,智源視界分割模型與Meta 的 SAM 模型同時發布,點亮通用視覺曙光。
它將分割任務視為一種通用的視覺感知格式,即通過將它們轉化為圖像的相同格式來適應不同種類的分割數據;同時,模型訓練被構造為一個在上下文中的著色問題,即目標是只根據上下文,來著色相應的區域,而不是依賴特定的顏色,這使得模型更靈活和可泛化。
總的來說「視界通用分割模型」在基礎模型Painter做了三點主要創新:
1.上下文隨機著色方法。首先隨機采樣與輸入圖像“相似”的圖像,然后從目標圖像中隨機抽取一組顏色,并將每種顏色映射到一個隨機顏色,如此可得到兩對圖像,被定義為上下文對。從而打破了原始圖像中的顏色關聯,迫使模型“放棄”顏色信息依賴,更多依賴依賴上下文信息。
2.上下文集成方法。兩種集成方案:空間集成,將多個示例圖像拼接在一起,并將它們調整到與單個示例相同的大小;特征集成,將多個示例在批處理維度上進行組合,并獨立計算。兩種集成方式讓模型可以使用多個示例,從而提供更準確和具體的上下文信息。
3.上下文微調方法。凍結整個模型,并初始化一個可學習的圖像張量作為輸入上下文。在訓練過程中,只有這個可學習的圖像張量會被更新,其他的訓練過程保持不變。從而能以靈活的方式適應特定的任務或數據集。
以上技術讓「視界通用分割模型」具備輸入任意數量的prompt,以及對特定場景優化專用prompt的能力。即「視界通用分割模型」解鎖了上下文推理能力,訓練完成后無需微調,只需提供示例即可自動推理并完成對應分割任務。
實驗結果也顯示了模型強大的能力。例如模型只需少數 prompt 示例,在 COCO 和 PASCAL 數據集上取得最優性能;模型的零樣本場景遷移實驗中,模型在少樣本語義分割測試集 FSS-1000 上,在無需訓練的情況下取得最佳性能;另外,無需視頻訓練數據,模型可直接進行視頻物體分割,并取得和專門優化的模型相當的性能。
EVA-CLIP:性能最強開源CLIP模型
零樣本學習是指僅通過描述讓AI“認出”未見過的物體,是評價模型泛化能力的重要指標。多模態預訓練模型CLIP 作為零樣本學習基礎模型,廣受業界認可。
智源視覺團隊于2023年初發布的 EVA-CLIP 5B 版本, 創造了零樣本學習性能新高度:超越此前最強的 OpenCLIP 模型,在 ImageNet1K 零樣本 top1 達到最高的 82.0% 準確率。
而去年發布的 EVA-CLIP 1B 版本,今年才被 Meta 發布的 DINOv2 模型追平 ImageNet kNN準確率指標。
EVA-CLIP是一系列模型的總稱,集成了當前新興的幾種模型訓練技術,包括用EVA預訓練模型進行初始化,用LAMB優化器加速模型,用FLIP技術節省訓練時間等等。具體而言,模型有兩種集成思路:
1.EVA預訓練 + LAMB優化器讓CLIP模型表現更加強大。
視覺預訓練模型 EVA 能將語義學習(CLIP)與幾何結構學習(MIM)結合,在標準模型基礎上,將規模擴大到十億參數(1-Billion)進行訓練。EVA 模型的輸入為有遮蓋的圖像,但遮蓋部分能重構 CLIP 模型對應位置,從而獲得高效、簡單的可泛化模型。
LAMB優化器專門面向大批量(batch)訓練,考慮到它自適應的學習率和動量參數設置的優勢,為避免泛化差距難題,研究員認為LAMB優化器比Adam、RMSprop更適合訓練大規模CLIP模型。
2,FlashAttention機制+ FLIP加速讓CLIP模型訓練更迅速。
FlashAttention算法可以在執行更少的內存/訪問的基礎之上,在加速和節省內存的基礎上計算精確注意力。研究員使用該機制訓練CLIP時可以提升15%-30%的訓練速度。
FLIP旨在通過簡單的圖像掩蔽提升CLIP的訓練速度,帶來性能提升。實踐中,研究員隨機掩蔽了50%的圖像標簽,減少一半的時間復雜度。
實驗結果表現,50億參數量的EVA-CLIP模型,零樣本分類和檢索的性能全面提升。在ImageNet1K零樣本top1 準確率達到了82.0%,高于此前最佳OpenCLIP的80%;在 MS COCO 上實現了75.0% 的zero-shot圖像檢索(Recall@5)。
同時,EVA-CLIP兼顧了泛化能力和魯棒性。例如EVA-CLIP與27個零樣本圖像分類基準的對比,效果最好的EVA-CLIP達到了平均77.5的Top-1準確率,模型泛化能力業界領先。EVA-02-CLIP-E/14+在ImageNet系列和ObjectNet的所有6個基準測試中獲得了平均80.9%的準確率,這充分證實了魯棒性。
vid2vid-zero:簡單prompt(提示)即可視頻編輯的零樣本視頻編輯方法
現有文本驅動的 AIGC 視頻編輯方法嚴重依賴于在大量「文本-視頻」數據上調整預訓練好的視頻擴散模型,需要龐大的計算資源,帶來了高昂的人工數據標注成本和計算成本。
智源研究院提出了零樣本視頻編輯方法「vid2vid-zero」,首次在無需額外視頻訓練的情況下,利用注意力機制動態運算的特點,結合現有圖像擴散模型,實現可指定屬性的視頻編輯。
這里用兩組視頻展示了模型的有效性。我們介紹第一組:輸入文本“a man is running”。
加入指令:動漫風格。輸出結果可以很好的將人物轉換成動漫,展示了模型風格編輯能力。
加入指令:一位老人在海灘。輸出結果說明模型的屬性編輯和背景編輯能力已經過關。
此外,論文中公布了更多的視頻案例,更多模型能力,請訪問論文。
用戶根據「視頻質量」、「文本與視頻的對齊程度」、「對原始視頻的保真度」在 32 段視頻上對 vid2vid-zero、TAV、PnP 模型的性能進行了比較。實驗結果表明,vid2vid-zero 在上述三項指標上都具有顯著優勢。
審核編輯黃宇
-
大模型
+關注
關注
2文章
2451瀏覽量
2714
發布評論請先 登錄
相關推薦
評論