斗破苍穹续集,已完结小说排行榜,遮天

日前，智源「悟道·視界」通用視覺大模型系列，帶來計算機視覺多任務處理能力方面的6項國際領先技術，迎接通用視覺智能曙光降臨，包括：

在多模態序列中補全一切的多模態大模型Emu

最強十億級視覺基礎模型EVA

一通百通、分割一切的視界通用分割模型

首創上下文圖像學習技術路徑的通用視覺模型Painter

性能最強開源CLIP模型 EVA-CLIP

簡單prompt（提示）即可視頻編輯的 vid2vid-zero 零樣本視頻編輯技術

“悟道·視界”

通用視覺大模型系列開源地址：

EVA代碼和論文

Github 項目地址

https://github.com/baaivision/EVA

論文地址

https://arxiv.org/abs/2211.07636

EVA-CLIP代碼和論文

Github 項目地址

https://github.com/baaivision/EVA/tree/master/EVA-CLIP

論文地址

https://arxiv.org/abs/2303.15389

Painter代碼和論文

Github 項目地址

https://github.com/baaivision/Painter

論文地址

https://arxiv.org/abs/2212.02499

「視界通用分割模型」代碼和論文

Github 項目地址

https://github.com/baaivision/Painter

論文地址

https://arxiv.org/abs/2304.03284

Demo 地址

https://huggingface.co/spaces/BAAI/SegGPT

vid2vid-zero代碼和論文

Github 項目地址

https://github.com/baaivision/vid2vid-zero

論文鏈接

https://arxiv.org/abs/2303.17599

Demo 地址

https://huggingface.co/spaces/BAAI/vid2vid-zero

Emu：在多模態序列中補全一切的多模態大模型

多模態輸入，多模態輸出。

Emu作為業界首個多模態-to-多模態的多模態大模型，可以接受和處理不同模態的數據，并輸出想要的多模態類別。

基于多模態上下文學習技術路徑，從圖文、交錯圖文、交錯視頻文本等海量多模態序列中學習。訓練完成后，Emu能在多模態序列的上下文中補全一切，對圖像、文本和視頻等多種模態的數據進行感知、推理和生成，實現多輪圖文對話、視頻理解、精準圖像認知、文圖生成、多模態上下文學習、視頻問答和圖圖生成等多模態能力。

在零樣本COCO圖像描述性能方面，Emu超越Flagmingo-80B，取得109分。相比其他多模態模型，可以準確識別出莫奈的日出印象；可以完成少樣本圖文理解，以兩個圖文對為例，可自動完成對應任務；還可根據圖片或視頻進行問答和多輪對話。

在生成能力方面，可以根據任意長度文本生成圖像；在圖圖生成方面，可以自動推理生成新的圖片；在多模態上下文生成方面，可以根據文本-圖片作為prompt，生成融合了上下文的新圖片。

EVA：最強十億級視覺基礎模型

通用性是大模型能力的重要指標，亦是研究難點所在。如何讓通用視覺模型，在更高效的同時更簡單？語義學習和幾何結構學習是解決視覺問題的兩大關鍵點。

將最強十億級視覺基礎模型 EVA 正是將最強語義學習（CLIP）與最強幾何結構學習（MIM）結合，再將標準的 ViT 模型擴大規模至 10 億參數進行訓練，一舉在 ImageNet 分類、COCO 檢測分割、Kinetics 視頻分類等廣泛的視覺感知任務中取得當時最強性能。

視覺預訓練模型EVA的命名來源于論文標題“Exploring the Limits of Masked Visual Representation Learning at Scale”相關字母的簡化，意為探索遮蔽視覺表征學習的極限。

EVA模型把以“視覺為中心”作為建模思想，將語義學習（CLIP）與幾何結構學習（MIM）結合，僅使用標準的 ViT 模型，并將其規模擴大到十億參數（1-Billion）進行訓練。

模型訓練方法是使用圖像-文本對齊（即CLIP）的視覺特征作為MIM的預測目標，模型設計思路有兩個特點：

高效，EVA僅使用開源的純圖像數據即可進行掩碼預測任務，不需要預訓練階段重新學習語義以及不需要巨量的成對有標注數據。相比而言，主流標桿性模型（ViT-g、SwinV2、CoCa等）仍依賴于冗長的有監督或弱監督訓練，以及不可公開訪問的數億級有標簽數據。

簡單，EVA不需要特殊設計網絡結構。使用簡單的網絡結構—標準的ViT-g，而無需額外特殊設計的算子，使得其非常容易的遷移到廣泛的下游任務，并且可以和其他模態共享。

經過實驗，模型在ImageNet分類、COCO檢測分割、Kinetics視頻分類等廣泛的視覺感知任務中取得當前最強性能。

如上圖，ImageNet圖像分類中取得89.7%的top-1準確率；Kinetics-700視頻動作識別取得82.9%的top-1準確率；COCO目標檢測取得64.7 mAP、實例分割取得55.5 mAP；LVIS的實例分割取得55.0 mAP；語義分割的COCO-stuff取得53.4 mIoU、ADE-20K取得62.3 mIoU。

Painter通用視覺模型：首創「上下文視覺學習」技術路徑

圖像理解圖像、圖像解釋圖像，圖像輸出圖像。將NLP中的上下文學習概念引入視覺模型，是智源對通用智能的新探索。

通用視覺模型 Painter , 將“以視覺為中心”作為建模核心思想，將圖像作為輸入和輸出，從而獲得上下文視覺信息，完成不同的視覺任務。

通用視覺模型Painter的設計思路是將大多數視覺任務看成”圖像修復問題“，即給定輸入（“缺失”）圖像，預測輸出是“修復“過的圖像。這保持了像素之間的空間關系，確保每個輸出圖像的像素仍然代表相關任務的輸出。

Painter的建模要素可以歸納為三部分：輸入、架構以及損失函數。

輸入為圖像。任務輸入和輸出都是圖像，會隨機遮蔽任務輸出圖像，并訓練模型重構缺失（被遮蔽掉）的像素。研究人員發現，遮蔽比例為75%效果最好。

損失函數采用簡單的回歸損失。研究人員發現，Smooth l1 損失能幫助模型取得最好的性能。

架構采用基本的ViT（vision Transformer）作為編碼器。具體來說，神經網絡頭部（head）由兩個線性層（每個是1×1卷積），一個3×3卷積層組成。

模型目前可完成 7 種主流視覺任務，已經在深度估計、語義分割等核心視覺任務中性能“大幅超越同類”，相比同類模型具有 11%~25% 的性能提升，超過了圖靈獎得主 Geoffrey Hinton 團隊的 Pix2Seqv2，艾倫AI研究所的視覺通用模型 Unified-IO 和谷歌的 UViM。

「視界」通用分割模型：一通百通，分割一切

「視界通用分割模型」基于通用模型Painter開發，是首個利用視覺提示（prompt）完成任意分割任務的通用視覺模型，一通百通、分割一切。

從影像中分割出各種各樣的對象，是視覺智能的關鍵里程碑。今年年初，智源視界分割模型與Meta 的 SAM 模型同時發布，點亮通用視覺曙光。

它將分割任務視為一種通用的視覺感知格式，即通過將它們轉化為圖像的相同格式來適應不同種類的分割數據；同時，模型訓練被構造為一個在上下文中的著色問題，即目標是只根據上下文，來著色相應的區域，而不是依賴特定的顏色，這使得模型更靈活和可泛化。

總的來說「視界通用分割模型」在基礎模型Painter做了三點主要創新：

1.上下文隨機著色方法。首先隨機采樣與輸入圖像“相似”的圖像，然后從目標圖像中隨機抽取一組顏色，并將每種顏色映射到一個隨機顏色，如此可得到兩對圖像，被定義為上下文對。從而打破了原始圖像中的顏色關聯，迫使模型“放棄”顏色信息依賴，更多依賴依賴上下文信息。

2.上下文集成方法。兩種集成方案：空間集成，將多個示例圖像拼接在一起，并將它們調整到與單個示例相同的大小；特征集成，將多個示例在批處理維度上進行組合，并獨立計算。兩種集成方式讓模型可以使用多個示例，從而提供更準確和具體的上下文信息。

3.上下文微調方法。凍結整個模型，并初始化一個可學習的圖像張量作為輸入上下文。在訓練過程中，只有這個可學習的圖像張量會被更新，其他的訓練過程保持不變。從而能以靈活的方式適應特定的任務或數據集。

以上技術讓「視界通用分割模型」具備輸入任意數量的prompt，以及對特定場景優化專用prompt的能力。即「視界通用分割模型」解鎖了上下文推理能力，訓練完成后無需微調，只需提供示例即可自動推理并完成對應分割任務。

實驗結果也顯示了模型強大的能力。例如模型只需少數 prompt 示例，在 COCO 和 PASCAL 數據集上取得最優性能；模型的零樣本場景遷移實驗中，模型在少樣本語義分割測試集 FSS-1000 上，在無需訓練的情況下取得最佳性能；另外，無需視頻訓練數據，模型可直接進行視頻物體分割，并取得和專門優化的模型相當的性能。

EVA-CLIP：性能最強開源CLIP模型

零樣本學習是指僅通過描述讓AI“認出”未見過的物體，是評價模型泛化能力的重要指標。多模態預訓練模型CLIP 作為零樣本學習基礎模型，廣受業界認可。

智源視覺團隊于2023年初發布的 EVA-CLIP 5B 版本，創造了零樣本學習性能新高度：超越此前最強的 OpenCLIP 模型，在 ImageNet1K 零樣本 top1 達到最高的 82.0% 準確率。

而去年發布的 EVA-CLIP 1B 版本，今年才被 Meta 發布的 DINOv2 模型追平 ImageNet kNN準確率指標。

EVA-CLIP是一系列模型的總稱，集成了當前新興的幾種模型訓練技術，包括用EVA預訓練模型進行初始化，用LAMB優化器加速模型，用FLIP技術節省訓練時間等等。具體而言，模型有兩種集成思路：

1.EVA預訓練 + LAMB優化器讓CLIP模型表現更加強大。

視覺預訓練模型 EVA 能將語義學習（CLIP）與幾何結構學習（MIM）結合，在標準模型基礎上，將規模擴大到十億參數（1-Billion）進行訓練。EVA 模型的輸入為有遮蓋的圖像，但遮蓋部分能重構 CLIP 模型對應位置，從而獲得高效、簡單的可泛化模型。

LAMB優化器專門面向大批量（batch）訓練，考慮到它自適應的學習率和動量參數設置的優勢，為避免泛化差距難題，研究員認為LAMB優化器比Adam、RMSprop更適合訓練大規模CLIP模型。

2，FlashAttention機制+ FLIP加速讓CLIP模型訓練更迅速。

FlashAttention算法可以在執行更少的內存/訪問的基礎之上，在加速和節省內存的基礎上計算精確注意力。研究員使用該機制訓練CLIP時可以提升15%-30%的訓練速度。

FLIP旨在通過簡單的圖像掩蔽提升CLIP的訓練速度，帶來性能提升。實踐中，研究員隨機掩蔽了50%的圖像標簽，減少一半的時間復雜度。

實驗結果表現，50億參數量的EVA-CLIP模型，零樣本分類和檢索的性能全面提升。在ImageNet1K零樣本top1 準確率達到了82.0%，高于此前最佳OpenCLIP的80%；在 MS COCO 上實現了75.0% 的zero-shot圖像檢索（Recall@5）。

同時，EVA-CLIP兼顧了泛化能力和魯棒性。例如EVA-CLIP與27個零樣本圖像分類基準的對比，效果最好的EVA-CLIP達到了平均77.5的Top-1準確率，模型泛化能力業界領先。EVA-02-CLIP-E/14+在ImageNet系列和ObjectNet的所有6個基準測試中獲得了平均80.9%的準確率，這充分證實了魯棒性。

vid2vid-zero：簡單prompt（提示）即可視頻編輯的零樣本視頻編輯方法

現有文本驅動的 AIGC 視頻編輯方法嚴重依賴于在大量「文本-視頻」數據上調整預訓練好的視頻擴散模型，需要龐大的計算資源，帶來了高昂的人工數據標注成本和計算成本。

智源研究院提出了零樣本視頻編輯方法「vid2vid-zero」，首次在無需額外視頻訓練的情況下，利用注意力機制動態運算的特點，結合現有圖像擴散模型，實現可指定屬性的視頻編輯。

這里用兩組視頻展示了模型的有效性。我們介紹第一組：輸入文本“a man is running”。

加入指令：動漫風格。輸出結果可以很好的將人物轉換成動漫，展示了模型風格編輯能力。

加入指令：一位老人在海灘。輸出結果說明模型的屬性編輯和背景編輯能力已經過關。

此外，論文中公布了更多的視頻案例，更多模型能力，請訪問論文。

用戶根據「視頻質量」、「文本與視頻的對齊程度」、「對原始視頻的保真度」在 32 段視頻上對 vid2vid-zero、TAV、PnP 模型的性能進行了比較。實驗結果表明，vid2vid-zero 在上述三項指標上都具有顯著優勢。

審核編輯黃宇

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

大模型

大模型

+關注

關注
2

文章
2451

瀏覽量
2714

CET中電技術電能質量相關科技成果獲國際領先、國際先進認定

聽取CET中電技術項目總結匯報，經質詢、答疑、討論后一致認為，該項科技成果整體達到國際先進水平，在超高次諧波的同步監測及其在故障診斷中的應用達到國際領先水平，一致同意

發表于 11-30 01:07 ?236次閱讀

CET中電<b class='flag-5'>技術</b>電能質量相關科技<b class='flag-5'>成果</b>獲國際<b class='flag-5'>領先</b>、國際先進認定

阿里通義千問代碼模型全系列開源

近日，阿里云通義大模型團隊宣布了一項重大決策：將通義千問代碼模型全系列正式開源。此次開源的模型系列

發表于 11-14 15:26 ?344次閱讀

高清視界，盡在掌握——深度解析變焦機芯模組技術

隨著科技的飛速發展，變焦機芯模組技術作為影像領域的核心技術之一，正以前所未有的速度改變著我們的視覺體驗。這項技術不僅提升了影像的清晰度和動態范圍，還極大地豐富了拍攝和觀察的方式，讓高清

發表于 09-10 15:59 ?419次閱讀

通義千問發布第二代視覺語言模型Qwen2-VL

阿里巴巴旗下的通義千問近日宣布，其第二代視覺語言模型Qwen2-VL正式問世，并宣布旗艦模型Qwen2-VL-72B的API已順利接入阿里云百煉平臺，標志著這一創新技術成果正式對外開放

發表于 09-03 16:31 ?581次閱讀

計算機視覺技術的AI算法模型

計算機視覺技術作為人工智能領域的一個重要分支，旨在使計算機能夠像人類一樣理解和解釋圖像及視頻中的信息。為了實現這一目標，計算機視覺技術依賴于多種先進的AI算法

發表于 07-24 12:46 ?859次閱讀

聆思CSK6視覺語音大模型AI開發板入門資源合集（硬件資料、大模型語音/多模態交互/英語評測SDK合集）

本帖最后由 jf_40317719 于 2024-6-18 17:39 編輯視覺語音大模型 AI 開發套件( CSK6-MIX )是圍繞 CSK6011A 芯片設計的具備豐富語

發表于 06-18 17:33

COMPUTEX 2024 | 天馬邀您開啟視界新篇章

解決方案亮相展會。通過展示一系列具備卓越顯示效果的產品與技術，讓客戶更加深入地體驗到天馬顯示科技帶來的無限可能。 IT顯示優能護眼全面升級健康護眼顯示，守護您的雙眼隨著“讀屏時代”的到來，人們

發表于 06-05 10:59

智芯公司10項QC成果獲獎

項QC成果分別獲得一等獎（領先級）和二等獎（示范級）各1項，刷新了智芯公司QC成果年度一等獎獲獎數量新紀錄！獲獎證書近年來，QC小組活動

發表于 05-27 18:58 ?820次閱讀

【大語言模型：原理與工程實踐】大語言模型的基礎技術

全面剖析大語言模型的核心技術與基礎知識。首先，概述自然語言的基本表示，這是理解大語言模型技術的前提。接著，詳細介紹自然語言處理預訓練的經典結構Transformer，以及其工作原理，

發表于 05-05 12:17

廣汽科技全固態電池與無圖純視覺智駕引領智電新時代

4月12日，以“科技視界”為主題的2024廣汽科技日（GAC TECH DAY 2024）活動在廣州舉辦。本次科技日聚焦智電前沿技術，推出了國內領先的無圖純視覺智駕系統，以及實現關鍵

發表于 04-15 10:01 ?668次閱讀

華潤微電子兩項產品入選中央企業科技創新成果產品手冊

華潤微“SiC JBS器件及系列化產品”“SiC MOSFET器件及系列化產品”兩項成果入選電子元器件領域科技創新成果

發表于 04-14 09:43 ?594次閱讀

智芯公司3項專利成果獲評第二屆能源行業高價值專利（技術）成果

3月21日，中國能源研究會公布2023年第二屆能源行業高價值專利及技術成果轉化典型案例評選結果，智芯公司共3項專利技術成果成功獲評，其中核心型高價值專利（技術）

發表于 03-25 14:04 ?825次閱讀

Anthropic領先模型Claude 3系列將基于Amazon Bedrock提供服務

亞馬遜云科技（Amazon Web Services）近日宣布，將與致力于AI安全和研究的公司Anthropic展開合作，將其領先的Claude 3系列模型基于Amazon Bedrock平臺提供

發表于 03-11 10:56 ?526次閱讀

全球領先微波光子芯片問世，應用廣泛

顯眼的是，這項研究成果帶頭開創了全新的研究領域——鈮酸鋰微波光子學。在這項領域中，微波光子芯片體積更為微小，具備更高的信號真實性和平滑的延遲特性。

發表于 03-07 14:10 ?912次閱讀

機器視覺缺陷檢測是工業自動化領域的一項關鍵技術

機器視覺缺陷檢測是工業自動化領域的一項關鍵技術，

發表于 02-22 13:59 ?536次閱讀