在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于可變形卷積的大規模視覺基礎模型

CVer ? 來源:機器之心 ? 作者:機器之心 ? 2022-11-21 11:28 ? 次閱讀

來自浦江實驗室、清華等機構的研究人員提出了一種新的基于卷積的基礎模型,稱為 InternImage,與基于 Transformer 的網絡不同,InternImage 以可變形卷積作為核心算子,使模型不僅具有檢測和分割等下游任務所需的動態有效感受野,而且能夠進行以輸入信息和任務為條件的自適應空間聚合。InternImage-H 在 COCO 物體檢測上達到 65.4 mAP,ADE20K 達到 62.9,刷新檢測分割新紀錄。

近年來大規模視覺 Transformer 的蓬勃發展推動了計算機視覺領域的性能邊界。視覺 Transformer 模型通過擴大模型參數量和訓練數據從而擊敗了卷積神經網絡。來自上海人工智能實驗室、清華、南大、商湯和港中文的研究人員總結了卷積神經網絡和視覺 Transformer 之間的差距。從算子層面看,傳統的 CNNs 算子缺乏長距離依賴和自適應空間聚合能力;從結構層面看,傳統 CNNs 結構缺乏先進組件。

針對上述技術問題,來自浦江實驗室、清華等機構的研究人員創新地提出了一個基于卷積神經網絡的大規模模型,稱為 InternImage,它將稀疏動態卷積作為核心算子,通過輸入相關的信息為條件實現自適應空間聚合。InternImage 通過減少傳統 CNN 的嚴格歸納偏置實現了從海量數據中學習到更強大、更穩健的大規模參數模式。其有效性在包括圖像分類、目標檢測和語義分割等視覺任務上得到了驗證。并在 ImageNet、COCO 和 ADE20K 在內的挑戰性基準數據集中取得了具有競爭力的效果,在同參數量水平的情況下,超過了視覺 Transformer 結構,為圖像大模型提供了新的方向。

2c37a85e-68ed-11ed-8abf-dac502259ad0.png

InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions

論文鏈接:https://arxiv.org/abs/2211.05778

開源代碼:https://github.com/OpenGVLab/InternImage

2c4c0fd8-68ed-11ed-8abf-dac502259ad0.png

2c81da46-68ed-11ed-8abf-dac502259ad0.png

傳統卷積神經網絡的局限

擴大模型的規模是提高特征表示質量的重要策略,在計算機視覺領域,模型參數量的擴大不僅能夠有效加強深度模型的表征學習能力,而且能夠實現從海量數據中進行學習和知識獲取。ViT 和 Swin Transformer 首次將深度模型擴大到 20 億和 30 億參數級別,其單模型在 ImageNet 數據集的分類準確率也都突破了 90%,遠超傳統 CNN 網絡和小規模模型,突破了技術瓶頸。但是,傳統的 CNN 模型由于缺乏長距離依賴和空間關系建模能力,無法實現同 Transformer 結構相似的模型規模擴展能力。研究者總結了傳統卷積神經網絡與視覺 Transformer 的不同之處:

(1)從算子層面來看,視覺 Transformer 的多頭注意力機制具有長距離依賴和自適應空間聚合能力,受益于此,視覺 Transformer 可以從海量數據中學到比 CNN 網絡更加強大和魯棒的表征。

(2)從模型架構層面來看,除了多頭注意力機制,視覺 Transformer 擁有 CNN 網絡不具有的更加先進的模塊,例如 Layer Normalization (LN), 前饋神經網絡 FFN, GELU 等。

盡管最近的一些工作嘗試使用大核卷積來獲取長距離依賴,但是在模型尺度和精度方面都與最先進的視覺 Transformer 有著一定距離。

可變形卷積網絡的進一步拓展

InternImage 通過重新設計算子和模型結構提升了卷積模型的可擴展性并且緩解了歸納偏置,包括(1)DCNv3 算子,基于 DCNv2 算子引入共享投射權重、多組機制和采樣點調制。(2)基礎模塊,融合先進模塊作為模型構建的基本模塊單元(3)模塊堆疊規則,擴展模型時規范化模型的寬度、深度、組數等超參數。

該工作致力于構建一個能夠有效地擴展到大規模參數的 CNN 模型。首先,重新設計的可變形卷積算子 DCNv2 以適應長距離依賴和弱化歸納偏置;然后,將調整后的卷積算子與先進組件相結合,建立了基礎單元模塊;最后,探索并實現模塊的堆疊和縮放規則,以建立一個具有大規模參數的基礎模型,并且可以從海量數據中學習到強大的表征。

2cbcc4ee-68ed-11ed-8abf-dac502259ad0.png

算子層面,該研究首先總結了卷積算子與其他主流算子的主要區別。當前主流的 Transformer 系列模型主要依靠多頭自注意力機制實現大模型構建,其算子具有長距離依賴性,足以構建遠距離特征間的連接關系,還具有空間的自適應聚合能力以實現構建像素級別的關系。但這種全局的注意力機制其計算和存儲需求量巨大,很難實現高效訓練和快速收斂。同樣的,局部注意力機制缺乏遠距離特征依賴。大核密集卷積由于沒有空間聚合能力,而難以克服卷積天然的歸納偏置,不利于擴大模型。因此,InternImage 通過設計動態稀疏卷積算子,達到實現全局注意力效果的同時不過多浪費計算和存儲資源,實現高效訓練。

研究者基于 DCNv2 算子,重新設計調整并提出 DCNv3 算子,具體改進包括以下幾個部分。

(1)共享投射權重。與常規卷積類似,DCNv2 中的不同采樣點具有獨立的投射權重,因此其參數大小與采樣點總數呈線性關系。為了降低參數和內存復雜度,借鑒可分離卷積的思路,采用與位置無關的權重代替分組權重,在不同采樣點之間共享投影權重,所有采樣位置依賴性都得以保留。

(2)引入多組機制。多組設計最早是在分組卷積中引入的,并在 Transformer 的多頭自注意力中廣泛使用,它可以與自適應空間聚合配合,有效地提高特征的多樣性。受此啟發,研究者將空間聚合過程分成若干組,每個組都有獨立的采樣偏移量。自此,單個 DCNv3 層的不同組擁有不同的空間聚合模式,從而產生豐富的特征多樣性。

(3)采樣點調制標量歸一化。為了緩解模型容量擴大時的不穩定問題,研究者將歸一化模式設定為逐采樣點的 Softmax 歸一化,這不僅使大規模模型的訓練過程更加穩定,而且還構建了所有采樣點的連接關系。

2d10f4d8-68ed-11ed-8abf-dac502259ad0.png

構建 DCNv3 算子之后,接下來首先需要規范化模型的基礎模塊和其他層的整體細節,然后通過探索這些基礎模塊的堆疊策略,構建 InternImage。最后,根據所提出模型的擴展規則,構建不同參數量的模型。

基礎模塊。與傳統 CNN 中廣泛使用的瓶頸結構不同,該研究采用了更接近 ViTs 的基礎模塊,配備了更先進的組件,包括 GELU、層歸一化(LN)和前饋網絡(FFN),這些都被證明在各種視覺任務中更有效率。基礎模塊的細節如上圖所示,其中核心算子是 DCNv3,通過將輸入特征通過一個輕量級的可分離卷積來預測采樣偏置和調制尺度。對于其他組件,遵循與普通 Transformer 相同的設計。

疊加規則。為了明確區塊堆疊過程,該研究提出兩條模塊堆疊規則,其中第一條規則是后三個階段的通道數2d59db1c-68ed-11ed-8abf-dac502259ad0.png,由第一階段的通道數2d6c067a-68ed-11ed-8abf-dac502259ad0.png決定,即2d785876-68ed-11ed-8abf-dac502259ad0.png;第二條規則是各模塊組號與各階段的通道數對應,即2d856d0e-68ed-11ed-8abf-dac502259ad0.png;第三,堆疊模式固定為 “AABA”,即第 1、2 和 4 階段的模塊堆疊數是相同的2d941656-68ed-11ed-8abf-dac502259ad0.png,并且不大于第 3 階段2da0103c-68ed-11ed-8abf-dac502259ad0.png。由此選擇將參數量為 30M 級別的模型作為基礎,其具體參數為:Steam 輸出通道數2dae0ec6-68ed-11ed-8abf-dac502259ad0.png為 64;分組數為每個階段輸入通道數的 1/16,第 1、2、4 階段的模塊堆疊數2dbbec94-68ed-11ed-8abf-dac502259ad0.png為 4,第 3 階段的模塊堆疊數2dc93ab6-68ed-11ed-8abf-dac502259ad0.png為 18,模型參數為 30M。

模型縮放規則。基于上述約束條件下的最優模型,該研究規范化了網絡模型的兩個縮放維度:即深度 D(模塊堆疊數)和寬度 C(通道數),利用限制因子2dd62cbc-68ed-11ed-8abf-dac502259ad0.png2de3ae1e-68ed-11ed-8abf-dac502259ad0.png沿著復合系數2df24a46-68ed-11ed-8abf-dac502259ad0.png對深度和寬度進行縮放,即,2e01bc42-68ed-11ed-8abf-dac502259ad0.png,其中2e12e260-68ed-11ed-8abf-dac502259ad0.png,根據實驗其最佳設置為2e20a0f8-68ed-11ed-8abf-dac502259ad0.png

按照此規則,該研究構建了不同尺度的模型,即 InternImage-T、S、B、L、XL。具體參數為:

2e2d0df2-68ed-11ed-8abf-dac502259ad0.png

實驗結果

圖像分類實驗:通過使用 427M 的公共數據集合:Laion-400M,YFCC15M,CC12M,InternImage-H 在 ImageNet-1K 的精度達到了 89.2%。

2e428ef2-68ed-11ed-8abf-dac502259ad0.png

目標檢測:以最大規模的 InternImage-H 為骨干網絡,并使用 DINO 作為基礎檢測框架,在 Objects365 數據集上預訓練 DINO 檢測器,然后在 COCO 上進行微調。該模型在目標檢測任務中達到了 65.4% 的最優結果,突破了 COCO 目標檢測的性能邊界。

2e9077f2-68ed-11ed-8abf-dac502259ad0.png

語義分割:在語義分割上,InternImage-H 同樣取得了很好的性能,結合 Mask2Former 在 ADE20K 上取得了當前最高的 62.9%。

2ebae5be-68ed-11ed-8abf-dac502259ad0.png

結論

該研究提出了 InternImage,這是一種新的基于 CNN 的大規模基礎模型,可以為圖像分類、對象檢測和語義分割等多功能視覺任務提供強大的表示。研究者調整靈活的 DCNv2 算子以滿足基礎模型的需求,并以核心算子為核心開發了一系列的 block、stacking 和 scaling 規則。目標檢測和語義分割基準的大量實驗驗證了 InternImage 可以獲得與經過大量數據訓練、且精心設計的大規模視覺 Transformer 相當或更好的性能,這表明 CNN 也是大規模視覺基礎模型研究的一個相當大的選擇。盡管如此,大規模的 CNN 仍處于早期發展階段,研究人員希望 InternImage 可以作為一個很好的起點。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4777

    瀏覽量

    100956
  • 計算機視覺
    +關注

    關注

    8

    文章

    1699

    瀏覽量

    46051

原文標題:65.4 AP!刷新COCO目標檢測新記錄!InternImage:基于可變形卷積的大規模視覺基礎模型

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    AI模型部署邊緣設備的奇妙之旅:目標檢測模型

    介紹了如何使用分類任務進行手寫數字的分類。相信大家腦海中可能會產生如下疑問: 數據依賴性強:分類模型的表現通常依賴于大量的標注數據進行訓練。獲取高質量、大規模的數據集既耗時又昂貴。 泛化能力有限:模型
    發表于 12-19 14:33

    深度學習中的卷積神經網絡模型

    卷積神經網絡是一種前饋神經網絡,其靈感來源于生物的視覺皮層機制。它通過模擬人類視覺系統的處理方式,能夠自動提取圖像特征,從而在圖像識別和分類任務中表現出色。 卷積神經網絡的基本結構
    的頭像 發表于 11-15 14:52 ?379次閱讀

    使用EMBark進行大規模推薦系統訓練Embedding加速

    推薦系統是互聯網行業的核心系統,如何高效訓練推薦系統是各公司關注的核心問題。目前,推薦系統基本上都是基于深度學習的大規模 ID 類模型模型包含數十億甚至數百億級別的 ID 特征,典型結構如圖 1 所示。
    的頭像 發表于 10-31 14:46 ?227次閱讀
    使用EMBark進行<b class='flag-5'>大規模</b>推薦系統訓練Embedding加速

    電壓放大器在可變形機翼縮比模型主動變形實驗中的應用

    實驗名稱:可變形機翼縮比模型主動變形實驗驗證研究方向:介紹了可用于低速風洞實驗要求的可變形縮比模型的設計方案,以及粘接MFC致動器之后,
    的頭像 發表于 09-30 14:45 ?1700次閱讀
    電壓放大器在<b class='flag-5'>可變形</b>機翼縮比<b class='flag-5'>模型</b>主動<b class='flag-5'>變形</b>實驗中的應用

    計算機視覺技術的AI算法模型

    計算機視覺技術作為人工智能領域的一個重要分支,旨在使計算機能夠像人類一樣理解和解釋圖像及視頻中的信息。為了實現這一目標,計算機視覺技術依賴于多種先進的AI算法模型。以下將詳細介紹幾種常見的計算機
    的頭像 發表于 07-24 12:46 ?1006次閱讀

    經典卷積網絡模型介紹

    經典卷積網絡模型在深度學習領域,尤其是在計算機視覺任務中,扮演著舉足輕重的角色。這些模型通過不斷演進和創新,推動了圖像處理、目標檢測、圖像生成、語義分割等多個領域的發展。以下將詳細探討
    的頭像 發表于 07-11 11:45 ?570次閱讀

    卷積神經網絡分類方法有哪些

    卷積神經網絡(Convolutional Neural Networks,CNN)是一種深度學習模型,廣泛應用于圖像分類、目標檢測、語義分割等計算機視覺任務。本文將詳細介紹卷積神經網絡
    的頭像 發表于 07-03 09:40 ?512次閱讀

    卷積神經網絡的基本結構和工作原理

    和工作原理。 1. 引言 在深度學習領域,卷積神經網絡是一種非常重要的模型。它通過模擬人類視覺系統,能夠自動學習圖像中的特征,從而實現對圖像的識別和分類。與傳統的機器學習方法相比,CNN具有更強的特征提取能力,能夠處理更復雜的數
    的頭像 發表于 07-03 09:38 ?783次閱讀

    卷積神經網絡訓練的是什么

    卷積神經網絡(Convolutional Neural Networks,簡稱CNN)是一種深度學習模型,廣泛應用于圖像識別、視頻分析、自然語言處理等領域。本文將詳細介紹卷積神經網絡的基本概念、結構
    的頭像 發表于 07-03 09:15 ?459次閱讀

    卷積神經網絡cnn模型有哪些

    卷積神經網絡(Convolutional Neural Networks,簡稱CNN)是一種深度學習模型,廣泛應用于圖像識別、視頻分析、自然語言處理等領域。 CNN的基本概念 1.1 卷積
    的頭像 發表于 07-02 15:24 ?766次閱讀

    大規模語言模型:從理論到實踐】- 閱讀體驗

    注意力機制提高了模型在處理長序列數據時的性能,但在某些任務上,傳統的循環神經網絡(RNN)或卷積神經網絡(CNN)可能仍然具有優勢。此外,注意力機制本身也可能存在某些性能瓶頸,需要進一步的研究和優化
    發表于 06-07 14:44

    大規模語言模型:從理論到實踐】- 每日進步一點點

    非常推薦大家去讀 【大規模語言模型:從理論到實踐】這本書,系統的講解了大模型的前世今生,對各個環節知識進行了普及。 今天跟我一起學習歸一化的部分。 大模型訓練中的歸一化是一個關鍵步驟
    發表于 05-31 19:54

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    概率推斷,利用共現矩陣學習每個詞的主題分布,進而將其作為詞的表示向量。在大規模語料庫中進行模型訓練,使語義相似的詞具有相似的主題分布。然而,這類方法存在一個問題,即模型一旦訓練完成,詞的分布式表示
    發表于 05-05 12:17

    利用卷積神經網絡實現SAR目標分類的研究

    卷積神經網絡(CNN)是一種在圖像處理和計算機視覺領域廣泛應用的深度學習模型,因其能夠自動學習圖像的層次化特征表示而成為SAR目標分類的理想選擇。
    發表于 04-08 09:39 ?484次閱讀
    利用<b class='flag-5'>卷積</b>神經網絡實現SAR目標分類的研究

    名單公布!【書籍評測活動NO.30】大規模語言模型:從理論到實踐

    ,在大模型實踐和理論研究的過程中,歷時8個月完成 《大規模語言模型:從理論到實踐》 一書的撰寫。希望這本書能夠幫助讀者快速入門大模型的研究和應用,并解決相關技術問題。 本書一經上市,
    發表于 03-11 15:16
    主站蜘蛛池模板: 国产小毛片| 国内精品久久久久影院薰衣草| 美女被网站免费看九色视频| 色妇女影院| 中文字幕天堂在线| 伊人久久成人爱综合网| 亚洲h视频| 日本三级特黄| 久久成人国产精品青青| 高清性色生活片久久久| 永久观看| 久久夜夜肉肉热热日日| 欧美极品另类xxx| 美女扒开尿口给男人看大全| 亚洲天堂首页| 日韩一级在线观看| 簧 色 成 人| 永久免费在线看| 久久婷五月| 57pao强力打造免费高清高速| xxxx性开放xxxx| 瑟瑟网站免费| 久久久久性| 夜夜操夜夜摸| 黑色丝袜美美女被躁视频| 丁香六月激情网| 伊人网站在线观看| 欧美天堂视频| 99久久婷婷免费国产综合精品| 色视频综合| 六月综合激情| 在线网站你懂| 欧美性视频一区二区三区| 国产成年网站v片在线观看| 色视频免费在线| 91大神免费视频| 无遮挡很爽很污很黄在线网站| 鲁一鲁色一色| 天天好b| 男人操女人在线观看| 亚洲美女视频在线观看|