在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

騰訊優(yōu)圖/浙大/北大提出:重新思考高效神經模型的移動模塊

CVer ? 來源:CVHu ? 2023-01-08 09:16 ? 次閱讀

引言

本文重新思考了 MobileNetv2 中高效的倒殘差模塊 Inverted Residual Block 和 ViT 中的有效 Transformer 的本質統(tǒng)一,歸納抽象了 MetaMobile Block 的一般概念。受這種現(xiàn)象的啟發(fā),作者設計了一種面向移動端應用的簡單而高效的現(xiàn)代反向殘差移動模塊 (InvertedResidualMobileBlock,iRMB),它吸收了類似 CNN 的效率來模擬短距離依賴和類似 Transformer 的動態(tài)建模能力來學習長距離交互。所提出的高效模型 (EfficientMOdel,EMO) 在 ImageNet-1K、COCO2017 和 ADE20K 基準上獲取了優(yōu)異的綜合性能,超過了同等算力量級下基于 CNN/Transformer 的 SOTA 模型,同時很好地權衡模型的準確性和效率。

動機

近年來,隨著對存儲和計算資源受限的移動應用程序需求的增加,涌現(xiàn)了非常多參數(shù)少、FLOPs 低的輕量級模型,例如Inceptionv3時期便提出了使用非對稱卷積代替標準卷積。后來MobileNet提出了深度可分離卷積 depth-wise separable convolution 以顯著減少計算量和參數(shù),一度成為了輕量化網(wǎng)絡的經典之作。在此基礎上,MobileNetv2 提出了一種基于 Depth-Wise Convolution (DW-Conv) 的高效倒置殘差塊(IRB),更是成為標準的高效模塊代表作之一。然而,受限于靜態(tài) CNN 的歸納偏差影響,純 CNN 模型的準確性仍然保持較低水平,以致于后續(xù)的輕量化之路并沒有涌現(xiàn)出真正意義上的突破性工作。

47186fcc-8ea5-11ed-bfe3-dac502259ad0.png

Swin

472e2376-8ea5-11ed-bfe3-dac502259ad0.png

PVT

47367a44-8ea5-11ed-bfe3-dac502259ad0.png

Eatformer

4742876c-8ea5-11ed-bfe3-dac502259ad0.png

EAT

隨著 Transformer 在 CV 領域的崛起,一時間涌現(xiàn)了許多性能性能超群的網(wǎng)絡,如 Swin transformer、PVT、Eatformer、EAT等。得益于其動態(tài)建模和不受歸納偏置的影響,這些方法都取得了相對 CNN 的顯著改進。然而,受多頭自注意(MHSA)參數(shù)和計算量的二次方限制,基于 Transformer 的模型往往具有大量資源消耗,因此也一直被吐槽落地很雞肋。

針對 Transformer 的這個弊端,當然也提出了一些解決方案:

設計具有線性復雜性的變體,如FAVOR+和Reformer等;

降低查詢/值特征的空間分辨率,如Next-vit、PVT、Cvt等;

重新排列通道比率來降低 MHSA 的復雜性,如Delight;

不過這種小修小改還是難成氣候,以致于后續(xù)也出現(xiàn)了許多結合輕量級 CNN 設計高效的混合模型,并在準確性、參數(shù)和 FLOPs 方面獲得比基于 CNN 的模型更好的性能,例如Mobilevit、MobileViTv2和Mobilevitv3等。然而,這些方法通常也會引入復雜的結構,或者更甚者直接采用多個混合的模塊如Edgenext和Edgevits,這其實是不利于優(yōu)化的。

總而言之,目前沒有任何基于 Transformer 或混合的高效塊像基于 CNN 的 IRB 那樣流行。因此,受此啟發(fā),作者重新考慮了 MobileNetv2 中的 Inverted Residual Block 和 Transformer 中的 MHSA/FFN 模塊,歸納抽象出一個通用的 Meta Mobile Block,它采用參數(shù)擴展比 λ 和高效算子 F 來實例化不同的模塊,即 IRB、MHSA 和前饋網(wǎng)絡 (FFN)。

基于此,本文提出了一種簡單高效的模塊——反向殘差移動塊(iRMB),通過堆疊不同層級的 iRMB,進而設計了一個面向移動端的輕量化網(wǎng)絡模型——EMO,它能夠以相對較低的參數(shù)和 FLOPs 超越了基于 CNN/Transformer 的 SOTA 模型,如下圖所示:

474f64c8-8ea5-11ed-bfe3-dac502259ad0.png

方法

4756bdea-8ea5-11ed-bfe3-dac502259ad0.png

EMO

上圖是整體框架圖,左邊是 iRMB 模塊的示例圖。下面讓我們進一步拆解下這個網(wǎng)絡結構圖。

Meta Mobile Block

475d169a-8ea5-11ed-bfe3-dac502259ad0.png

Meta Mobile Block

如上所述,通過對 MobileNetv2 中的 Inverted Residual Block 以及 Transformer 中的核心 MHSA 和 FFN 模塊進行抽象,作者提出了一種統(tǒng)一的 Meta Mobile (M2) Block 對上述結構進行統(tǒng)一的表示,通過采用參數(shù)擴展率 λ 和高效算子 F 來實例化不同的模塊。

Inverted Residual Mobile Block

基于歸納的 M2 塊,本文設計了一個反向殘差移動塊 (iRMB),它吸收了 CNN 架構的效率來建模局部特征和 Transformer 架構動態(tài)建模的能力來學習長距離交互。

具體實現(xiàn)中,iRMB 中的 F 被建模為級聯(lián)的 MHSA 和卷積運算,公式可以抽象為 。這里需要考慮的問題主要有兩個:

通常大于中間維度將是輸入維度的倍數(shù),導致參數(shù)和計算的二次增加。

MHSA 的 FLOPs 與總圖像像素的二次方成正比。

具體的參數(shù)比對大家可以簡單看下這個表格:

4769234a-8ea5-11ed-bfe3-dac502259ad0.png

因此,作者很自然的考慮結合 W-MHSA 和 DW-Conv 并結合殘差機制設計了一種新的模塊。此外,通過這種級聯(lián)方式可以提高感受野的擴展率,同時有效的將模型的 MPL 降低到 。

為了評估 iRMB 性能,作者將 λ 設置為 4 并替換 DeiT 和 PVT 中標準的 Transformer 結構。如下述表格所述,我們可以發(fā)現(xiàn) iRMB 可以在相同的訓練設置下以更少的參數(shù)和計算提高性能。

4771173a-8ea5-11ed-bfe3-dac502259ad0.png

EMO

為了更好的衡量移動端輕量化模型的性能,作者定義了以下4個標準:

可用性。即不使用復雜運算符的簡單實現(xiàn),易于針對應用程序進行優(yōu)化。

簡約性。即使用盡可能少的核心模塊以降低模型復雜度。

有效性。即良好的分類和密集預測性能。

高效性。即更少的參數(shù)和計算精度權衡。

下面的表格總結了本文方法與其它幾個主流的輕量化模型區(qū)別:

477be17e-8ea5-11ed-bfe3-dac502259ad0.png

可以觀察到以下幾點現(xiàn)象:

基于 CNN 的 MobileNet 系列的性能現(xiàn)在看起來略低,而且其參數(shù)略高于同行;

近期剛提出的 MobileViT 系列雖然取得了更優(yōu)異的性能,但它們的 FLOPs 較高,效率方面欠佳;

EdgeNeXt 和 EdgeViT 的主要問題是設計不夠優(yōu)雅,模塊較為復雜;

基于上述標準,作者設計了一個由多個 iRMB 模塊堆疊而成的類似于 ResNet 的高效模型——EMO,主要體現(xiàn)在以下幾個優(yōu)勢:

1)對于整體框架,EMO 僅由 iRMB 組成,沒有多樣化的模塊,這在設計思想上可稱得上大道至簡;

2)對于特定模塊,iRMB 僅由標準卷積和多頭自注意力組成,沒有其他復雜的運算符。此外,受益于 DW-Conv,iRMB 還可以通過步長適應下采樣操作,并且不需要任何位置嵌入來向 MHSA 引入位置偏差;

3)對于網(wǎng)絡的變體設置,作者采用逐漸增加的擴展率和通道數(shù),詳細配置如下表所示。

47866ec8-8ea5-11ed-bfe3-dac502259ad0.png

由于 MHSA 更適合為更深層的語義特征建模,因此 EMO 僅在第3和第4個stage采用它。為了進一步提高 EMO 的穩(wěn)定性和效率,作者還在第1和第2個stage引入 BN 和 SiLU 的組合,而在第3和第4個stage替換成 LN 和 GeLU 的組合,這也是大部分 CNN 和 Transformer 模型的優(yōu)先配置。

實驗

參數(shù)比對

先來看下 EMO 和其他輕量化網(wǎng)絡的相關超參比對:

478e2e24-8ea5-11ed-bfe3-dac502259ad0.png

可以看到,EMO 并沒有使用大量的強 DataAug 和 Tricks,這也充分體現(xiàn)了其模塊設計的有效性。

性能指標

47969884-8ea5-11ed-bfe3-dac502259ad0.png

圖像分類

479eb97e-8ea5-11ed-bfe3-dac502259ad0.png

目標檢測

47a73d7e-8ea5-11ed-bfe3-dac502259ad0.png

語義分割

整體來看,EMO 在圖像分類、目標檢測和語義分割 CV 三大基礎任務都表現(xiàn)強勁,可以以較少的計算量和參數(shù)量取得更加有競爭力的結果。

可視化效果

47b145bc-8ea5-11ed-bfe3-dac502259ad0.png

Qualitative comparisons with MobileNetv2 on two main downstream tasks

從上面的可視化結果可以明顯的觀察到,本文提出的方法在分割的細節(jié)上表現(xiàn)更優(yōu)異。

47c90698-8ea5-11ed-bfe3-dac502259ad0.png

Attention Visualizations by Grad-CAM

為了更好地說明本文方法的有效性,作者進一步采用 Grad-CAM 方法突出顯示不同模型的相關區(qū)域。如上圖所示,基于 CNN 的 ResNet 傾向于關注特定對象,而基于 Transformer 的 MPViT 更關注全局特征。相比之下,EMO 可以更準確地關注顯著物體,同時保持感知全局區(qū)域的能力。這在一定程度上也解釋了為什么 EMO 在各類任務中能獲得更好的結果。

47da0178-8ea5-11ed-bfe3-dac502259ad0.png

Feature Similarity Visualizations

上面我們提到過,通過級聯(lián) Convolution 和 MHSA 操作可以有效提高感受野的擴展速度。為了驗證此設計的有效性,這里將第3個Stage中具有不同組成的對角線像素的相似性進行可視化,即可視化 DW-Conv 和 EW-MHSA 以及同時結合兩個模塊。

47f0ff54-8ea5-11ed-bfe3-dac502259ad0.png

可以看出,無論從定量或定性的實驗結果看來,當僅使用 DW-Conv 時,特征往往具有短距離相關性,而 EW-MHSA 帶來更多的長距離相關性。相比之下,當同時采用這兩者時,網(wǎng)絡具有更大感受野的模塊,即更好的建模遠距離的上下文信息

47fad196-8ea5-11ed-bfe3-dac502259ad0.png

Ablation studies on ImageNet-1K with EMO-5M

最后展示的是本文的消融實驗,整體來說實驗部分還是挺充實的,感興趣的小伙伴去看下原文,時間有限,今天我們就分析到這里。

結論

本文探討了面向移動端的高效架構設計,通過重新思考 MobileNetv2 中高效的 Inverted Residual Block 和 ViT 中的有效 Transformer 的本質統(tǒng)一,作者引入了一個稱為 Meta Mobile Block 的通用概念,進而推導出一個簡單而高效的現(xiàn)代 iRMB 模塊。具體地,該模塊包含兩個核心組件,即 DW-Conv 和 EW-MHSA,這兩個組件可以充分利用 CNN 的效率來建模短距離依賴同時結合 Transformer 的動態(tài)建模能力來學習長距離交互。最后,通過以不同的規(guī)模堆疊 iRMB 模塊搭建了一個高效的類 ResNet 架構——EMO,最終在 ImageNet-1K、COCO2017 和 ADE20K 三個基準測試的大量實驗證明了 EMO 優(yōu)于其它基于 CNN 或 Transformer 的 SoTA 方法。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1089

    瀏覽量

    40545
  • 模型
    +關注

    關注

    1

    文章

    3298

    瀏覽量

    49127
  • cnn
    cnn
    +關注

    關注

    3

    文章

    353

    瀏覽量

    22296

原文標題:騰訊優(yōu)圖/浙大/北大提出:重新思考高效神經模型的移動模塊

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    胡瀚接棒騰訊多模態(tài)大模型研發(fā)

    近日,前微軟亞洲研究院視覺計算組的首席研究員胡瀚宣布加入騰訊,這一變動引起了業(yè)界的廣泛關注。據(jù)悉,胡瀚將接替已離職的騰訊混元大模型技術負責人之一的劉威,全面負責騰訊多模態(tài)大
    的頭像 發(fā)表于 01-09 15:49 ?355次閱讀

    AI模型部署邊緣設備的奇妙之旅:目標檢測模型

    采用神經網(wǎng)絡搜索(NAS)技術,最終形成了 ESNet(Enhanced ShuffleNet)作為骨干網(wǎng)絡,以在移動端保證高效性能。 采樣策略和標簽分配: 使用 SimOTA 采樣策略,動態(tài)變換標簽
    發(fā)表于 12-19 14:33

    浙大、微信提出精確反演采樣器新范式,徹底解決擴散模型反演問題

    。當前的采樣器不能兼顧反演的準確性和采樣的質量。 為徹底解決這一問題,微信視覺團隊與浙江大學和清華大學聯(lián)手提出了基于雙向顯式線性多步法的擴散模型精確反演采樣器(BELM)這一通用算法,并通過截斷誤差分析確定了最優(yōu)的 BELM 采樣
    的頭像 發(fā)表于 11-27 09:21 ?239次閱讀
    <b class='flag-5'>浙大</b>、微信<b class='flag-5'>提出</b>精確反演采樣器新范式,徹底解決擴散<b class='flag-5'>模型</b>反演問題

    優(yōu)易通無線DTU騰訊云通信實例

    優(yōu)易通無線DTU騰訊云通信實例(基于MQTT)優(yōu)——產品優(yōu),服務優(yōu),價格優(yōu)易——安裝易,使用易,
    的頭像 發(fā)表于 08-30 11:45 ?393次閱讀
    <b class='flag-5'>優(yōu)</b>易通無線DTU<b class='flag-5'>騰訊</b>云通信實例

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    的內容,閱讀雖慢,但在這一學習過程中也掌握了許多新知識,為后續(xù)章節(jié)的閱讀打下基礎,這是一個快樂的學習過程。 基礎篇從人工智能的起源講起,提出了機器能否思考的疑問,引入了圖靈機這一神奇的機器。 1.2
    發(fā)表于 07-25 14:33

    UNet模型屬于哪種神經網(wǎng)絡

    U-Net模型屬于卷積神經網(wǎng)絡(Convolutional Neural Network, CNN)的一種特殊形式 。它最初由德國弗萊堡大學計算機科學系的研究人員在2015年提出,專為生物醫(yī)學圖像
    的頭像 發(fā)表于 07-24 10:59 ?3186次閱讀

    基于MCU的神經網(wǎng)絡模型設計

    力不從心。神經網(wǎng)絡作為一種強大的機器學習模型,能夠提供高效的數(shù)據(jù)處理和分析能力,但其計算復雜度和資源需求往往超出了普通MCU的能力范圍。因此,設計一種適合MCU運行的神經網(wǎng)絡
    的頭像 發(fā)表于 07-12 18:21 ?1201次閱讀

    使用TensorFlow進行神經網(wǎng)絡模型更新

    使用TensorFlow進行神經網(wǎng)絡模型的更新是一個涉及多個步驟的過程,包括模型定義、訓練、評估以及根據(jù)新數(shù)據(jù)或需求進行模型微調(Fine-tuning)或
    的頭像 發(fā)表于 07-12 11:51 ?473次閱讀

    人工神經元模型的基本原理是什么

    世紀40年代。1943年,沃倫·麥卡洛克(Warren McCulloch)和沃爾特·皮茨(Walter Pitts)提出了一種簡化的神經元模型,即著名的“麥卡洛克-皮茨神經元”(McCulloch-Pitts neuron),
    的頭像 發(fā)表于 07-11 11:26 ?878次閱讀

    怎么對神經網(wǎng)絡重新訓練

    重新訓練神經網(wǎng)絡是一個復雜的過程,涉及到多個步驟和考慮因素。 引言 神經網(wǎng)絡是一種強大的機器學習模型,廣泛應用于圖像識別、自然語言處理、語音識別等領域。然而,隨著時間的推移,數(shù)據(jù)分布可
    的頭像 發(fā)表于 07-11 10:25 ?518次閱讀

    pytorch中有神經網(wǎng)絡模型

    處理、語音識別等領域取得了顯著的成果。PyTorch是一個開源的深度學習框架,由Facebook的AI研究團隊開發(fā)。它以其易用性、靈活性和高效性而受到廣泛歡迎。在PyTorch中,有許多預訓練的神經網(wǎng)絡模型可供選擇,這些
    的頭像 發(fā)表于 07-11 09:59 ?788次閱讀

    PyTorch神經網(wǎng)絡模型構建過程

    PyTorch,作為一個廣泛使用的開源深度學習庫,提供了豐富的工具和模塊,幫助開發(fā)者構建、訓練和部署神經網(wǎng)絡模型。在神經網(wǎng)絡模型中,輸出層是
    的頭像 發(fā)表于 07-10 14:57 ?552次閱讀

    rnn是什么神經網(wǎng)絡模型

    RNN(Recurrent Neural Network,循環(huán)神經網(wǎng)絡)是一種具有循環(huán)結構的神經網(wǎng)絡模型,它能夠處理序列數(shù)據(jù),并對序列中的元素進行建模。RNN在自然語言處理、語音識別、時間序列預測等
    的頭像 發(fā)表于 07-05 09:50 ?691次閱讀

    人工智能神經網(wǎng)絡模型有哪些

    人工智能神經網(wǎng)絡模型是一類受人腦啟發(fā)的計算模型,它們在許多領域都取得了顯著的成功。以下是一些常見的神經網(wǎng)絡模型: 感知機(Perceptro
    的頭像 發(fā)表于 07-04 09:41 ?712次閱讀

    神經網(wǎng)絡模型的原理、類型及應用領域

    數(shù)學建模神經網(wǎng)絡模型是一種基于人工神經網(wǎng)絡的數(shù)學建模方法,它通過模擬人腦神經元的工作機制,實現(xiàn)對復雜問題的建模和求解。神經網(wǎng)絡
    的頭像 發(fā)表于 07-02 11:31 ?1335次閱讀
    主站蜘蛛池模板: 色视频免费版高清在线观看 | 久久国产香蕉视频 | 久久精品国产亚洲综合色 | 很黄的网站在线观看 | 天天干夜夜看 | 伊人久久网站 | 五月综合激情视频在线观看 | 俄罗斯一级成人毛片 | www.欧美色图 | 久久精品视频9 | 色多多成视频人在线观看 | 欧亚精品卡一卡二卡三 | 黄色爽视频 | 午夜影院啊啊啊 | 伊人网亚洲 | 欧美色香蕉 | 插菊综合网| 欧美色综合高清免费 | 福利一区在线观看 | 高清一区二区三区免费 | www.4虎| 性欧美大战久久久久久久野外 | 动漫精品成人免费网站 | 特级毛片免费视频播放 | 在线观看免费视频资源 | 女人张开腿给男人桶爽免费 | 色视频综合| 国产人人澡 | 国产papa| 亚洲视频在线一区二区 | 2018天天夜夜| 日本黄在线观看 | 特级全黄一级毛片视频 | 欧美高清成人 | 一级做a爰片久久毛片毛片 一级做a爰片久久毛片美女图片 | 人人爱操| 22eee在线播放成人免费视频 | www.黄色免费 | 日韩一级片免费在线观看 | 性夜黄 a 爽免费看 性夜黄a爽影免费看 | 欧美一区二区视频在线观看 |