在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

南開大學提出LSKNet:遙感旋轉目標檢測新SOTA!

CVer ? 來源:CVer ? 2023-07-18 16:57 ? 次閱讀

Abstract

最近關于遙感物體檢測的研究主要集中在改進旋轉包圍框的表示方法上,但忽略了遙感場景中出現的獨特的先驗知識。這種先驗知識是非常重要的,因為微小的遙感物體可能會在沒有參考足夠長距離背景的情況下被錯誤地檢測出來,而不同類型的物體所要求的長距離背景可能會有所不同。在本文中,我們將這些先驗因素考慮在內,并提出了Large Selective Kernel Network(LSKNet)。LSKNet可以動態地調整其大空間感受野,以更好地建模遙感場景中各種物體的測距的場景。據我們所知,這是首次在遙感物體檢測領域探索大選擇性卷積核機制的工作。在沒有任何附加條件的情況下,我們LSKNet比主流檢測器輕量的多,而且在多個數據集上刷新了SOTA!HRSC2016(98.46% mAP)、DOTA-v1.0(81.64% mAP)和FAIR1M-v1.0(47.87% mAP)。

Introduction

近期很少有工作考慮到遙感圖像中存在的強大的先驗知識。航空圖像通常是以高分辨率的鳥瞰視角拍攝的。特別是,航空圖像中的大多數物體可能是小尺寸的,僅憑其外觀很難識別。相反,這些物體的成功識別往往依賴于它們的背景,因為周圍的環境可以提供關于它們的形狀、方向和其他特征的寶貴線索。根據對主流遙感數據集的分析,我們確定了兩個重要的前提條件:

4f32ea0a-24bb-11ee-962d-dac502259ad0.jpg

圖1. 成功地檢測遙感目標需要使用廣泛的背景信息。感受野有限的探測器可能很容易導致錯誤的探測結果。CT :Context

(1)準確檢測遙感圖像中的物體往往需要廣泛的背景信息。

如圖1(a)所示,遙感圖像中的物體檢測器所使用的有限范圍的背景往往會導致錯誤的分類。例如,在上層圖像中,由于其典型特征,檢測器可能將T子路口歸類為十字路口,但實際上,它不是一個十字交路口。同樣,在下圖中,由于大樹的存在,檢測器可能將十字路口歸類為非路口,但這也是不正確的。這些錯誤的發生是因為檢測器只考慮了物體附近的有限的上下文信息。在圖1(b)中的船舶和車輛的例子中也可以看到類似的情況。

4f446f32-24bb-11ee-962d-dac502259ad0.jpg

圖2. 按照人類的標準,不同的物體類型所需要的背景信息范圍非常不同。紅框是目標GT標注。

(2) 不同類型的物體所需的上下文信息的范圍非常不同。如圖2所示,在遙感圖像中進行準確的物體檢測所需的背景信息量會因被檢測物體的類型而有很大不同。例如,足球場可能需要相對較少的額外環境信息,因為它有獨特的可區分的球場邊界線。相比之下,環島可能需要更大范圍的上下文信息,以區分花園和環形建筑。交叉口,特別是那些部分被樹木覆蓋的交叉口,由于相交道路之間的長距離依賴性,往往需要一個非常大的感受野。這是因為樹木和其他障礙物的存在會使人們難以僅僅根據外觀來識別道路和交叉口本身。其他物體類別,如橋梁、車輛和船舶,也可能需要不同規模的感受野,以便被準確檢測和分類。

因為這些圖像往往需要廣泛和動態的背景信息,我們提出了一種新的方法,稱為Large Selective Kernel Network(LSKNet)。我們的方法包括動態調整特征提取骨干的感受野,以便更有效地處理被檢測物體的不同的廣泛背景。這是通過一個空間選擇機制來實現的,該機制對一連串的大depth-wise卷積核所處理的特征進行有效加權,然后在空間上將它們合并。這些核的權重是根據輸入動態確定的,允許該模型自適應地使用不同的大核,并根據需要調整空間中每個目標的感受野。據我們所知,我們提出的LSKNet是第一個研究和討論在遙感物體探測中使用大的和有選擇性的卷積核的模型。盡管我們的模型很簡單,但在三個流行的數據集上實現了最先進的性能。HRSC2016(98.46% mAP)、DOTA-v1.0(81.64% mAP)和FAIR1M-v1.0(47.87% mAP),超過了之前公布的結果。此外,我們實驗證明了我們模型的行為與上述兩個先驗假設的一致性。

Method

4f61a660-24bb-11ee-962d-dac502259ad0.jpg

圖3. LSK Block 圖示

4f76eb74-24bb-11ee-962d-dac502259ad0.jpg

圖4. LSK Module 的概念圖。

LSKNet Architecture

圖3展示了一個LSKNet Bolck的圖示,是主干網中的一個重復塊,其靈感來自ConvNeXt, PVT-v2, VAN, Conv2Former 和 MetaFormer。每個LSKNet塊由兩個剩余子塊組成:大核選擇(LK Selection)子塊和前饋網絡(FFN)子塊。LK選擇子塊根據需要動態地調整網絡的感受野。前饋網絡子塊用于通道混合和特征細化,由一個全連接層、一個深度卷積、一個GELU激活和第二個全連接層組成的序列。核心模塊LSK Module(圖4)被嵌入到LK選擇子塊中。它由一連串的大內核卷積和一個空間內核選擇機制組成。

Large Kernel Convolutions & Spatial Kernel Selection

根據Introduction中所說的先驗(2),建議對一系列的多個尺度的背景進行建模,以進行適應性選擇。因此,我們建議通過明確地將其分解為一連串具有大的卷積核和不斷擴張的depth-wise卷積來構建一個更大感受野的網絡。其序列中第i個深度卷積的核大小k、擴張率d和感受野RF的擴展定義如下:

4f913146-24bb-11ee-962d-dac502259ad0.png

核的大小和擴張率的增加確保了感受野有足夠快的擴展。我們對擴張率設定了一個上限,以保證擴張卷積不會在特征圖之間引入空隙。

所提出的設計有兩個優點。第一,它明確地產生了具有各種大感受野的多個特征,這使得后來的內核選擇更加容易。第二,順序分解比簡單地應用一個較大的核更有效更高效。為了提高網絡關注檢測目標的最相關的空間背景區域的能力,我們使用了一種空間選擇機制,從不同尺度的大卷積核中空間選擇特征圖。圖4顯示了LSK模塊的詳細概念圖,在這里我們直觀地展示了大選擇核是如何通過自適應地收集不同物體的相應大感受野而發揮作用的。

LSK Module 的pytorch代碼如下:

class LSKmodule(nn.Module):
    def __init__(self, dim):
        super().__init__()
        self.conv0 = nn.Conv2d(dim, dim, 5, padding=2, groups=dim)
        self.convl = nn.Conv2d(dim, dim, 7, stride=1, padding=9, groups=dim, dilation=3)
        self.conv0_s = nn.Conv2d(dim, dim//2, 1)
        self.conv1_s = nn.Conv2d(dim, dim//2, 1)
        self.conv_squeeze = nn.Conv2d(2, 2, 7, padding=3)
        self.conv_m = nn.Conv2d(dim//2, dim, 1)

    def forward(self, x):   
        attn1 = self.conv0(x)
        attn2 = self.convl(attn1)

        attn1 = self.conv0_s(attn1)
        attn2 = self.conv1_s(attn2)
        
        attn = torch.cat([attn1, attn2], dim=1)
        avg_attn = torch.mean(attn, dim=1, keepdim=True)
        max_attn, _ = torch.max(attn, dim=1, keepdim=True)
        agg = torch.cat([avg_attn, max_attn], dim=1)
        sig = self.conv_squeeze(agg).sigmoid()
        attn = attn1 * sig[:,0,:,:].unsqueeze(1) + attn2 * sig[:,1,:,:].unsqueeze(1)
        attn = self.conv_m (attn)
        return x * attn

Results

在我們的實驗中,我們報告了HRSC2016、DOTA-v1.0和FAIR1M-v1.0數據集上的檢測模型結果。為了保證公平性,我們遵循與其他主流方法相同的數據集處理方法和訓練方式(如S2A-Net, Oriented RCNN, R3Det...)。

4f9c6d72-24bb-11ee-962d-dac502259ad0.jpg

表1. LSKNet-T和ResNet-18作為骨干網在DOTA-v1.0上的不同檢測框架的比較。LSKNet-T骨干網在ImageNet上進行了100次預訓練。與ResNet-18相比,輕量級的LSKNet-T在各種框架中取得了明顯更高的mAP。

在不同檢測框架下,使用我們的LSKNet骨干,模型更輕量,對檢測模型性能提升巨大!(表1)

4fab049a-24bb-11ee-962d-dac502259ad0.jpg

表2. 在DOTA-v1.0的O-RCNN框架下,LSKNet-S和其他(大核/選擇性注意)骨干的比較,除了Prev Best是在RTMDet下。所有骨干網都在ImageNet上進行了100次預訓練。我們的LSKNet在類似的復雜度預算下實現了最佳的mAP,同時超過了之前的最佳公開記錄。

在相同檢測框架的不同骨干網絡(大卷積核和選擇性機制的骨干網絡)中,在相似模型復雜的的前提下,我們的LSKNet骨干mAP更強!(表2)

4fbe35c4-24bb-11ee-962d-dac502259ad0.png

表3. 在HRSC2016數據集上與最先進的方法比較。

在HRSC2016數據集上,性能超越之前所有的方法!(表3)

4fe0157c-24bb-11ee-962d-dac502259ad0.png

表4. 在多尺度訓練和測試的DOTA-v1.0數據集上與最先進的方法進行比較

在DOTA-v1.0數據集上,性能超越之前所有的方法!(表4)在此數據集上,(近期的方法在性能上近乎飽和,最近的SOTA方法RVSA用了極為重量的模型和在龐大的數據集上做預訓練才勉強突破0.81的mAP,RTMDet則是在COCO預訓練,36epoch加EMA的微調方式,而其他主流方法都是ImageNet預訓練和12epoch w/o EMA微調,才達到81.33的性能。)我們的方法在模型參數量和計算復雜度全面小于其他方法的前提下,性能刷新了新的SOTA!

5005e59a-24bb-11ee-962d-dac502259ad0.png

表5. 在FAIR1M-v1.0數據集上與最先進的方法比較。*: 結果參考了FAIR1M論文[51]。

在近期中國空天院提出的FAIR1M-v1.0數據集上,我們也刷新了mAP。

Ablation Study

消融實驗部分,為了提高實驗效率,我們采用LSKNet-T骨架在ImageNet上做100個epoch的骨干預訓練。

5021b608-24bb-11ee-962d-dac502259ad0.jpg

表6. 分解的大核的數量對推理的FPS和mAP的影響,給定的理論感受野是29。將大核分解成兩個深度方向的核,實現了速度和精度的最佳表現。

502d56de-24bb-11ee-962d-dac502259ad0.jpg

表7. 當大卷積被分解成兩個連續的depth-wise卷積時,LSKNet的關鍵設計組件的有效性。CS:通道選擇(類似于SKNet);SS:空間選擇(我們的)。LSKNet在使用一個合理的大的感受野和空間選擇時取得了最佳性能。

50448dae-24bb-11ee-962d-dac502259ad0.jpg

表8. 對我們提出的LSK模塊的空間選擇中的最大和平均池化的有效性進行消融實驗。在同時使用最大和平均池化時,獲得了最好的結果。

Analysis

5052b6b8-24bb-11ee-962d-dac502259ad0.jpg

圖5. 使用ResNet-50和LSKNet-S的O-RCNN檢測框架的Eigen-CAM可視化。我們提出的LSKNet可以對長范圍的上下文信息進行建模,從而在各種困難的情況下獲得更好的性能。

圖5所示,LSKNet-S可以捕捉到更多與檢測到的目標相關的背景信息,從而在各種困難情況下有更好的表現,這證明了我們的先驗(1)。

506e8118-24bb-11ee-962d-dac502259ad0.jpg

圖6. DOTA-v1.0中物體類別的預期感受野和GT框面積的比率:Rc。不同物體類別所需的相對范圍有很大的不同。

為了研究每個物體類別的感受野范圍,我們定義物體類別預期感受野和GT框面積的比率:Rc。此數值越大,說明目標需要的額外感受野越大。圖6中結果表明,與其他類別相比,橋梁類別需要更多的額外上下文信息,這主要是由于它與道路的特征相似,并且需要語境線索來確定它是否被水所包圍。相反,球場類別,如足球場,由于其獨特的紋理屬性,特別是球場邊界線,需要最少的上下文信息。這與我們的常識相吻合,并進一步支持先前的觀點(2),即不同的物體類別所需的上下文信息的相對范圍有很大不同。

508996d8-24bb-11ee-962d-dac502259ad0.jpg

圖7. DOTA-v1.0中物體類別的感受野激活,其中激活圖來自我們訓好的LSKNet模型根據主論文公式(8)(即空間激活)得出。物體類別按照從左上到右下的順序,據預期感受野面積和GT框面積之比遞減排列(及圖6中的數值順序)

我們進一步研究我們的LSKNet中的大核選擇傾向性行為。我們定義了Kernel Selection Difference(較大的感受野卷積核特征圖激活值 - 較小的感受野卷積核特征圖激活值)。

5098759a-24bb-11ee-962d-dac502259ad0.jpg

圖8. 橋梁、環島和足球場的LSKNet-T塊中的大卷積核選擇差異。B i j代表第i階段的第j個LSK Block,數值越大,表明檢測時更傾向于選擇有更大感受野的卷積核,對更大范圍的背景的依賴性也越大。

在圖8中,我們展示了三個典型類別的所有圖像的歸一化Kernel Selection Difference:橋梁、環形路和足球場,以及每個LSKNet-T塊的情況。正如預期的那樣,Bridge的所有塊的大核的參與度高于Roundabout,而Roundabout則高于Soccer-ball-field。這與常識一致,即Soccer-ball-field確實不需要大量的上下文,因為它本身的紋理特征已經足夠明顯和具有鑒別性。我們還出人意料地發現了LSKNet在網絡深度上的另一種選擇模式。LSKNet通常在其淺層利用較大感受野的卷積核,而在較高的層次利用較小的。這表明,網絡傾向于在網絡淺層迅速擴大感受野捕捉信息,以便高層次的語義學能夠包含足夠的感受野,從而獲得更好的辨別力。


	


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 檢測器
    +關注

    關注

    1

    文章

    864

    瀏覽量

    47688
  • 圖像
    +關注

    關注

    2

    文章

    1084

    瀏覽量

    40468
  • 遙感
    +關注

    關注

    0

    文章

    246

    瀏覽量

    16823
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24703

原文標題:ICCV 2023 | 南開大學提出LSKNet:遙感旋轉目標檢測新SOTA!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    TINA-TI 9與TINA8對同一個電路圖仿真結果不同是怎么回事?

    TINA-TI-9中的電路圖及AC仿真結果如下: TINA-8中的電路圖及仿真結果如下: 電路圖源自《模擬電路基礎》P419頁碼, PID放大器 ,作者:秦世才、賈香鸞;南開大學出版社。
    發表于 09-25 06:03

    南開大學origin使用指南

    發表于 10-14 22:36

    南開大學量子力學考研試題

    南開大學量子力學考研試題
    發表于 11-25 16:10 ?0次下載

    南開大學提出了高性能太赫茲隱身材料設計的新思路

    南開大學團隊在石墨烯功能材料及其隱身應用方面開展了深入的研究工作。針對傳統隱身材料無法有效對抗太赫茲波探測的挑戰,提出了高性能太赫茲隱身材料設計的新思路。
    的頭像 發表于 12-29 15:27 ?5048次閱讀

    南開大學決定成立人工智能學院

    據最新消息,南開大學辦公室在5月11日印發中共南開大學委員會文件,決定成立南開大學人工智能學院。
    的頭像 發表于 05-17 09:04 ?5851次閱讀
    <b class='flag-5'>南開大學</b>決定成立人工智能學院

    南開大學提出最新邊緣檢測和圖像過分割被 IEEE PAMI 錄用

    數據會隨著圖像尺度和縱橫比進行變化。在本文中,我們提出了一種使用更豐富的卷積特征(Richer convolution features, RCF)的精準邊緣檢測方法。
    的頭像 發表于 11-06 09:52 ?6728次閱讀

    南開大學開發出一種具有超高容量的鋰離子電池有機正極材料

    近日,中國科學院院士、南開大學化學學院教授陳軍團隊設計合成了一種具有超高容量的鋰離子電池有機正極材料:環己六酮,該材料包含地球豐富的碳、氫、氧元素,且此類有機正極材料展現了鋰離子電池目前所報道的最高容量值,刷新了鋰離子電池有機正極材料容量的世界紀錄。
    發表于 05-17 15:27 ?1076次閱讀

    南開團隊大數據預測疫情傳播

    該項目利用國家衛健委公布的確診病例總數數據鏈,以應用傳播動力學為方法,以黃森忠教授建構的普適SEIR模型作為模型理論,通過“南開大學智英健康數據研究中心”開發的程序EpiSIX,分析新冠病毒肺炎疫情有關數據
    的頭像 發表于 02-19 07:55 ?2358次閱讀
    <b class='flag-5'>南開</b>團隊大數據預測疫情傳播

    南開大學孫軍教授:逆流而上,為光電材料盡一份力

    孫軍教授就是南開大學鈮酸鋰晶體研究團隊中的一員。從1999年本科畢業進入905廠開始從事鈮酸鋰晶體研究,到去南開大學攻讀碩博學位繼續探索,再到今天,孫軍一直在鈮酸鋰晶體領域里專注了二十余年。
    的頭像 發表于 06-04 09:40 ?5265次閱讀

    “人工智能+機器人”高端論壇在南開大學舉行

    南開新聞網訊(通訊員周璐)10月10日,由人工智能學院、計算機學院、網絡空間安全學院、電子信息與光學工程學院、軟件學院聯合主辦的人工智能+機器人高端論壇在南開大學津南新校區舉行。 本次論壇以人工智能
    的頭像 發表于 10-21 15:37 ?2087次閱讀

    綜述:基于柔性致動器的跳躍運動

    近日,南開大學劉遵峰教授等人近期在Advanced Functional Materials期刊上發表題為“Recent Development of Jumping Motions Based
    的頭像 發表于 05-24 15:36 ?489次閱讀
    綜述:基于柔性致動器的跳躍運動

    南開大學OpenHarmony技術俱樂部揭牌成立

    3月7日,由OpenAtom OpenHarmony(以下簡稱“OpenHarmony”)項目群技術指導委員會與南開大學共同舉辦的“南開大學OpenHarmony技術俱樂部成立大會”在津南校區綜合
    的頭像 發表于 03-08 08:37 ?406次閱讀
    <b class='flag-5'>南開大學</b>OpenHarmony技術俱樂部揭牌成立

    南開大學和字節跳動聯合開發一款StoryDiffusion模型

    近日,南開大學和字節跳動聯合開發的 StoryDiffusion 模型解決了擴散模型生成連貫圖像與視頻的難題。
    的頭像 發表于 05-07 14:46 ?1276次閱讀

    火山引擎與南開大學深化合作簽約,攜手共建“AI+教育”新生態

    近日,在2024春季火山引擎FORCE原動力大會實體產業及教科研專場上,南開大學與火山引擎成功舉辦了深度合作簽約儀式。此次合作標志著雙方將攜手共筑“AI+教育”的新篇章,共同推動教育行業數字化轉型。
    的頭像 發表于 05-20 11:16 ?613次閱讀

    南開大學攜手華為發布“人工智能賦能人才培養行動計劃”

    為進一步推動人工智能與教育的深度融合,促進教育變革創新,培養智能時代公能兼備的高層次創新型人才,南開大學依托自身優勢,緊緊圍繞立德樹人根本任務,制定推出涵蓋教育教學、技術設施、管理服務三個篇章的“人工智能賦能人才培養行動計劃”(以下簡稱“行動計劃”)。
    的頭像 發表于 05-22 11:51 ?665次閱讀
    <b class='flag-5'>南開大學</b>攜手華為發布“人工智能賦能人才培養行動計劃”
    主站蜘蛛池模板: 欧美性色黄大片四虎影视| 一级特级aaaa毛片免费观看| 永久免费品色堂| 免费拍拍视频| 神马午夜第九| 狠狠色婷婷七月色综合| 免费在线播放毛片| 色干干| 乱人伦小说短篇| 男人边吃奶边爱边做视频日韩 | 免费观看影院| 四虎永久精品免费观看| www资源| 日本xxxxx69| 特别毛片| 亚洲福利视频网站| 亚洲 欧美 视频| 噜噜噜久久| 国产精品久久久久久久久免费 | 呦交小u女国产秘密入口| 午夜两性色视频免费网站| 毛片爱做的片| 孩交啪啪网址| 亚洲 欧美 自拍 卡通 综合| 国产成人亚洲精品77| 欧美社区| 欧美日韩国产另类一区二区三区| 天天曰天天操| 中文字幕导航| www.黄网站| 亚洲视频五区| 久久综合欧美成人| abc欧美成人影院| 日韩毛片高清免费| 一级做a爱免费观看视频| 国产一级真人毛爱做毛片| 亚洲1314| 日本黄色片免费看| 狠狠操狠狠搞| 色欲香天天天综合网站| 手机看片免费永久在线观看|