目前 DETR 類模型已經成為了目標檢測的一個主流范式。但 DETR 算法模型復雜度高,推理速度低,嚴重影響了高準確度目標檢測模型在端側設備的部署,加大了學術研究和產業應用之間的鴻溝。
來自華為諾亞、華中科技大學的研究者們設計了一種新型的 DETR 輕量化模型 Focus-DETR 來解決這個難題。
為實現模型性能和計算資源消耗、顯存消耗、推理時延之間的平衡,Focus-DETR 利用精細設計的前景特征選擇策略,實現了目標檢測高相關特征的精確篩選;繼而,Focus-DETR 進一步提出了針對篩選后特征的注意力增強機制,來彌補 Deformable attention 遠距離信息交互的缺失。相比業界全輸入 SOTA 模型, AP 降低 0.5 以內,計算量降低 45%,FPS 提高 41%,并在多個 DETR-like 模型中進行了適配。
作者對多個 DETR 類檢測器的 GFLOPs 和時延進行了對比分析,如圖 1 所示。從圖中發現,在 Deformable-DETR 和 DINO 中,encoder 的計算量分別是 decoder 計算量的 8.8 倍和 7 倍。同時,encoder 的時延大概是 decoder 時延的 4~8 倍。這表明,提升 encoder 的效率至關重要。
圖 1:多個 DETR 類檢測器的計算量和時延對比分析
網絡結構
Focus-DETR 包括一個 backbone,一個由 dual-attention 組成的 encoder 和一個 decoder。前景選擇器(Foreground Token Selector)在 backbone 和 encoder 之間,是一個基于跨多尺度特征的自頂向下評分調制,用來確定一個 token 是否屬于前景。Dual attention 模塊通過多類別評分機制,選擇更細粒度的目標 token,然后將其輸入到一個自注意模塊來彌補 token 交互信息的缺失。
圖 2 :Focus-DETR 整體網絡結構
計算量降低:前景篩選策略
目前已經有一些對于前景 token 進行剪枝提升性能的方法。例如,Sparse DETR(ICLR2022)提出采用 decoder 的 DAM(decoder attention map)作為監督信息。然而作者發現,如圖 3 所示,Sparse DETR 篩選的 token 并不都是前景區域。作者認為,這是由于 Sparse DETR 使用 DAM 來監督前景 token 導致的,DAM 會在訓練的時候引入誤差。而 Focus-DETR 使用 ground truth(boxes 和 label)來監督前景的 token 的篩選。
圖 3:Focus-DETR 和 Sparse DETR 在不同 feature map 上保留的 token 對比
為了更好地訓練前景篩選器,作者優化了 FCOS 的前背景標簽分配策略,如圖 4 所示。作者首先為不同特征映射的包圍框設置了一個大小范圍。與傳統的多尺度特征標簽分配方法不同,它允許相鄰兩個特征尺度之間的范圍重疊,以增強邊界附近的預測能力。
對每個擁有步長?的特征? ,其中代表多尺度特征的層級序號, 代表在二維特征圖上的位置坐標,作者定義該特征在原圖上的映射位置為?,那么?,因此? 特征所對應的標簽應該為: ?
其中 代表坐標和真值框中心之間的最大棋盤距離, 代表真值目標框, 分別代表被第層特征圖預測的目標的尺度的最大值和最小值,由于尺度重疊設置,。 ?
圖 4. 前背景標簽分配可視化
此外,來自不同特征映射的特征選擇的差異也被忽略,這限制了從最合適的分辨率選擇特征的潛力。
為彌補這一差距,Focus-DETR 構造了基于多尺度 feature map 的自頂向下的評分調制模塊,如圖 5 所示。
為了充分利用多尺度特征圖之間的語義關聯,作者首先使用多層感知器 (MLP) 模塊來預測每個特征圖中的多類別語義得分。
考慮到高層語義特征,低層語義特征包含更豐富的語義信息,作者利用高層 feature map 的 token 重要性得分,作為補充信息來調制低層 feature map 的預測結果。
圖 5:top-down 前景篩選評分調制策略
細粒度特征增強策略
在依靠前期設計的前景篩選器得到較為準確的前景特征后,Focus-DETR 使用一種有效的操作來獲得更為細粒度的特征,利用這些細粒度特征以獲得更好的檢測性能。直觀地說,作者假設在這個場景中引入更細粒度的類別信息將是有益的。基于這一動機,作者提出了一種新的注意力機制,并結合前景特征選擇,以更好地結合利用細粒度特征和前景特征。
如圖 2 所示,為了避免對背景 token 進行冗余的計算,作者采用了一種同時考慮位置信息和類別語義信息的堆疊策略。具體來說,預測器?(?) 計算出的前景評分和類別評分的乘積將作為作者最終的標準來確定注意力計算中涉及的細粒度特征,即:
?
其中和分別代表前景得分和類別概率。 ?
與兩階段 Deformable DETR 的 query 選擇策略不同,Focus-DETR 的多類別概率不包括背景類別 (?)。該模塊可以被視為一個 self-attention ,對細粒度特征進行增強計算。然后,已增強的特征將被 scatter 回原始的前景特征并對其進行更新。
實驗結果
主要結果
如表一所示,作者將 Focus-DETR 在 COCO 驗證集上和其他模型的性能進行比較。可以發現同樣基于 DINO,Focus-DETR 僅使用 30% token 的情況下,超過 Sparse DETR 2.2 個 AP。相比原始 DINO,僅損失 0.5 個 AP,但是計算量降低 45%,推理速度提升 40.8%。
表 1:總體對比實驗結果
模型效能分析
在圖 6 中,從不同模型的精度和計算量之間的關系來看,Focus-DETR 在精度和計算復雜度之間達到了最好的平衡。整體來看對比其他模型,獲得了 SOTA 的性能。
圖 6 不同模型測試精度和計算復雜度之間的關聯分析
消融實驗
如表 2 所示,作者針對模型設計進行消融實驗,以驗證作者提出的算法的有效性。
?
表 2 本研究提出的前景特征剪枝策略和細粒度特征自注意力增強模塊對實驗性能的影響
1. 前景特征選擇策略的影響
直接使用前景得分預測 AP 為 47.8,增加 label assignment 策略生成的標簽作為監督,AP 提升 1.0。增加自上而下的調制策略,能夠提升多尺度特征圖之間的交互,AP 提升 0.4。這表明提出的策略對于提升精度是非常有效的。
如圖 7 可視化可以發現,Focus-DETR 可以精確地選擇多尺度特征上的前景 token。并且可以發現,在不同尺度的特征度之間,可以檢測的物體存在重疊,這正是因為 Focus-DETR 使用了交疊的設置導致的。
圖 7 多尺度特征保留的 token
2. 自上而下的評分調制策略的影響
表 3. 多尺度特征圖前景評分的關聯方法,作者嘗試自頂向下和自底向上的調制。
作者對比了自上而下的調制策略和自下而上的調制策略的影響,對比結果可以發現,作者提出的自上而下的調制策略可以獲得更好的性能。
3. 前景保留比率對實驗性能的影響
表 4.Focus-DETR、Sparse DETR 和 DINO+Sparse DETR 保留前景 token 的比例
作者對比了不同的剪枝比例的性能,從實驗結果可以發現,Focus-DETR 在相同的剪枝比例情況下,均獲得了更優的結果。
總結
Focus-DETR 僅利用 30% 的前景 token 便實現了近似的性能,在計算效率和模型精度之間取得了更好的權衡。Focus-DETR 的核心組件是一種基于多層次的語義特征的前景 token 選擇器,同時考慮了位置和語義信息。Focus-DETR 通過精確地選擇前景和細粒度特征,并且對細粒度特征進行語義增強,使得模型復雜度和精度實現更好平衡。
審核編輯:劉清
-
檢測器
+關注
關注
1文章
868瀏覽量
47733 -
FPS
+關注
關注
0文章
35瀏覽量
12022 -
DAM
+關注
關注
0文章
8瀏覽量
9525 -
MLP
+關注
關注
0文章
57瀏覽量
4260
原文標題:華為 | Focus-DETR:30%Token就能實現SOTA性能,效率倍增
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論