作為計算機視覺中的基本視覺識別問題,目標檢測在過去的幾十年中得到了廣泛地研究。目標檢測旨在給定圖像中找到具有準確定位的特定對象,并為每個對象分配一個對應的標簽。近年來,深度卷積神經網絡DCNN(Deep Convolutional Neural Networks)憑借其特征學習和遷移學習的強大能力在圖像分類方面取得了一系列突破,在目標檢測方面,它越來越受到人們的重視。因此,如何將CNN應用于目標檢測并獲得更好的性能是一項重要的研究。首先回顧和介紹了幾類經典的目標檢測算法;然后將深度學習算法的產生過程作為切入點,以系統的方式全面概述了各種目標檢測方法;最后針對目標檢測和深度學習算法面臨的重大挑戰,討論了一些未來的方向,以促進深度學習對目標檢測的研究。
1 引 言
隨著世界經濟的飛速發展,目標檢測已經成為社會安全、公共交通和國防軍事等各個領域的基礎性研究課題之一,在機器人導航[1]、航空航天[2]、工業檢測[3-4]、行人追蹤[5]和軍事應用[6-7]等領域應用廣泛。所謂的目標檢測,是通過分析目標的幾何特征,從圖像或視頻中定位感興趣的目標,準確地判斷每個目標的具體類別,并給出每個目標的邊界框。然而,目標所處的環境繽紛復雜、目標本身通常具有不同的形態以及光亮、顏色和遮擋等多種因素的影響使目標檢測在近年來受到廣泛關注。
傳統的目標檢測的方法主要包括區域選擇、特征提取和分類三個階段。
(1)區域選擇是定位目標位置。在定位的過程中,因為不能確定檢測目標的大小、長寬比以及位置,因此使用多尺度滑動窗口,以便盡可能找到目標的所有可能位置;
(2)采用SIFT(Scale-Invariant Feature Transform)[8],Strip[9],Haar[10]等能提高特征的抗變形能力和表達能力的方法進行特征提取;
(3)利用AdaBoost[11]和DPM(Deformable Parts Model)[12]等方法通過提高分類器的準確度和速度進行特征分類。
盡管傳統的目標檢測算法廣泛應用于各個領域,但是其缺點引起人們的關注:
(1)眾多的候選窗口,不僅會產生很大的計算花銷,并且還會產生許多多余的窗口;
(2)語義鴻溝無法通過人工手動設計的描述符和經過判別訓練的淺層模型組合來彌補;
(3)分類訓練效果受到提取特征的影響,大量的特征維數,不僅影響訓練效果,還會產生“維數災難”等問題;
(4)算法可遷移性差,并且對特定任務的依賴性高,當檢測目標發生較大改變時,需要設計新的算法。
為了能讓計算機模擬人類提取特征的過程而讓計算機更自然地獲取圖像信息,人們進行不斷地研究和嘗試,2006年,深度學習被Hinton提出,他利用深度神經網絡從大量數據中自動地學習高層語義特征。深度學習強大的表征能力以及豐富的特征表示使目標檢測的準確度獲得了很大提升,推動了目標檢測的發展。
卷積神經網絡不僅能夠提取高層特征,提高特征的表達能力,還能夠將特征提取、特征選擇和特征分類融合在同一個模型中,通過端到端的訓練,從整體上進行功能優化,增強特征的可分性。
2014年,Ross B.Girshick將檢測抽象為兩個過程,一是基于圖片提出若干可能包含目標的區域(即圖片的局部裁剪),二是在提出的這些區域上運行Alexnet分類網絡,得到目標的類別。這就是檢測任務轉化為區域上的分類任務的R-CNN(Convolutional Neural Networks)框架,它在目標檢測方面取得重大突破,影響著檢測任務上的深度模型革命。基于卷積神經網絡的目標檢測成為計算機視覺領域的研究熱點。
2 深度卷積神經網絡概述
卷積神經網絡是一種常用的深度學習網絡框架。1959年,Hubel & Wiesel[13]發現視覺系統中的可視皮層處理信息是分級處理的。20世紀90年代,LeCun等人[14]建立了CNN的現代結構,并對其進行了改進。他們設計了一種可以對手寫數字進行分類的LeNet-5網絡。與其他神經網絡相同,也能使用反向傳播算法[15]對數據進行訓練。
卷積神經網絡可以獲取原始圖像的有效表示,這使得它能夠通過很少的預處理直接從原始像素識別視覺之上的規則。但是,訓練數據的不足限制了計算機的計算能力,從而制約了LeNet-5在處理復雜問題方面的能力。之后,設計了多種方法來克服卷積神經網絡訓練深度的困難。其中AlexNet[16]框架的提出促進了圖像識別領域的發展,該框架類似于LeNet-5,但層次結構更深。同時使用了非線性激活函數ReLu[17]與Dropout[18]方法,取得了卓越的效果。
AlexNet之后,ZFNet[19],VGGNet[20],GoogleNet[21]和ResNet[22]等方法相繼被提出。從結構上講,CNN發展的一個方向是增加層數。通過增加深度,可以利用增加的非線性得到目標函數的近似結構,同時得到更好的特征。然而,這也使網絡的整體復雜性和優化難度增加,并且會產生過度擬合現象。
自從2012年以來,多種改進CNN的方法被提出。ZFNet對AlexNet的改進首先通過將第一層的卷積核尺寸從11×11降為7×7,同時將卷積時的步長從4降至2。這樣擴張中間的卷積層可以獲取到更多的信息。VGGNet將網絡的深度擴展到了19層,并且每個卷積層使用了3×3這種小尺寸的卷積核,結果證明深度對網絡性能有著重要影響。GoogleNet同時增加了網絡的寬度與深度,相比于更窄更淺的網絡,在計算量沒有增加的同時,網絡性能明顯增強。
3 通用的目標檢測方法
通用的目標檢測算法旨在任意一張圖片中定位和分類已有對象,并用矩形框標記,最后顯示置信度。其主要包括兩種類型,一種是基于錨點的目標檢測,一種是基于Anchor-free的檢測,其中基于錨點的目標檢測分為Two-stage檢測模型和One-stage檢測模型,文中將進行一一介紹。
3.1 基于Two-stage的檢測模型
3.1.1 R-CNN
R-CNN[23]不僅能夠提高候選邊界框質量,還能提取高級特征,其工作可以分為三個階段:生成候選區域、基于CNN的特征提取和分類與定位。R-CNN采用選擇搜索[24]為每個圖片產生2k個區域提議,選擇性搜索方法依賴于簡單的自下而上的分組和顯著性提示,從而快速提供任意大小的更準確的候選框,并有效減少了搜索空間。在分類上,R-CNN使用區域提議進行評分,然后通過邊界框回歸調整評分區域,并用非極大值抑制進行過濾以產生用于保留目標位置的最終邊界框。
盡管R-CNN在準確程度上相比于傳統方法有所提高,并且將CNN應用于實際目標檢測中具有重要意義,但是仍然存在一些缺點。
(1)全連接層的存在使得輸入圖像的大小固定,直接導致每個評估區域的整個CNN都需要重新計算,花費大量的測試時間;
(2)R-CNN的訓練是分為多階段完成的。首先,對提議的卷積網絡進行了微調。然后,將通過微調學習的softmax分類器替換為SVM。最后,訓練邊界框回歸器;
(3)訓練階段時間長,占用空間大。從不同區域提議提取并存儲在磁盤上的特征占用很大的內存。
(4)盡管選擇性搜索可以生成具有較高召回率的區域提議,但是獲得的區域仍然存在多余的部分,并且這個過程需要耗費很長時間。
為了解決這些問題,現在已經提出了許多方法。DeepBox[25]和SharpMask[26]試圖重新排序或者完善提取特征前的區域提議以去除冗余信息,獲得少數的有價值的建議。此外,還有一些改進可以解決定位不準確的問題。Saurabh Gupta等改進了具有語義豐富的圖像和深度特征的RGB-D圖像的目標檢測[27]。目標檢測器和超像素分類框架的結合在語義場景分割任務上取得了可喜的成果。
3.1.2 SPP-net
為了解決因為目標比例發生變化造成的目標丟失或失真問題,He等人考慮到空間金字塔匹配(SPM)[28]的理論,并提出了一種名為SPP-net[29]的新型CNN體系結構。SPM需要更精細的尺度才能將圖像劃分為多個部分,并將量化的局部特征聚合為中級表示形式。
目標檢測中SPP-net的結構如圖2所示,與R-CNN不同,目標檢測中SPP-net重新使用了第五層卷積層(Conv5)的特征圖,將任意大小的區域提議投影成固定長度的特征向量。這些特征圖的可重復使用的可行性不僅涉及局部響應的增強,而且與其空間位置也有關系。SPP-net不僅可以通過估計不同區域提議的大小來獲得更好的結果,而且還可以通過共享不同區域之間的SPP層,提前計算成本來提高測試期間的效率。
3.1.3 Fast-R-CNN
與R-CNN相比,盡管SPP-net網絡在準確性和效率上都提高了很多,但是仍然存在一些問題。SPP-net 采用了跟R-CNN幾乎相同的多級操作,需要額外的存儲空間。除此之外,在SPP層之前的卷積層不能使用微調算法進行更新參數[29],這些都會導致深度網絡的準確性下降。
針對以上問題,Girshick[30]引入了多任務損失,并提出了一種新穎的名為Fast R-CNN的卷積神經網絡。Fast-R-CNN在卷積的最后一層采用感興趣區域(Region of Interests,ROI)池化生成固定尺寸的特征圖,另外,使用多任務損失函數,將邊界回歸加入到CNN網絡中進行訓練。Fast R-CNN的體系結構如圖3所示,體系整個圖像都經過卷積層處理后生成特征圖。然后,從每個感興趣區域的區域提議中提取一個固定長度的特征向量。感興趣區域層是特殊的SPP層,它只有一個金字塔。它將每個特征向量送入一系列全連接層,最后分為兩個同級輸出層。一個輸出層產生所有C+1類(C目標類加上一個“背景”類)的softmax概率,另一輸出層用四個數值對編碼的邊界框的位置進行編碼。這些過程中的所有參數(生成區域提議的除外)都通過端到端的多任務損失函數進行了優化。
為了加快Fast R-CNN的運行速度,可以采用兩個方式。第一,如果訓練樣本來自不同的圖像,Fast R-CNN可以對小批樣本進行分層采樣,即首先隨機采樣N個圖像,然后在每個圖像中采樣R/N個感興趣區域,其中R代表感興趣區域的數量,在向前和向后傳播中從同一圖像共享計算和內存。第二,在前向通道[29]中,計算FC層花費了大量時間,SVD[31]可用于壓縮較大的FC層并加快測試過程。在Fast R-CNN中,無論區域提議如何產生,所有網絡層的訓練都可以在一個多階段的損失下進行單階段處理。這樣可以節省更多的存儲空間,并通過更合理的訓練方式提高準確性和效率。
3.1.4 Faster-R-CNN
在目標檢測中的特征提取和分類上,Fast R-CNN已經很好地解決了很多問題,但是最新的目標檢測網絡仍然依賴于選擇性搜索算法和Edgebox來生成候選區域。區域提議的計算也影響效率的提高。為了解決這個問題,Ren等人引入了附加的區域提議網絡(Region Proposal Network,RPN)[32],如圖4所示,網絡通過與檢測網絡共享全卷積特征,以幾乎無代價的方式進行工作。區域提議網絡是通過全卷積網絡實現的,該網絡具有同時預測每個位置上的目標邊界和出現概率的能力。類似于[24],區域提議網絡將任意大小的圖像生成一組矩形目標建議。區域提議網絡在特定的卷積層上運行,與之前的層共享目標檢測網絡。
在Faster R-CNN的作用下,基于區域提議的CNN體系結構可以以端到端的方式訓練。此外,在PASCAL VOC 2007上,最新的目標檢測精度,可以在GPU上達到5 FPS(frame/s)的幀率。但是,更換訓練算法非常耗時,并且區域提議網絡會生成類似于目標的區域,而不是目標實例,并且不擅長處理極端比例或形狀的目標。
3.1.5 R-FCN
根據感興趣區域池化層劃分,用于目標檢測的流行的深度網絡[30,32]由兩個子網絡組成:共享的完全卷積子網(獨立于感興趣區域)和不共享的感興趣區域子網。目前最先進的圖像分類網絡,例如殘差網絡(ResNets)[22]和GoogLeNets[21],都是完全卷積的。為了適應這些架構,構建沒有感興趣區域子網的完全卷積目標檢測網絡,然而事實證明這種解決方案效果并不好[22]。是因為在圖像分類中,圖像中的一個目標的移動對分類是沒有影響的,但是在候選區域中,目標的任何移動在目標檢測中都是意義重大的。將感興趣區域手動接入卷積層中會解決平移不變形問題,但是會影響其他區域。因此,Li[33]等人提出了一種基于區域的全卷積網絡(R-FCN).其運行步驟如圖5所示。
?
與Faster R-CNN不同的是,對于每一個類別,R-FCN的最后一個卷積層會生成k2個具有固定K×K網格的位置敏感得分圖,然后添加一個位置敏感感興趣區域層進行聚合。最后,在每個感興趣區域中,將k個位置敏感得分取平均,生成C+1維矢量,并計算跨類別的Softmax響應。另外附加了一個4k2-d的卷積轉換層,獲取與類無關的邊界框。
借助R-FCN可以通過共享幾乎所有層來采用更強大的分類網絡實現全卷積架構中的目標檢測。在PASCAL VOC和Microsoft COCO[34]數據集上均獲得了最好的結果,測試速度為每張圖像170 ms。
3.2 基于one-stage的模型
基于two-stage的框架由幾個階段組成,區域提議生成,使用CNN進行特征提取,分類和邊界框回歸,這些階段通常是分開訓練。即使在最近的端到端網絡Faster R-CNN中,仍然需要進行替代訓練才能獲得區域提議網絡和檢測網絡之間的共享卷積參數。因此,處理不同部分都需要花費的時間成為實時目標檢測的瓶頸。基于全局回歸/分類的一步框架,可以直接從圖像像素映射到邊界框坐標和分類概率,減少時間開銷。本文介紹幾個重要的框架,即YOLO(You Only Look Once)和SSD(Single Shot MultiBox Detector)[35]。
3.2.1 YOLO
Redmon等人[36]提出了一個名為YOLOv1的框架,該框架利用最上層的整個特征圖來預測多個類別和計算邊界框的置信度。YOLOv1的基本思想如圖6所示,YOLOv1將輸入圖像劃分為S×S網格,每個網格單元負責預測以該網格單元為中心的目標的邊界框以及其對應的置信度分數。其中置信度表示存在目標的可能性并顯示其預測的置信度。與此同時,無論邊界框的數量為多少,都會在每個網格單元中預測C個條件類概率。
在YOLOv1的基礎上,一種改進的版本YOLOv2[37]被提出,YOLOv2提出了一個新的擁有19個卷積層和5個池化層的分類主干網絡,即Darknet-19, 并采用了更強大的深度卷積ImageNet主干框架,輸入圖片的分辨率由原來的224×224直接設置為448×448,這使得學習到的權重對于獲取微小信息更加敏感。除此之外,YOLOv2借鑒Faster R-CNN中設定先驗框的策略,使用全卷積網絡,用K-means聚類算法獲取先驗框的寬和高,并通過預測偏移量來降低網絡訓練難度。最后與批歸一化、多尺度處理技術一起形成訓練網絡。
作為YOLOv2的改進版本YOLOv3[38],提出了更深入,更強大特征提取網絡Darknet-53。為了適應包含許多重疊標簽的復雜數據集,YOLOv3使用多標簽分類。在對邊界框進行預測時,YOLOv3在3個不同比例的特征圖進行預測,是當時速度和精度最均衡的目標檢測網絡。
3.2.2 SSD
YOLO難以處理組合中的小物體,是因為對邊界框的預測增加了空間約束[36]。同時,由于多次進行下采樣,將其刻畫為具有新的寬高比的目標,產生了相對粗糙的特征。
針對這些問題,Liu等人提出了SSD[35],其靈感來自于MultiBox[39]、區域提議網絡[32]和多尺度表示[40]中采用的錨點。給定一個特定的特征圖,SSD利用一組具有不同長寬比和比例的默認錨點框來使邊界框的輸出空間離散化。為了處理不同大小的目標,將會利用多個具有不同分辨率的特征圖的預測融合網絡。SSD在VGG16網絡末端添加了幾個功能層,這些功能層用于預測具有不同比例和縱橫比及其相關置信度的默認框的偏移量。最終檢測結果是通過在多尺度邊界框上通過非極大值抑制獲得的。SSD在PASCAL VOC和COCO的準確性方面明顯優于Faster R-CNN,并且速度提高了三倍。SSD300(輸入圖像尺寸為300×300)以59 FPS運行,相比于YOLO更加準確和高效。針對SSD不善于處理小目標的問題,可以通過采用更好的特征提取網絡主干(例如ResNet101),添加反卷積層以引入額外的大規模上下文[41]和設計更好的網絡結構[42]。
SSD與YOLO在結構上的不同在于,SSD的特征是從不同的卷積層提取出來,進行組合再回歸和分類,而YOLO只有一層,在YOLO之后的版本中也借鑒了SSD的這種多尺度的思想。
SSD網絡中的預選框的大小和形狀不能直接通過學習獲得,需要通過手動設置。而網絡中的每一層使用的預選框大小和形狀都不一樣,調試過程依賴經驗,除此之外,檢測靠近彼此的多個小目標的問題仍然沒有解決。SSD使用低級特征檢測小目標,但是低級特征卷積層數少,存在特征提取不充分的問題,在理論上還有很大的提升空間。
3.3 基于Anchor-free的檢測模型
雖然基于Anchor的目標檢測模型(one-stage模型和two-stage模型)在效率和精度上有很大的提升,但是自身的局限性也阻礙了模型的優化創新。大多數預設的錨點是負樣本,在訓練過程中會導致正樣本和負樣本的失衡;為了實現較高的查全率,需要設置大量密集的錨點候選框,為此造成巨大的計算成本和內存需求開銷;預設的錨框是人為設置的,其比例和寬高比對數據集比較敏感,很大程度上會影響檢測性能。為了解決這個問題,最近提出一些Anchor-free檢測模型。
3.3.1 CornerNet[43]
CornerNet是一種新穎的anchor-free網絡,使用Hourglass網絡作為主干網絡,后面連接兩個預測模型,分別預測左上和右下角點。在特征圖的每個位置上都可以預測角度偏移、對嵌入和類熱圖。通過類熱圖可以計算出現拐角的可能性,并使用拐角偏移量來預測拐角位置。CornerNet在MSCOCO數據集上獲得了顯著改進。
3.3.2 FSAF[44]
為了讓位于圖像中的每個目標都能自助選擇最合適的特征層,FSAF(Feature Selective Anchor-Free)在特征層中不設置anchor,實現了anchor-free.在訓練過程中,FSAF根據損失,自動選擇最好的特征層,并將每個對象動態分配給最合適的特征層,在這個特征層進行后續的回歸和預測。在預測階段,FSAF可以獨立預測,也可以與基于錨點的方法相結合。
3.3.3 ExtremeNet[45]
ExtremeNet 是在CornerNet上的改進,不同于CorNet, ExtremeNet 的檢測目標是4個極值點(最左點、最右點、最上點和最下點),而不是檢測目標的左上點和右下點,這種做法避免了因為強行使用矩形包圍框包圍物體帶來的問題。當檢測到極值點之后,利用匹配算法,將所有極值點進行組合,通過驗證組合中是否存在中心極值點,對所有組合示例進行篩選。該方法速度不是很快,但是標注簡單,在此基礎上可以進行更多的改進。
3.3.4 FCOS[46]
FCOS(Fully Convolutional One-Stage)是一個基于全卷積的檢測網絡,它利用一個新的分支“center-ness”來預測一個像素與對應對框中心的偏差,所得到的分數用于降低低質量檢測框的權重,最后通過NMS(Non-Maximum Suppression)將接測結果進行融合。FCOS可以將語義分割和目標檢測任務結合,除此之外,還可以對模型進行小幅度改造(例如,關鍵點檢測)以應用于其他檢索任務。
3.3.5 CenterNet[47]
CenterNet結合了基于中心的方法(中心點)和基于角點的方法(左上角點和右下角點)的思想,使網絡花費小的代價便能感知物體內部信息,從而消除誤檢框。其作用過程為,首先通過成對的角預測邊界框,然后將角點的位置映射到輸入圖片的對應位置,最優判斷哪兩個角點屬于同一物體,以便形成一個檢測框。該方法可以移植到其他錨點或者anchor-free網絡上。
3.4 應用深度卷積神經網絡算法進行目標檢測存在的問題
盡管深度卷積神經網絡在目標檢測中發展迅速并且取得了可喜的進展,但是其本身算法的應用仍然存在挑戰,本文主要劃分為以下幾點:
算法屬于有監督的學習,在學習過程中需要大量的標記樣本。從目標檢測的發展狀況來看,有監督的學習已經遠遠超過無監督學習。訓練深度卷積神經網絡需要大量的數據。雖然在網上可以找到大量的數據,但是都雜亂無章,需要人工進行標注,這幾年的標注成本逐漸升高。
訓練時間過長且計算資源代價大。深度學習的參數過多,訓練周期時間長,GPU的運用加快了訓練速度,縮短了訓練時間,深度卷積神經網絡算法隨著GPU的運用流行起來,然而價格昂貴的GPU為建立大規模GPU集群的科研院所帶來的負擔。
理論研究不足。借助GPU的發展,深度學習使用端到端的方式優化大容量模型。近幾年,度量學習、大數據、各種各樣的樣本選擇方法、訓練方法和網絡結構的優化都促進了卷積神經網絡的發展,然而,這些進步缺乏理論支撐,雖然有效,但是緩慢。這種沒有深層次本質理解的改進,使得設計和訓練卷積神經網絡時,經常會出現梯度不穩定和擬合問題。卷積神經網絡本身有很多超參數,這些超參數的組合是一個很大的數字,很多時候靠經驗無法完成,只能憑直覺反復嘗試其中一部分組合,因此現在的卷積神經網絡只能實現效果很好,但是效果和效率都不能達到最優。
4 目標檢測數據集和評價指標
建立具有較小偏差的較大數據集對于開發高級計算機視覺算法至關重要。作為場景理解的重要組成部分,目標檢測已廣泛應用于現代生活的許多領域,到目前為止,許多基準數據集在目標檢測中發揮了重要作用。在本節中,將展示衣蛾寫常見的檢測數據集以及用來衡量檢測器性能的評估指標。
4.1 數據集
4.1.1 通用的目標檢測數據集
(1)Pascal視覺挑戰數據集[48]
PASCAL視覺挑戰是早起計算機視覺中最重要的競賽之一。Pascal-VOC的兩個版本:VOC07和VOC12主要用于對象檢測。其中VOC07是包含20類圖片的中等數據集,分為三部分,分別使用2 501,2 510和5 011張圖像進行訓練、驗證和測試。VOC12與COC07包含相同類別的圖像,分別使用5 717,5 823和10 991張圖像進行訓練、驗證和測試近年來,隨著一些較大數據集的發布,VOC逐漸被取代。
(2)MSCOCO[34]是具有80個類別的大規模數據集,分別使用118 287,5 000和40 670圖像進行訓練,驗證和測試。
(3)Open Images[49]是一個包含920萬張圖像的數據集,并帶有圖像級標簽、對象邊界框和視覺關系。Open Images V5在1.9 M圖像上總共包含600萬個對象類別的1 600萬個邊界框,這使其成為具有對象位置注釋的最大的現有數據集。該數據集中的框是由專業注釋者手工繪制的,以確保準確性和一致性,并且圖像多樣化,并且大多數包含有多個對象的復雜場景。
(4)ImageNet[50]包含120萬個高分辨率圖像,是一個具有200個類別的大型數據集,數據規模大,對象范圍廣,這使得使用大型訓練數據訓練深度模型成為可能。
4.1.2 除了一些通用的目標檢測數據集,還有一些數據集是用于具體檢測任務。比如,在人臉檢測任務中,經常用到的數據集有WIDER FACE數據集[51]、FDDB數據集[52]和Pascal Face數據集[53]。在行人檢測任務中,廣泛使用的數據集是Caltech數據集[54]、CityPersons數據集[55]、KITTI數據集[56]、INRIA數據集[57]和ETH數據集[58]。
4.2 評估指標
定位和分類是目標檢測的兩個重要任務,在物體檢測評估指標下,檢測準確性和定位精度是用于評估檢測準確性常用的兩個標準。對于定位精度,IoU通過判斷預測邊界框及其對應的分配地面真值判斷回歸質量。對于檢測準確性,常用均值平均精度(mAP)作為評估指標。
5 目標檢測的未來方向和任務
盡管目標檢測發展迅速并且檢測效果顯著,但是仍然存在許多未解決的問題。
5.1 小物體檢測
在COCO數據集和人臉檢測任務中的檢測都是小物體檢測,為了提高遮擋情況下小物體的定位精度,可以從以下幾個方面對網絡體系結構進行修改。
尺度自適應。檢測目標通常以不同的比例存在,這在人臉檢測和行人檢測中表現尤為突出,為了增加尺度變化的魯棒性,需要訓練尺度不變、多尺度[59]或尺度自適應檢測器。對于尺度不變的檢測器,可以采用更強大的網絡架構、負樣本挖掘[60]、反向連接[61]和子類別建模[62]。對于多尺度檢測器,產生多尺度特征圖的FPN[63]和利用縮小物體與大物體之間的表示差異的生成對抗網絡[64-65]都彌補了特征金字塔的不足。對于尺度自適應檢測器,可以將知識圖譜、注意力機制、級聯網絡和尺度分布估計組合在一起以更好定位檢測目標。
空間相關性和上下文建模。空間分布在目標檢測中起著重要作用。因此,可以采用區域提議生成和網格回歸來獲取目標的可能位置。但是,多個提議和目標類別之間的相關性往往被忽略。除此之外,R-FCN中的位置敏感分數圖會忽略全局結構信息。為了解決這些問題,可以參考各種子集選擇和順序推理任務來獲得合適的解決方案。
多任務聯合優化和多模式信息融合。根據目標檢測中內外部不同任務之間的相關性,許多研究人員研究了多任務聯合優化[30,32]。但是除了其中提到的任務還需要考慮目標檢測中不同子任務的特征,并將多任務優化擴展到其他應用程序,例如實例分割和多目標跟蹤。此外,在特定的應用中,可以將來自不同形式的信息融合在一起,以構建更具判別性的網絡。
5.2 減輕人工標注的負擔并實現實時目標檢測
5.2.1 級聯網絡
級聯網絡往往在不同的階段或者不同的層中構建級聯檢測器,淺層中不使用易于區分的示例,后期的分類器可以處理更多不易區分的樣本。但在訓練新網絡時,級聯的前段網絡將被固定,阻止了不同CNN的優化,這表明了CNN級聯的端到端優化的必要性。
5.2.2 無監督和無監督的學習
采用手動的方式標注大量的邊界框非常耗時。為了減輕負擔,可以整合語義先驗、無監督目標發現、多實例學習和深度神經網絡預測等方式,充分利用圖像監督分配目標類別標簽給相應的目標區域和精準的目標邊界。此外,弱注釋也有助于通過適量的注釋工作構建高質量的檢測模型。
5.2.3 網絡優化
在特定的應用程序和平臺下,通過選擇最佳的檢測架構[66],在速度、內存和準確性之間取得平衡是非常重要的。然而,通過降低檢測精度來讓模型學習較少參數更為有意義[67]。引入更好的預訓練方案、知識提煉和提示學習可以緩解這種情況。DSOD(Deeply Supervised Object)還提出可以從頭開始進行訓練,以彌合不同圖像源和任務之間的鴻溝[42]。
5.3 3D目標檢測和視頻目標檢測
3D目標檢測。深度學習借助3D傳感器可以更好地理解2D圖像,并將圖像級別的知識擴展到現實世界。但是,很少利用這些3D感知技術將3D邊界框放置在檢測到的目標周圍。為了獲得更好的邊界標定,慣性傳感器可以借助多視圖表示和3D建議網絡對深度信息進行編碼。
視頻目標檢測。在理解不同目標的行為時,時間信息起著重要的作用。但是,準確性容易受到視頻中目標外觀退化的影響,并且不采用端到端的方式訓練網絡。為此,可以考慮時空小管、光學流和LSTM等方法從根本上為連續的幀之間建立目標關聯。
6 結 論
目標檢測經過幾十年的研究發展,已經逐漸成為一個成熟的研究領域。憑借其強大的學習能力以及在處理遮擋,尺度轉換和背景切換方面的優勢,基于深度學習的目標檢測已成為近年來的研究熱點。本文詳細介紹了基于卷積神經網絡的目標檢測框架,以及其在R-CNN上進行的不同程度的改進,最后提出了目標檢測在未來的發展方向,以全面了解目標檢測領域。
審核編輯:湯梓紅
評論
查看更多