Daimler公司研發組2017年寫的一篇綜述,主要總結當時深度學習如何在多目標跟蹤應用的工作。
一個多目標跟蹤系統的框架大同小異,如圖所示,數據相關(data association),狀態預測(state prediction),狀態更新(state update)和跟蹤管理(track management)幾個部分。
下圖是通用的多目標跟蹤系統框架。
而應用深度學習在目標跟蹤中的方法可總結為四種途徑(如上圖):
1)?特征學習(表觀模型部分).?如經典的CNN 2)?數據相關部分.?比如Siamese 網絡加 Hungarian算法/LSTM 3)?端到端學習法(比較具有挑戰性).?如RNN/LSTM 4)?狀態預測(運動/軌跡).?如Behavior-CNN,Social-LSTM,Occupancy Grid Map等等 ?
下面對每個途徑介紹一兩個例子。
feature learning
L. Wang, W. Ouyang, X. Wang, and H. Lu, “Visual Tracking with Fully Convolutional Networks,” in ICCV, 2015?
2. Data Association
L. Leal-Taixe, C. Canton-Ferrer, and K. Schindler, “Learning by Tracking: Siamese CNN for Robust target association,” in CVPRW, 2016?
3. Prediction
A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, L. Fei-Fei, and S. Savarese, “Social LSTM: Human Trajectory Prediction in Crowded Spaces,” in CVPR, 2016
S. Yi, H. Li, and X. Wang, “Pedestrian Behavior Understanding and Prediction with Deep Neural Networks” in ECCV, 2016
S. Hoermann, M. Bach, and K. Dietmayer, “Dynamic Occupancy Grid Prediction for Urban Autonomous Driving: A Deep Learning Approach with Fully Automatic Labeling?” in IV, 2017?
4. E2E
I. Posner and P. Ondruska, “Deep Tracking: Seeing Beyond Seeing Using Recurrent Neural Networks” in AAAI, 2016
A. Milan, S. H. Rezatofighi, A. Dick, K. Schindler, and I. Reid, “Online Multi-target Tracking using Recurrent Neural Networks” in AAAI, 2017
“ DEEP LEARNING IN VIDEO MULTI-OBJECT TRACKING: A SURVEY “,7,2019
這是最近的一篇MOT綜述文章。重點是介紹2D單目攝像頭數據方法。
MOT算法采用的標準方法是通過檢測進行跟蹤:通常從視頻幀中提取出一組檢測結果(即,標識圖像中目標的邊框),并用于引導跟蹤過程,即將相同ID分配給包含相同目標的邊界框。因此,許多MOT算法任務實際是分配問題。
現代的檢測框架如SSD、YOLO和RCNN系列,確保了良好的檢測質量,大多數MOT方法(除了某些例外)一直致力于改善關聯性。實際上,許多MOT數據集提供了一組標準的檢測方法,算法可以使用這些檢測方法,以便專門比較在關聯算法質量上的性能,因為檢測器的性能會嚴重影響跟蹤結果。如圖是MOT算法的展示。
MOT算法也可以分為批處理和在線方法。在嘗試確定特定幀的目標個體時,允許批處理跟蹤算法使用將來的信息(即來自將來的幀)。它們經常利用全局信息提高跟蹤質量。相反,在線跟蹤算法只能使用當前和過去的信息來預測當前幀。某些情況下是必需的,例如自動駕駛和機器人導航。與批處理方法相比,在線方法往往表現較差,因為它們無法使用將來的信息來修復過去的錯誤。重要的是,雖然要求實時算法以在線方式運行,但并非每種在線方法都必須實時運行;實際上,除了極少數例外,很多時候在線算法仍然太慢而無法在實時環境中使用,特別是深度學習算法通常會占用大量計算資源。
盡管方法種類繁多,大多數MOT算法共享以下部分或全部的步驟(如圖所示):
檢測階段:目標檢測算法使用邊框分析每個輸入幀,識別屬于某種類別的目標,在MOT稱為“檢測”;
特征提取/運動預測階段:一種或多種特征提取算法分析檢測和/或軌跡,提取外觀、運動和/或交互特征。可選項是,運動預測器預測每個跟蹤目標的下一個位置;
近似(Affinity )階段:特征和運動預測用于計算成對的檢測和/或小軌跡(tracklet)之間相似度/距離的得分;
關聯(Association)階段:通過相同ID分配給標識相同目標的檢測階段,相似度/距離度量將屬于同一目標的檢測和小軌跡關聯起來。
"Deep Visual Tracking: review and experimental comparison", 2018
國內一篇基于單攝像頭的單目標跟蹤的綜述。
根據網絡結構、網絡特征和網絡訓練將現有的基于深度學習的跟蹤器分為三類:
(1)卷積神經網絡(CNN)模型可以顯著提高跟蹤性能。 (2)卷積神經網絡(CNN)模型用于將被跟蹤目標與其周圍背景區分開來的跟蹤器可以獲得更準確的結果,而CNN模型的模板匹配通常會更快。 (3)有較深特征的跟蹤器的性能要比有低級手工特征的跟蹤器好得多。 (4)來自不同卷積層的深層特征有不同的性質,它們的有效組合通常會導致跟蹤器更健壯。 (5)使用端到端網絡的深度視覺跟蹤器通常比僅使用特征提取網絡的跟蹤器性能更好。 (6)視覺跟蹤最合適的網絡訓練方法是對每個帶有視頻信息的網絡進行訓練,并通過后續觀測量對其進行在線微調。
“Deep learning for multiple object tracking: a survey“,8,2019
這也是國內最近的一篇MOT綜述文章。?
文章將基于DL的MOT方法大致分為三類:
使用深層網絡特征的多目標跟蹤增強,其中語義特征是相關任務設計的深層神經網絡所提取,替換先前跟蹤框架中的常規手工特征。在大多數情況下,從深度網絡提取的這些功能可以有效地提高跟蹤性能。
具有深度網絡嵌入的多目標跟蹤,其中跟蹤框架的核心部分是使用深度神經網絡設計的。例如,深度網絡的輸出被設計為對不同軌跡檢測的多分類得分,而二值深度分類器檢測是否屬于同一目標。
通過端到端深度神經網絡學習進行多目標跟蹤,其中直接設計深度網絡以獲得跟蹤結果。通常僅通過一個網絡很難獲得多目標跟蹤結果,因為MOT跟蹤存在一些相互交織的子模塊。一些工作試圖通過一些假設(例如馬爾可夫性,固定分布等)來實現此目標。
如圖是基于深度學習的MOT方法圖:
下表是所列MOT方法的細節對比。
Wojke, N., Bewley, A., Paulus, D.: ‘Simple online and realtime tracking with a deep association metric’. Proc. Int. Conf. on Image Processing, Beijing, China, 2017
下圖是深度SORT(Simple Online and Realtime Tracking)算法的示意圖:從wide residual network (WRN) 中提取用于分類的深層特征用于增強檢測和軌道之間的匹配(WRN的WRB – 殘差塊)。
Chu, Q., Ouyang, W., Li, H., et al.: ‘Online multi-object tracking using CNN- based single object tracker with spatial-temporal attention mechanism’.?Proc. IEEE Int. Conf. Computer Vision, Venice, Italy, 2017 ?
如圖是STAM(spatial-temporal attention mechanism)-MOT的框架:(a)構造深度CNN學習空間注意力和特定目標的分類器,(b)使用基于采樣的搜索方法來找到最佳候選者。
Milan, A., Rezatofighi, S.H., Dick, A.R., et al.: ‘Online multi-target tracking using recurrent neural networks’. Proc. AAAI, San Francisco, CA, USA, 2017
如圖是RNN(recurrent neural networks)-LSTM跟蹤框架:構建一個基于RNN的網絡學習預測、更新狀態和終止概率。基于LSTM的網絡用于在檢測和目標之間找到最佳關聯。
總之,綜述中作者基于現有方法分析了深度特征遷移、神經網絡嵌入和端到端網絡訓練的機制。其次,討論深度網絡在跟蹤框架中的作用,以及訓練這些網絡的問題。再者,根據常見的數據集和評估重新對這些多目標跟蹤方法進行比較,并強調了各自方法的優點和局限性。一方面,遠沒有足夠的標記數據集來訓練滿意的模型在任何條件下進行跟蹤。生成網絡有可能為深度學習模型的泛化鋪平道路。另一方面,為了應對復雜環境(例如移動平臺)下跟蹤結果下降的事實,需要集成網絡模型學習這些動態場景的特征。另外,為了進一步適應變化條件,學習跟蹤目標高階或在線遷移的特征。
編輯:黃飛
評論
查看更多