摘要
隨著自動駕駛技術的發展,多目標跟蹤已成為計算機視覺領域研究的熱點問題之一。MOT 是一項關鍵的視覺任務,可以解決不同的問題,例如擁擠場景中的遮擋、相似外觀、小目標檢測困難、ID切換等。為了應對這些挑戰,研究人員嘗試利用transformer的注意力機制、利用圖卷積神經網絡獲得軌跡的相關性、不同幀中目標與siamese網絡的外觀相似性,還嘗試了基于簡單 IOU 匹配的 CNN 網絡、運動預測的 LSTM。
為了把這些分散的技術綜合起來,作者研究了過去三年中的一百多篇論文,試圖提取出近年來研究者們更加關注的解決 MOT 問題的技術。作者羅列了大量的應用以及可能的方向,還有MOT如何與現實生活聯系起來。作者的綜述試圖展示研究人員長期使用的技術的不同觀點,并為潛在研究人員提供一些未來方向。此外,作者在這篇綜述中還包括了流行的基準數據集和指標。
簡介
目標跟蹤是計算機視覺中非常重要的任務之一。它剛好在目標檢測之后出現。為了完成目標跟蹤任務,首先需要將目標定位在一幀中。然后給每個目標分配一個單獨的唯一id。然后連續幀中的每個相同目標將生成軌跡。在這里,一個目標可以是任何類別,比如行人、車輛、運動中的運動員、天空中的鳥等。
如果作者想在一幀中跟蹤多個目標,那么它被稱為多目標跟蹤或MOT。 過去幾年也有一些關于MOT的綜述論文[1]、[2]、[3]、[4]。但它們都有局限性。其中一些方法只包括基于深度學習的方法,只關注數據關聯,只分析問題,沒有很好地對論文進行分類,并且缺少現實中應用的介紹。 因此,綜上所述,作者以以下方式組織了本工作:
找出MOT的主要挑戰
列出常用的各種MOT方法
MOT基準數據集簡介
MOT指標摘要
探索各種應用場景
MOT的主要挑戰
遮擋
當想要看到的目標被同一幀中的另一個目標完全或部分隱藏或遮擋時,就會發生遮擋問題。大多數MOT方法僅基于沒有傳感器數據的相機。這就是為什么當目標相互遮擋時,跟蹤器要跟蹤目標的位置有點困難的原因。此外,在擁擠的場景中,為了建模人與人之間的交互,遮擋變得更加嚴重。
隨著時間的推移,使用邊界框定位目標在MOT社區中非常流行。但在擁擠的場景中,遮擋很難處理,因為groundtruth邊界框通常相互重疊。通過聯合處理目標跟蹤和分割任務,可以部分解決這個問題。在文獻中,作者可以看到外觀信息和圖形信息用于查找全局屬性以解決遮擋問題。
然而,頻繁的遮擋對MOT問題中較低的精度有顯著影響。因此,研究人員試圖在沒有任何提示的情況下解決這個問題。在下圖a中,對遮擋進行了說明。在下圖b中,紅衣女子幾乎被燈柱遮蓋。這是遮擋的一個示例。
輕量化架構
盡管大多數問題的最新解決方案是依賴于重量級架構,但它們非常吃資源。因此在 MOT 中,重量級架構對于實時目標跟蹤非常不利。因此,研究人員一直很重視輕量級體系結構。對于 MOT 中的輕量級結構,還有一些額外的挑戰需要考慮。
Bin 等人提到了輕量級體系結構面臨的三個挑戰,比如: 目標跟蹤體系結構需要預訓練權重來實現良好的初始化,并對跟蹤數據進行微調。因為 NAS 算法需要來自目標任務的指導,同時還需要可靠的初始化。NAS 算法需要同時關注骨干網絡和特征提取,以便最終的結構能夠完全適合目標跟蹤任務。最終架構需要編譯緊湊和低延遲的構建模塊。
其它常見挑戰
MOT體系結構經常受到不準確的目標檢測的影響。如果沒有正確檢測到目標,那么跟蹤目標的所有努力都將白費。有時,目標檢測的速度成為MOT體系結構的一個主要因素。對于背景失真,目標檢測有時變得非常困難。照度在目標檢測和識別中也起著至關重要的作用。
因此,所有這些因素在目標跟蹤中變得更加重要。由于相機或目標的運動,運動模糊使MOT更具挑戰性。很多時候,MOT體系結構發現很難確定一個目標是否為真正的輸入目標。挑戰之一是檢測和tracklet之間的正確關聯。在許多情況下,不正確和不精確的目標檢測也是精度低的結果。
還有一些挑戰,例如相似的外觀經常混淆模型,軌跡的開始和終止在MOT中是一個關鍵的任務,多個目標之間的交互,ID切換(同一目標在連續幀中識別為不同)。由于形狀和其他外觀特性的非剛性變形和類間相似性,在許多情況下,人和車輛會帶來一些額外的挑戰。
例如,車輛的形狀和顏色與人們的衣服不同。最后,較小尺寸的目標可以形成各種不同的視覺元素。Liting等人嘗試用更高分辨率的圖像和更高的計算復雜度來解決這個問題。他們還將分層特征圖與傳統的多尺度預測技術相結合。
MOT方法
多目標跟蹤任務通常分為兩個步驟:目標檢測和目標關聯。有些側重于目標檢測,有些關注數據關聯。這兩個步驟有多種方法。無論是檢測階段還是關聯階段,這些方法都不是完全獨立的。
Transformer
Transformer是一個深度學習模型,與其他模型一樣,它有兩個部分:編碼器和解碼器[16]。編碼器捕獲自注意力,而解碼器捕獲交叉注意力。這種注意機制有助于長期記憶上下文。基于查詢鍵方式,使用轉換器預測輸出。
盡管過去它僅僅被用作一種語言模型,但近年來,視覺研究人員將重點放在了它上,以利用語境記憶。在大多數情況下,在MOT中,研究人員試圖根據之前的信息預測目標下一幀的位置,作者認為transformer是最好的方案。由于transformer專門處理序列信息,所以transformer可以完美地完成逐幀處理。下圖是一個Transformer的跟蹤例子。
下表給出了MOT中基于transformer的方法的完整總結。
圖模型
圖卷積網絡(GCN)是一種特殊的卷積網絡,其中神經網絡以圖形的形式而不是線性的形式應用。此外,最近的趨勢是使用圖模型來解決 MOT 問題,其中從連續幀中檢測到的一組目標被視為一個節點,兩個節點之間的鏈接被視為一個邊緣。通常情況下,數據關聯是通過應用匈牙利算法來完成的[28]。下圖為基于GCN的目標跟蹤示例。
下表給出了用圖模型解決 MOT 問題的概述。
檢測和目標關聯
在這種方法中,檢測是通過任何深度學習模型來完成的。但主要的挑戰是關聯目標,即跟蹤感興趣的目標的軌跡[37]。在這方面,不同的論文遵循不同的方法。
如上表所示,主要介紹部分方案。Margret 等人選擇了自下而上的方法和自上而下的方法。在自底向上的方法,點軌跡確定。但是在自頂向下的方法中,確定了邊界框。然后,通過結合這兩個,一個完整的軌跡的目標可以找到。在[3中,為了解決關聯問題,Hasith 等人簡單地檢測了目標,并使用著名的匈牙利算法來關聯信息。
2019年,Paul 等人提出了 Track-RCNN [40] ,這是 R-CNN 的一個延伸,顯然是 MOT 領域的一個革命性任務。到2022年,作者可以看到 MOT 問題陳述的多樣性。Oluaffunmilola 等人在進行目標預測的同時也進行了目標跟蹤[50]。他們使用 FairMOT 檢測了邊界框,然后堆疊了一個預測網絡,并制作了聯合學習架構(JLE)。
智洪等人提取了每個幀的新特征,以獲得全局信息,并積累了部分特征用于遮擋處理[51]。他們融合了這兩種特征來準確地檢測行人。除了[52]之外,沒有論文采取任何措施來保留重要的邊界框,以便在數據關聯階段不會消除它們。在檢測之后,Hong 等人在跟蹤階段應用Non-Maskable Suppression(NMS)來減少重要邊界框被移除的概率[53]。Jian 等人還使用 NMS 來減少來自檢測器的冗余邊界框。它們通過比較特征和借助 IoU 重新識別邊界框來重新檢測軌跡定位。最終的結果是一個聯合再檢測和再識別跟蹤器(JDI)。
注意力模塊
為了重新識別被遮擋的目標,需要注意力。注意力意味著作者只考慮感興趣的目標,通過消除背景,使其特征被記住很長時間,甚至在遮擋之后也能如此。注意力模塊在 MOT 領域的應用概述見下表。
在[41]中,姚野等人引入了一個條形注意模塊來重新識別被背景遮擋的行人。這個模塊實際上是一個池化層,其中包括 max 和 mean 池化,它能夠更有效地從行人中提取特征,這樣當它們被遮擋時,模型不會忘記它們,并能夠進一步重新識別。宋等人希望在數據關聯中使用目標定位的信息,在目標定位中使用數據關聯的信息。
為了將兩者聯系起來,他們使用了兩個注意力模塊,一個用于目標,另一個用于分散注意力。然后他們最終應用了一個記憶聚合來制造增強的注意力。天一等人提出了空間注意機制[60] ,通過在外觀模型中實現空間轉換網絡(STN)來迫使模型只關注前景。另一方面,雷等人首先提出了原型交叉注意模塊(PCAM)從過去的幀中提取相關特征。
然后他們使用原型交叉注意網絡(PCAN)在整個幀中傳輸前景和背景的對比特征[61]。匯源等人提出了自注意機制來檢測車輛[62]。本文[36]還有一個應用于動態圖中的自注意力模塊,用于組合攝像機的內部和外部信息。賈旭等人以一種輕量級的方式使用了交叉注意力和自注意力[58]。如下圖所示,大家可以看到該體系結構的交叉注意力頭。利用自注意模塊提取魯棒特征,減少背景遮擋。然后將數據傳遞給交叉注意模塊進行實例關聯。
運動模型
運動是目標的必然屬性。因此,該特征可以用于多目標跟蹤領域,無論是檢測還是關聯。目標的運動可以通過目標在兩幀之間的位置差來計算。根據這個衡量標準,可以做出不同的決定,如下表所示。
Hasith 等人和 Oluaffunmilola 等人分別在[39]和[63]中使用運動來計算差異代價。根據實際位置與預測位置的差值計算運動。為了預測被遮擋目標的位置,Bisheng 等人使用了基于 LSTM 的運動模型[42]。Wenyuan 等人將運動模型與深度親和網絡(DAN)相結合[64] ,通過消除目標不可能位于的位置來優化數據關聯[65]。
倩等人還通過累積多幀差分(AMFD)和低秩矩陣完成(LRMC)測量連續衛星幀的距離來計算運動[66] ,并形成了運動模型基線(MMB)來檢測和減少虛警的數量。韓等人在車輛駕駛領域使用運動特征識別前景目標[67]。他們通過比較運動特征和 GLV 模型來檢測相關目標。
Gaoang 等人提出了一種局部-全局運動(LGM)跟蹤器,它可以找出運動的一致性,從而將軌跡關聯起來[32]。除此之外,Ramana 等人還使用運動模型來預測目標的運動,而不是數據關聯,這些數據關聯有三個模塊: 綜合運動定位(IML) ,動態重連上下文(DRC) ,3D 積分圖像(3DII)[46]。
在2022年,Shoudong 等人通過提出運動感知跟蹤器(MAT) ,將運動模型用于運動預測和目標關聯。智博等人提出了補償跟蹤器(CT) ,它可以獲得具有運動補償模塊的丟失目標[69]。Xiaotong 等使用運動模型來預測目標的邊界框[18] ,就像在[67]中所做的那樣,但是如Transformer章節中所討論的那樣制作圖像patches。
Siamese Network
兩幀之間的相似性信息對目標跟蹤有很大的幫助。因此,Siamese網絡試圖學習相似之處,并區分輸入。該網絡由兩個并行子網絡共享相同的權值和參數空間。最后將雙子網絡之間的參數綁定在一定的損失函數上進行訓練,以度量雙子網絡之間的語義相似度。下表給出了Siamese網絡在MOT任務中的應用概況。
戴濤等人提出了一個金字塔網絡,嵌入了一個輕量級的transformer注意力層。他們提出的Siamese transformer金字塔網絡增強了橫向交叉注意力金字塔特征之間的目標特征。因此,它產生了健壯的特定于目標的外觀表示[22]。如下圖所示:
Bing 等人試圖通過結合運動建模來提升基于區域的多目標跟蹤網絡[70]。他們將Siamese網絡跟蹤框架嵌入到較快的RCNN中,通過輕量級跟蹤和共享網絡參數來實現快速跟蹤。Cong 等人提出了一種使用Siamese雙向GRU(SiaBiGRU)對軌跡進行后處理以消除軌跡損壞的切割網絡。
然后他們建立了重新連接網絡來連接這些軌跡并制造軌跡[31]。在典型的MOT網絡中,有預測和檢測模塊。所述預測模塊試圖預測下一幀中目標的外觀,所述檢測模塊檢測所述目標。這兩個模塊的結果用于特征匹配和目標軌跡更新。新文等人提出了Siamese RPN(區域提案網絡)結構作為預測因子。
他們還提出了一種數據關聯模塊的自適應閾值確定方法[71]。因此,Siamese網絡的整體穩定性得到了改善。與transformer模型相反,賈旭等人提出了一種基于注意力的在Siamese網絡的結構下的輕量級跟蹤頭,增強了前景目標在目標框內的定位[58]。另一方面,Philippe 等人已經將他們的有效transformer層合并到Siamese跟蹤網絡中,他們用transformer層取代了卷積層[21]。
Tracklet Association
感興趣目標的一組連續幀稱為tracklet。在檢測和跟蹤目標時,首先使用不同的算法對軌跡進行識別。然后把它們聯系在一起,建立一個軌跡。軌跡關聯顯然是一個具有挑戰性的任務在 MOT 問題。一些論文特別關注這個問題。不同的論文采取了不同的方法。如下表所示。
金龍等人提出了軌跡平面匹配(TPM)[72] ,其中首先從被檢測的目標創建短軌跡,并且它們在軌跡平面中對齊,其中每個軌跡根據其開始和結束時間分配超平面。這樣就形成了巨大的軌跡。這個過程還可以處理非相鄰和重疊的tracklet。為了改善這種情況,他們還提出了兩個方案。
Duy 等人首先用3D幾何算法制作了tracklet[73]。他們已經形成了多個攝像機的軌跡,由于這一點,他們通過制定空間和時間信息優化了全局關聯。在[31]中,Cong等人提出了位置投影網絡(PPN)來實現從局部環境到全局環境的軌跡轉換。
Daniel等人通過根據運動將新來的目標分配給先前發現的被遮擋的目標來重新識別被遮擋的目標。然后他們實現了已經發現的進一步回歸軌跡,使用by-regression approach。此外,他們還通過提取時間方向來擴展工作,以提高性能。 在[75]中,可以看到與前者不同的策略。
將每個軌跡作為一個中心向量,建立了軌跡中心存儲庫(TMB) ,并對其進行動態更新和成本計算。整個過程稱為多視點軌跡對比學習(MTCL)。此外,他們還創建了可學習的視圖采樣(LVS) ,它將每個檢測作為關鍵點,幫助在全局上下文中查看軌跡。
他們還提出了相似引導特征融合(SGFF)方法來避免模糊特征。et,al等人已經開發了軌跡助推器(TBooster)[76]來減輕關聯過程中發生的錯誤。TBooster有兩個組件: 拆分器和連接器。在第一個模塊中,在ID切換發生的地方拆分tracklet。因此,可以解決為多個目標分配相同ID的問題。在第二個模塊中,將同一目標的tracklet鏈接起來。通過這樣做,可以避免將相同的ID分配給多個tracklet。Tracklet嵌入可以通過連接器完成。
MOT Benchmarks
典型的 MOT 數據集包含視頻序列。在這些序列中,每個目標都由一個唯一的 id 標識,直到它不再出現。一旦一個新目標進入幀,它就會得到一個新的唯一標識。MOT 有很多基準。其中,MOT 挑戰基準有多個版本。自2015年以來,他們幾乎每年都會發布一個變化更多的新基準。
還有一些流行的基準,如 PETS、 KITTI、 STEPS 和 DanceTrack。到目前為止,MOT 挑戰有17個目標跟蹤數據集,其中包括 MOT15[81] ,MOT16[82] ,MOT20,[6]和其他。MOt15基準包含威尼斯,KITTI,ADL-Rundle,eTH-Pescross,eTH-Sunnyday,PET,TUd-cross 數據集。
這個基準是在一個不受約束的環境中拍攝的,有靜態攝像機和運動攝像機。MOT16和 MOT17基本上是從 MOT15更新的基準,具有較高的groundtruth精度和嚴格遵循的協議。MOT20是一個行人探測挑戰賽。這個基準有8個具有挑戰性的視頻序列(4列火車,4測試)在無約束的環境[6]。
除了目標跟蹤,MOTS 數據集也有分割任務[40]。一般來說,跟蹤數據集有一個邊界框,框中的目標有一個唯一標識符。 TAO [83]數據集有一個巨大的規模,由于跟蹤每一個目標在一幀內。有一個叫Head Tracking 21的數據集。這個基準的任務是跟蹤每個行人的頭部。STEP 數據集對每個像素進行了分割和跟蹤。
還有一些其他的數據集。下圖顯示了作者審閱的論文中使用的數據集的頻率。從圖表中可以看出,MOT17數據集的使用頻率高于其他數據集。
MOT 指標
MOTP
多目標跟蹤精度(MOTP)。無論跟蹤器是否有能力識別目標形狀和保持一致的軌跡,它都是根據跟蹤器在尋找目標位置時的精確程度給出的分數。由于 MOTP 只能提供定位精度,因此經常與 MOTA (Multiple Object Tracking Accuracy)結合使用,因為 MOTA 不能單獨說明定位誤差。定位(Localization)是 MOT 任務的輸出之一。它讓大家知道目標在本幀中的位置。單憑它不能提供一個完整的跟蹤器的性能。
Dit: 在時間t時刻,實際目標與其各自假設之間的距離,在一個單幀內,對于集合中的每個目標Oi,跟蹤器分配一個假設hi。Ct: 在t時刻目標和假設之間匹配的數量。
MOTA
多目標跟蹤準確度。這個度量衡量跟蹤器在不考慮精度的情況下檢測目標和預測軌跡的能力。這個度量標準考慮了三種類型的誤差:
Mt: 在t時刻丟失的數量;fpt誤檢數量;mmet: ID切換的數量 gt: 在t時刻出現的真實目標的數量。 MOTA過分強調精確檢測的效果。它側重于檢測級別的預測和真值之間的匹配,并沒有考慮關聯。當考慮沒有ID切換的MOTA,度量會更偏向于被較差的精度影響。
上述的局限性可能會導致研究人員調整他們的跟蹤器,使其在檢測水平上更具精度和準確性,同時忽略了跟蹤的其他重要方面。MOTA 只能考慮短期關聯。它只能評估算法執行一階關聯的效果,而不能評估算法在整個軌跡中的關聯效果。且它根本沒有考慮關聯精度/ID轉換。事實上,如果一個跟蹤器能夠糾正任何關聯錯誤,它會懲罰它而不是獎勵它。MOTA 的最高分是1,但是沒有一個固定的最小值,這會導致 MOTA 的分數為負。
IDF1
ID度量。它試圖將預測的軌跡與實際軌跡進行映射,這與MOTA等在檢測級別執行雙射線映射的指標形成對比。它被設計用來測量“識別”,不同于檢測和關聯,它與軌跡有關.
IDTP:代表ID真正例,預測得到的目標軌跡與groundtruth目標軌跡匹配。IDFN:ID假反例。任何未被發現的groundtruth值并且其軌跡未被匹配。IDFP:ID誤檢。任何錯誤的預測結果。 由于MOTA對檢測精度的高度依賴,一些人更喜歡IDF1,因為該指標更注重關聯性。
然而,IDF1也有一些缺陷。在IDF1中,最佳unique的雙映射不會導致預測軌跡和實際軌跡之間的最佳對齊。最終結果將為更好的匹配留下空間。即使檢測正確,IDF1分數也會降低。如果有很多不匹配的軌跡,分數也會降低。這促使研究人員增加unique的總數量,而不是專注于進行合理的檢測和關聯。
Track-mAP
這種度量匹配GroundTruth軌跡和預測軌跡。當軌跡相似性得分Str大于或等于閾值αtr時,在軌跡之間進行匹配。此外,預測的軌跡必須具有最高的置信度得分。
n:預測軌跡的總數。預測軌跡按照置信度得分降序排列。Prn:計算跟蹤器的精度。TPTr:真正軌跡。找到匹配的任何預測軌跡。|TPTr|n:n條預測軌跡中的真正軌跡數。Ren:Measures Re-call。|gtTraj |:目標軌跡真值,使用精度和召回方程進行進一步計算,以獲得最終Track?mAP分數。
作者首先對精度值進行插值,得到每個n值的InterpPr。然后,作者將每個n值繪制一個InterpPr與 Ren 對應的圖。作者現在有了精確-召回曲線。這條曲線的積分會給出 Track-mAP 得分。Track-mAP 也有一些缺點。軌跡mAP的跟蹤結果很難直觀地顯示出來。
它對于單個軌道有多個輸出。低置信度得分的軌跡對最終得分的影響是模糊的。有一種方法可以“黑掉”這個度量標準。研究人員可以得到一個較高的分數,通過創造幾個有較低置信度分數的預測。這將增加獲得合適匹配的機會,從而增加得分。然而,這并不是一個良好跟蹤的指標。跟蹤 mAP 無法指示跟蹤器是否具有更好的檢測和關聯。
HOTA
Higher Order Tracking Accuracy。原論文[96]將 HOTA 描述為: “ HOTA 測量匹配檢測的軌跡對齊程度,并對整體匹配檢測進行平均,同時懲罰不匹配的檢測。”HOTA 應該是一個單一的分數,可以涵蓋跟蹤評估的所有要素。它還應該被分解為子度量。HOTA 彌補了其他常用指標的缺點。雖然像 MOTA 這樣的指標忽略關聯并且嚴重依賴于檢測(MOTA)或反之亦然(IDF1),但是 TPA,FPA 和 FNA 等新概念的發展使得關聯可以像TP,FNs 和 FP 用于測量檢測一樣進行測量。
A(c):測量預測軌跡和groundtruth軌跡的相似程度。TP:真正例,在S ≥ α的條件下,將groundtruth檢測與預測檢測相匹配。S是定位相似度,α是閾值。FN: 假反例。漏掉的groundtruth檢測 FP: 假正例。一種沒有與任何groundtruth匹配的預測。TPA: 真正關聯正例。與給定的 TPC 具有相同的groundtruth ID和相同的預測ID的真正正例的集合。
FNA: 具有與給定TPC相同的groundtruth ID的一組groundtruth檢測目標。然而,這些檢測目標被分配了一個不同于c或根本沒有的預測ID。
FPA:與給定TPc具有相同預測ID的預測檢測集。然而,這些檢測目標被分配了一個不同于c的groundtruth ID,或者根本沒有。
HOTaα 是計算α的特殊值的HOTA。需要進一步計算才能得到最終的HOTA分數。作者找到了不同α的值對應的HOTA,α范圍從0到1,然后計算它們的平均值。
作者能夠將 HOTA 分解為幾個子指標。這很有用,因為可以采用跟蹤評估的不同元素,并使用它們進行比較。可以更好地了解跟蹤器正在產生的錯誤。跟蹤中常見的錯誤有五種類型: 假反例、假正例、碎片化、合并和偏差。這些可以分別通過檢測召回、檢測精度、關聯召回、關聯精度和定位來衡量。
LocA
Localization Accuracy[96].
S(c): 預測檢測與groundtruth之間的空間相似性得分。這個子度量處理錯誤類型偏差或定位錯誤。當預測檢測和groundtruth不一致時,就會產生定位誤差。這與 MOTP 類似,但又不同,因為它包含幾個定位閾值。常用的度量標準,如 MOTA 和 IDF1沒有考慮到定位。
AssA:Association Accuracy Score
根據 MOT 基準: “所有匹配檢測的關聯Jaccard索引的平均值,平均值超過定位閾值”[96]。關聯是MOT 任務結果的一部分,它讓大家知道不同幀中的目標是屬于同一個還是不同的目標。這些目標具有相同的ID,并且是相同軌跡的一部分。關聯精度給出了匹配軌跡之間的平均對齊度。它主要關注關聯錯誤。這是由于groundtruth中的單個目標被給予了兩種不同的預測,或者一個單獨的預測被給予了兩種不同的groundtruth目標。
DetA:Detection Accuracy
根據 MOT 基準: “檢測 Jaccard 索引平均超過定位閾值”[96]。檢測是 MOT 任務的另一個輸出。它只是幀內的目標。檢測精度是正確檢測的一部分。當groundtruth被忽略或者存在虛假檢測時,檢測誤差就會存在。
DetRe:Detection Recall
給出了一個定位閾值的計算方程。需要平均所有定位閾值[96]:
檢測召回錯誤是假反例。它們發生時,跟蹤器錯過了一個真實目標,檢測精度可分為檢測召回和檢測精度。
DetPr:
給出了一個計算定位閾值的方程,需要對所有定位閾值進行平均[96]:
如前所述,檢測精度是檢測精度的一部分。檢測精度誤差為假正例(誤檢)。當追蹤器做出不存在于groundtruth中的預測時,它們就會發生。
AssRe:Association Recall
需要計算下面的公式,然后計算所有匹配檢測的平均值。最后,平均結果要超過定位閾值[96]:
當跟蹤器將不同的預測軌跡分配給相同的groundtruth軌跡時,就會發生關聯召回錯誤。關聯精度可分為關聯召回和關聯精度。
AssPr:Association Precision
作者需要計算下面的方程,然后對所有匹配檢測進行平均。最后,結果的平均值超過定位閾值[96]:
關聯精度是關聯精度的一部分。當兩條不同的groundtruth軌跡具有相同的預測ID時,就會出現關聯錯誤。
MOTSA: Multi Object Tracking and Segmentation Accuracy
這是 MOTA 度量的一種變體,因此也可以評估分割任務的跟蹤器性能。
這里 M 是一組 N 個非空的groundtruth掩模。每個mask被分配一個groundtruth跟蹤ID。TP 是一組真正例。當一個假設的掩碼映射到一個groundtruth掩碼時,真正例出現。FP 是假正例的,沒有任何groundtruth,FN是一組假反例,有真值但沒有任何相應的檢測結果。
IDS、ID切換是屬于同一軌道但被分配了不同ID的groundtruth掩碼。MOTSA 算法的缺點包括: 使檢測比關聯更加重要,并且會受到匹配閾值選擇的影響。
AMOTA: Average Multiple Object Tracking Precision
這是通過平均所有recall的MOTA值來計算的:
numg數值是所有幀中groundtruth目標的數量。對于一個特定的召回值r,FP的數目、FN的數目和ID切換的數目表示為 FPr、 FNr 和 IDSr。召回值的數量用 L 表示。
應用
MOT有無數應用程序。許多工作都涉及到跟蹤各種目標,包括行人、動物、魚、車輛、體育運動員等。實際上,多目標跟蹤的領域不能僅限于幾個領域。但是,為了從應用的角度獲得一個想法,作者將根據具體的應用涵蓋論文。
自動駕駛
自動駕駛可以說是多目標跟蹤中最常見的任務。這是近年來人工智能領域的一個熱門話題。高等人提出了一個自動駕駛的雙重注意力網絡,他們整合了兩個注意力模塊[97]。傅先生等人首先利用自注意力機制檢測車輛,然后利用多維信息進行關聯。他們還通過重新跟蹤失蹤的車輛來處理堵塞問題[62]。
龐等人將車輛檢測與基于隨機有限集(RFS)引入3D MOT 的多測量模型濾波器(RFS-M3)相結合[98]。羅等人還應用了3D MOT技術,提出了模擬跟蹤技術,該技術可以通過激光雷達捕捉到的點云來檢測和關聯飛行器。Mackenzie 等人做了兩項研究: 一項是關于自動駕駛汽車的,另一項是關于運動的。
他們研究了多目標避讓(MOA)的整體表現,這是一種測量自動駕駛中行動注意力的工具。鄒等人提出了一個輕量級的框架,用于路邊攝像機拍攝的2D交通場景的全棧感知。Cho等人通過YOLOv4和DeepSORT的交通監控攝像頭,在將圖像從局部到全局坐標系統投影后,識別并跟蹤了這些車輛[101]。
其它
行人跟蹤:是多目標跟蹤系統中最常見的任務之一。由于街頭攝像頭的視頻很容易被捕捉,人們已經做了很多關于人類或行人跟蹤的工作。 車輛監控:與自動駕駛一樣,也是一項非常重要的任務。為了監控車輛的活動,可以應用MOT技術。
運動員跟蹤:在人工智能時代,對任何運動中的運動員進行嚴格的分析都是最重要的戰術之一。因此 MOT 在許多方面被用來跟蹤運動員。 野生動物追蹤:MOT 的一個潛在應用案例是野生動物跟蹤。它可以幫助野生動物研究人員避免昂貴的傳感器,這些傳感器在某些情況下并不那么可靠。
MOT在跟蹤魚類等水下生物方面也發揮著至關重要的作用。在[118]中,李等人提出了 CMFTNet,它通過應用聯合檢測和嵌入來提取和關聯特征來實現。在復雜背景下,采用可變形卷積方法進一步提高特征的銳化能力,并借助重量平衡損失的方法實現對魚的精確跟蹤。
在視覺監控領域,Ahmed 等人提出了一個基于SSD和YOLO的協作機器人框架,用于檢測和一系列跟蹤算法的組合[120]。 還可以看到MOT在農業中的實施。為了跟蹤番茄種植,Ge 等人使用基于YOLO的shufflenetv2作為基線,CBAM 作為注意力機制,BiFPN 作為多尺度融合結構,DeepSORT 作為跟蹤[125]。Tan 等人還使用 YOLOv4作為棉花幼苗的檢測器和一種基于光流的跟蹤方法來跟蹤幼苗[49]。
MOT還可以應用于各種現實生活中的應用,如安全監控、社會距離監控、雷達跟蹤、活動識別、智能老年護理、犯罪跟蹤、人員重識別、行為分析等。
未來方向
由于 MOT 是一個多年來的研究熱點,人們已經在它上面做了大量的努力。但是,這個領域仍然有很大的發展空間。在這里,作者想指出一些MOT的潛在的方向:
在多個攝像頭下進行多目標跟蹤有點困難。主要的挑戰是如何融合這些場景。但是,如果將非重疊攝像機的場景融合在一起,投影到虛擬世界中,那么 MOT 就可以在一個較長的區域內連續跟蹤目標。類似的努力可以在[31]中看到。一個相對較新的數據集多攝像機多人跟蹤也可用[126]。Xindi等人提出了一種用于多目標多攝像機跟蹤的實時在線跟蹤系統[127]。
基于類的跟蹤系統可以與多目標跟蹤相結合。MOT算法試圖跟蹤一幀中幾乎所有的運動目標。如果可以進行基于類的跟蹤,這將更好地應用于實際場景中。例如,鳥類跟蹤MOT系統在機場非常有用,因為為了防止鳥類與飛機在跑道上相撞,目前采用了一些人工預防機制。它可以完全自動使用基于類的MOT系統。基于類的跟蹤在許多方面有助于監視。因為它有助于有效地跟蹤特定類型的目標。
MOT 在二維場景中有著廣泛的應用。雖然這是一個有點具有挑戰性的任務,利用MOT分析3D視頻將是一個很好的研究課題。三維跟蹤可以提供更精確的跟蹤和遮擋處理。正如在三維場景深度信息保存,因此它有助于克服一個主要的挑戰,MOT中的遮擋問題。
到目前為止,大多數transformer都被用作黑匣子。但transformer可以更具體地用于解決不同的MOT任務。一些方法是完全基于檢測和進一步的回歸被用來預測下一幀的邊界框[128]。在這種情況下,DETR[25]可用于檢測,因為它在檢測目標方面有非常高的效率。
在任何應用程序中,輕量級體系結構對于實際應用程序都非常重要。因為輕量級體系結構是資源有效的,而且在實際場景中,資源是有限的。在MOT中,如果想在物聯網嵌入式設備中部署一個模型,輕量級架構也是非常關鍵的。同時在實時跟蹤中,輕量級體系結構起著非常重要的作用。因此,在不降低精度的情況下,如果能夠實現更多的fps,那么它就可以在實際應用中實現,在實際應用中,輕量級體系結構是非常必要的。
在現實生活中,在線多目標跟蹤是唯一可行的解決方案。因此,推理時間起著至關重要的作用。作者觀察到近年來從研究人員那里獲得更多準確性的趨勢。但是,如果能夠實現超過30幀率的推理時間,那么就可以使用MOT作為實時跟蹤。由于實時跟蹤是監控的關鍵,因此它是未來 MOT 研究的主要方向之一。
近年來,量子計算在計算機視覺中的應用呈現出一種趨勢。量子計算也可以用于MOT。Zaech等人在Ising模型的幫助下發表了MOT使用絕熱量子計算(AQC)的第一篇論文[129]。他們期望AQC能夠在將來的關聯過程中加速N-P硬分配問題。由于量子計算在不久的將來具有很大的潛力,這可能是一個非常有前途的研究領域。
總結
本文試圖對計算機視覺在MOT中的最新發展趨勢進行總結和回顧。作者試圖分析其局限性和重大挑戰。與此同時,作者發現,除了一些主要的挑戰,如遮擋,ID切換,也有一些小的挑戰。這項研究包括了與每種方法相關的簡要理論,試圖平等地關注每一種方法。
作者也添加了一些流行的基準數據集以及他們自己的見解。根據最近的MOT趨勢,展望了一些MOT未來可能的方向。作者發現,最近研究人員更多地關注基于transformer的結構,這是因為transformer的上下文信息存儲能力。由于輕量級架構的transformer仍然是很吃資源的,所以開發新的模塊也很必要。最后,希望本文的研究能夠對多目標跟蹤領域的研究者起到補充作用,開啟多目標跟蹤研究的新篇章。
審核編輯:劉清
-
計算機視覺
+關注
關注
8文章
1700瀏覽量
46069 -
自動駕駛
+關注
關注
784文章
13918瀏覽量
166791 -
LSTM
+關注
關注
0文章
59瀏覽量
3768
原文標題:多目標跟蹤最新綜述(基于Transformer/圖模型/檢測和關聯/孿生網絡)
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論