首發:AI公園公眾號
作者:Deval Shah
編譯:ronghuaiyang
導讀
對監控領域的目標跟蹤方法以及面臨的挑戰進行了一個介紹,是一個很好的了解目標跟蹤領域的“是什么”和“為什么”問題的文章。、
在我們深入到目標跟蹤的世界之前,我們必須理解監控世界的“為什么”和“是什么”。全球各國都安裝了數百萬個攝像頭,但幾乎沒有人監控它們。人與攝像機的比例很小。
由于深度學習技術在監控領域的廣泛應用,智能軟件在過去十年中接管了監控領域。復雜的問題,如人員跟蹤,交通密度估計,盜竊保護等,已經被世界各地的杰出研究人員解決了,并顯示了巨大的前景。
本文將向你介紹智能監控中最重要的主題之一 —— 目標跟蹤。
介紹
目標跟蹤是指根據之前的信息估計場景中目標物體的狀態。
在high level的抽象中,主要有兩個層次的物體跟蹤。
單目標跟蹤(SOT)
多目標跟蹤(MOT)
目標跟蹤不局限于二維序列數據,可以應用于三維領域。
在本文中,我們將深入研究目標跟蹤范式的一個子領域,即使用深度學習的二維視頻序列中的多目標跟蹤(MOT)。
深度神經網絡(DNN)的強大之處在于它們能夠學習豐富的表示,并從輸入中提取復雜和抽象的特征。
多目標跟蹤(MOT),也稱為多目標跟蹤(MTT),是一種計算機視覺任務,旨在分析視頻,以識別和跟蹤屬于一個或多個類別的對象,如行人,汽車,動物和無生命的物體,沒有任何先驗的目標外觀和目標數量。
在單目標跟蹤中,目標的出現是預先知道的,而在多目標跟蹤中,需要一個檢測步驟來識別出進入或離開場景的目標。同時跟蹤多個目標的主要困難來自于各種各樣的遮擋以及物體之間的相互重疊,有時物體間也會有相似的外觀。因此,僅僅使用SOT模型直接解決MOT問題,往往會導致較差的結果,往往會導致目標漂移和大量的ID切換錯誤,因為此類模型往往難以區分外觀相似的類內物體。
近年來,由于深度學習方法的研究呈指數級增長,檢測和跟蹤方法在準確性和性能方面取得了巨大的進步。
大多數先進的跟蹤方法遵循“檢測跟蹤”的方案,他們首先在場景中找到對象,然后找到對象對應的tracklets(它在下一幀的位置)。
如今,這種探測器的性能異常出色,能夠適應不同的場景。因此,它定義了跟蹤算法的標準輸入。
還有其他的方法,比如Lucas Kanade的光流,基于排序的跟蹤等,它們在傳統的計算機視覺方法的基礎上表現也都很出色。
挑戰
在解決目標跟蹤問題時,會出現一些問題,這些問題會導致糟糕的結果。多年來,算法試圖解決這些問題,但到目前為止,我們還沒有找到一個被充分證明的解決辦法,這仍然是一個開放的研究領域。
由于幾何變化導致的多樣性,如:姿態,關節,物體的尺度
由于光學因素的差異。例如:照明、外觀
非線性運動
有限的分辨率,如從低端手機采集的視頻
場景中有相似的物體,例如:相同顏色的衣服,配飾等
高度擁擠的場景,如街道,音樂會,體育館,市場。
跟蹤起始和終止。在開始任何跟蹤算法之前,你需要想要跟蹤的物體的先驗信息。但是并不是一定可以使用目標對象初始化算法。
跟蹤軌跡可能由于運動的突然變化導致合并和切換,比如相機成像質量的急劇變化等。
由于相似的特征,如相似的衣服,面部結構,眼鏡,膚色,身高等,目標物體的ID可能被切換。
目標模型更新錯誤導致漂移。一次錯誤的更新可能會導致在錯誤的方向上持續的更新,從而在整個視頻中遺忘掉正確的目標。
綜述文章
現在你已經了解了這個問題的廣泛性,讓我們深入研究對象跟蹤領域中一些最令人興奮的研究工作。
在目標跟蹤領域領先的研究方法的篩選標準是基于5關鍵指標:
主要會議(如:CVPR, NeurIPS, ICCV, ICML, ECCV等)
基準測試結果(例如,MOT, Kitti, VOT, CVPR19挑戰)
支持論文結果的公開代碼(由作者/第三方提供)。
引用
新的想法
有太多令人興奮的研究工作。但是,如果作者不能提供代碼(可能是由于一些原因)來重現論文中的結果,那么我們不得不對文檔中提到的結果持保留態度。
我們已經提到了與2D MOT相關的論文,但有些想法也可以外推到3D版本。
—END—
審核編輯 黃昊宇
-
多目標跟蹤
+關注
關注
0文章
5瀏覽量
7667 -
深度學習
+關注
關注
73文章
5503瀏覽量
121170
發布評論請先 登錄
相關推薦
評論