電子發燒友網>電子資料下載>人工智能>計算機視覺之目標檢測

計算機視覺之目標檢測

1876700 2021-03-06 | pdf | 1.23MB | 次下載 | 2積分

普通下載普通下載

資料介紹

目標檢測是計算機視覺領域中一個新興的應用方向。

目標定位

圖像分類是對圖像進行分類，比如判斷圖像中是否是車。定位分類不僅要圖片分類，而且需要確定目標在圖像中的哪個位置。目標檢測中要識別的對象不僅僅只有一個，目標檢測要識別圖像中多個對象。

自動駕駛需要用到目標檢測技術。給出一張汽車行駛中的圖片

我們需要判斷圖中1-是否有行人，2-是否有車，3-是否有摩托車，4-圖片是否只是背景圖，還需要判斷圖中汽車的位置。設圖片左上角的坐標是(0,0)，右下角坐標為(1,1)。圖中汽車的中心點位置大概為(b_x=0.5,b_y=0.7)，汽車的長和高分別是bw=0.3和bh=0.4。我們訓練的神經網絡就要有兩種類型的輸出，一種是4種對象的檢測，另外一種是車的位置信息。

我們定義這張圖片的標簽y要包含下面幾個元素

如果圖片中有任意的對象，比如上圖，那么

如果圖片中什么都沒有，那么

其中第一個元素置為0，其它元素可以不用設置，因為都沒有任何對象了，我們不關心其它的信息了。

目標定位的損失函數是

這里簡單地使用了平方損失函數。

特征點檢測

除了可以使用矩形框標出目標在圖片中的位置，還可以使用特征點來表示目標的位置。

在人臉檢測中，可以使用特征點來表示人臉的位置，或者具體的部位，比如眼睛，鼻子，嘴巴。

樣本的標簽y是一個坐標點的集合，第1個點表示左眼左側眼角，第2個點表示左眼右側眼角，第3個點表示右眼左側眼角，以此類推。

特征點檢測有許多應用場景。比如說AR，在人的頭上顯示一個皇冠，需要得到人臉的特征點位置，然后判斷人臉的傾斜度，最后把皇冠“戴”到頭上。

滑動窗體檢測

為了從一幅大圖中找出圖中汽車的位置，需要用到活動窗體檢測。首先使用汽車圖片訓練一個卷積神經網絡，用于汽車分類。接著設置一個窗體，該窗體在大圖上從上往下從左往右慢慢移動，每移動一步，把窗體截取的內容使用汽車分類器進行分類，如果檢測到有汽車，說明圖中的汽車位置在窗體的位置上。接著使用一個更大的窗體，重復上述步驟。

滑動窗體的移動步長設置大一些，可以減少汽車分類器的分類次數，但是可能會出現這種情況，窗體中的汽車只有車身的一部分，分類器不能識別，這樣導致整個系統的性能降低。

把圖片分成一塊塊區域，然后分別使用分類器分類，這樣的滑動窗體的效率非常低。我們需要一個高效率的滑動窗體的方法。

首先要介紹把全連接層轉成卷積層。

把上圖的第一個全連接層，改成用5×5×16的過濾器來卷積，一次卷積的操作數是所有輸入值，這相當于一次全連接，然后設置過濾器的數量為400，相當于計算全連接層的400個輸出值。同理，把第二個全連接層改成用400個1×1×400的過濾器來卷積，得到的1×1×400輸出就是第二個全連接層的輸出。如此類推，最后得到1×1×4的輸出就是softmax層的輸出。

高效率的滑動窗體的方法是使用卷積來實現滑動窗體。

上圖第一行表示一幅14×14×3的圖片使用卷積網絡進行分類的過程。其中全連接層使用卷積層實現。上圖的下一行表示在一幅大圖中實現滑動窗體的計算。首先只觀察藍色方塊，這是一個滑動窗體，這個藍色方塊的大小滿足上一行卷積網絡的規格，把藍色方塊帶入卷積網絡，注意黃色區域也代入卷積網絡中。最后2×2×4的藍色塊表示藍色方塊的分類結果。然后觀察綠色框的區域，這是另外一個滑動窗體，你會發現卷積網絡中綠色框的值就是綠色框區域在上一行卷積網絡中的結果。把大圖輸入到卷積網絡，卷積網絡會同時計算大圖的所有的相同大小滑動窗體的分類結果，這就加快了滑動窗體的分類效率。

Bounding Box 預測

滑動窗體檢測對象的位置不是很精確，例如