本文轉(zhuǎn)載自 AI人工智能初學(xué)者,作者ChaucerG
傳統(tǒng)的目標檢索任務(wù)旨在學(xué)習(xí)具有內(nèi)部相似度和內(nèi)部相異度的區(qū)分特征表示,它假設(shè)圖像中的對象是手動或自動精確裁剪的。但是,在許多現(xiàn)實世界中的搜索場景(例如,視頻監(jiān)視)中,很少準確地檢測或標注對象(例如,人、車輛等)。因此,在沒有邊界框注釋的情況下,物體級檢索變得很棘手,這導(dǎo)致了一個新的但具有挑戰(zhàn)性的主題,即圖像搜索。
1、簡介
行人搜索是圖像搜索問題的第一個嘗試。在此之前,雖然對人的檢測和重識別做了大量的努力,但大多數(shù)都是獨立處理這兩個問題的。也就是說,傳統(tǒng)方法將行人搜索任務(wù)劃分為兩個獨立的子任務(wù)。
首先,利用行人檢測器從圖像中預(yù)測人物的邊界盒,然后根據(jù)預(yù)測的邊界盒的坐標對被檢測人物的矩形區(qū)域進行裁剪。其次,提取檢測框內(nèi)行人的特征用于重新識別人物。
在一般的行人重識別(Re-ID)任務(wù)中,對行人圖像進行人工注釋和裁剪,然后用于訓(xùn)練的鑒別特征表示網(wǎng)絡(luò)。一方面是因為在真實的視頻監(jiān)控任務(wù)中,大多數(shù)檢測器不可避免地會出現(xiàn)誤檢和框選不準的情況,在一定程度上可能會導(dǎo)致ReID精度的性能顯著下降。另一方面,這兩個獨立的子任務(wù)似乎對實際應(yīng)用程序中的最終Re-ID不太友好。
圖1 傳統(tǒng)ReID+檢索的過程和本文所提方法的對比圖
在本文中,為了解決圖像搜索問題,我們首先介紹一個端到端集成網(wǎng)(I-Net),它具有三個優(yōu)點:
1)通過設(shè)計Siamese架構(gòu)來進行在線匹配相似和不相似樣本對。
2)引入了新穎的在線配對(OLP)損失和動態(tài)特征字典,該字典通過自動生成多個負數(shù)對來限制正數(shù),從而減輕了多任務(wù)訓(xùn)練停滯問題。
3)提出了一種Hard example priority(HEP)的softmax損失,以通過選擇Hard類別來提高分類任務(wù)的魯棒性。
借助分而治之的理念,文章進一步提出了一種改進的I-Net,稱為DC-I-Net,它做出了兩個新的貢獻:
1)量身定制了兩個模塊以在集成框架中分別處理不同的任務(wù),從而使任務(wù)規(guī)格得到保證。
2)提出了通過利用memory的類中心進行類中心指導(dǎo)的HEP Loss(),從而可以捕獲內(nèi)部相似度和內(nèi)部相似度以進行最終檢索。
在著名的面向圖像級搜索的基準數(shù)據(jù)集上的大量實驗表明,所提出的DC-I-Net優(yōu)于最新的tasks-integrated和tasks-separated的圖像搜索模型。
2、本文方法
這篇論文是I-Net的一個實質(zhì)性擴展,在網(wǎng)絡(luò)架構(gòu)和損失函數(shù)方面做出了以下新貢獻:
2.1、I-Net
為了實現(xiàn)更好的圖像搜索任務(wù),I-Net(Siamese I-Net)將行人檢測和行人重識別設(shè)計為端到端(End-to-End)的框架,如下圖:
對于每一次迭代,包含相同身份id的圖像對將被輸入到Siamese I-Net中。利用骨干網(wǎng)絡(luò)進行初步特征的提取。然后,通過兩個RPN結(jié)構(gòu)得到候選區(qū)域。再然后將這些候選區(qū)域特征輸入到ROIPooling中并輸出的特征圖,最后是兩個全連接層分別用于檢測任務(wù)和檢索檢索(即ReID)任務(wù)。同時該結(jié)構(gòu)的提出的同時也提出了兩個損失函數(shù),即OLP Loss和HEPLoss,用于學(xué)習(xí)與ReID相關(guān)的有效特征。
通過兩個RPN生成的候選區(qū)域,ROI池化層被集成到I-Net中。然后,兩個Stream匯集的特征被輸入到有4096個神經(jīng)元的兩個FC中。為了消除行人候選區(qū)域的假陽性使用二值交叉熵損失區(qū)分訓(xùn)練。(注意,對于一般的圖像搜索任務(wù)都會使用softmax分類器來進行目標檢測);除此之外L1損失用來約束候選框的位置,同時會有一對256-D的特征用通過OLP Loss和HEP Loss來訓(xùn)練ReID Branch的模型。
2.2、On-line Pairing Loss (OLP Loss)
設(shè)計OLP損失函數(shù)主要從以下幾個角度考慮的:
1 減小類內(nèi)差距、增加類間差距
2 由于輸入的圖像數(shù)量不足,且每幅圖像中目標的鎖定,容易出現(xiàn)容易對多而身份少的情況,會導(dǎo)致傳統(tǒng)度量損失(如Triplet Loss)的停滯問題,嚴重阻礙了模型的有效訓(xùn)練。
OLP Loss的設(shè)計形式如下:
OLP損失可以按照如下步驟進行復(fù)現(xiàn):
1.收集兩幅相同身份輸入圖像的特性,并構(gòu)造成正樣本對。
2.為每個正樣本對特征中的和被設(shè)置為Anchor。負樣本特征存儲在特征字典中,與Anchor對配對,構(gòu)建負樣本對。
3.計算OLP損失,然后計算OLP梯度,進行梯度反向傳播優(yōu)化。
4.存儲輸入的特征,逐步更新特征字典。
2.3、Hard Example Priority Loss (HEP Loss)
OLP損失函數(shù)使正樣本對的余弦距離更小,負樣本對的余弦距離更大,這并不能直接對損失函數(shù)中的id標簽進行回歸。另外,傳統(tǒng)的基于softmax的分類器交叉損失訓(xùn)練方法沒有考慮樣本在數(shù)據(jù)中的難易程度。基于上述考慮,提出了HEP Loss,目的是回歸具有高優(yōu)先級的身份標簽。
在圖4中,Hard Example的選擇如下:
首先確定每個有身份的輸入圖像對的標簽索引,以確保groundtruth類。
對于每個子組,將距離最大的最上面r個負樣本的標簽索引存儲在優(yōu)先級類池P中,使難例的優(yōu)先級類得到集中。
如果池P的大小仍然小于預(yù)設(shè)的T,便隨機選擇幾個類填充池。
最后,利用傳統(tǒng)的基于softmax的交叉熵損失和選擇的優(yōu)先級類,將提出的HEP損失函數(shù)表示為:
其中,表示分類器給出的第i個proposal的分數(shù),j表示第j個類。在損失函數(shù)中,只使用選定的類別進行損失計算,進而使得損失函數(shù)集中在硬類別上。
2.4、Overall Loss of I-Net
I-Net是一種將檢測和重識別結(jié)合起來進行訓(xùn)練的端到端模型。因此損失由兩部分組成:檢測損失()和重識別損失(和),表示如下:
2.5、DC-I-NET
相較于I-Net,DC-I-NET:
1.通過使用來自不同層的特征,很好地考慮了檢測和重新識別的任務(wù)專注度;
2.利用ROI-Align模塊生成2級檢測器來提取refined目標以用于訓(xùn)練度量損失;
3.提出了class-center引導(dǎo)困難樣本優(yōu)先的()損失,用于訓(xùn)練的id的分類損失。
Detector:在DC-I-Net中,檢測任務(wù)和行人重識別任務(wù)的特征是從不同網(wǎng)絡(luò)層次中提取的。經(jīng)過分類損失和回歸損失監(jiān)督的兩階段檢測,完成準確Bounding Boxes(即目標行人)的檢測。
Re-identifier:經(jīng)過兩階段檢測后,將refined bounding Boxes的坐標輸入ROIAlign層,計算refined目標建議的特征,用于行人重識別。對于ReID任務(wù),匯集的feature map的大小為7x14,其寬高比與person的邊框相似。然后將特征圖輸入全連通層,學(xué)習(xí)用于行人重識別的特征向量表示。最后,通過全連通層生成目標方案的256-D的經(jīng)過L2歸一化后特征,并將其輸入到和中進行重識別模塊的訓(xùn)練。
損失函數(shù)定義如下:
DC-I-Net總損失為:
3、實驗結(jié)果
原文標題:【檢測+檢索】一個模型讓你不僅看得見也可以找得到,集檢測與檢索與一身的作品
文章出處:【微信公眾號:機器視覺CV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責(zé)任編輯:haq
-
圖像采集
+關(guān)注
關(guān)注
2文章
301瀏覽量
41301 -
AI
+關(guān)注
關(guān)注
87文章
31293瀏覽量
269644
原文標題:【檢測+檢索】一個模型讓你不僅看得見也可以找得到,集檢測與檢索與一身的作品
文章出處:【微信號:Unfinished_coder,微信公眾號:機器視覺CV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論