摘要
由于深度信息的缺失,從單目圖像估計(jì)物體的準(zhǔn)確3D位置是一個(gè)具有挑戰(zhàn)性的問(wèn)題。之前的工作表明,利用目標(biāo)的關(guān)鍵點(diǎn)投影約束來(lái)估計(jì)多個(gè)候選深度可以提高檢測(cè)性能。然而,現(xiàn)有方法只能利用垂直邊緣作為深度估計(jì)的投影約束。所以這些方法只利用了少量的投影約束,產(chǎn)生的深度候選不足,導(dǎo)致深度估計(jì)不準(zhǔn)確。論文提出了一種可以利用來(lái)自任何方向邊緣的密集投影約束方法。通過(guò)這種方式,論文使用了更多的投影約束并輸出了更多的候選深度。此外,論文提出了一個(gè)圖匹配加權(quán)模塊來(lái)合并候選深度。本文提出的方法名為DCD(Densely Constrained Detector),在 KITTI 和 WOD基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能。
之前算法存在的問(wèn)題在于它們的幾何約束不足。具體來(lái)說(shuō),一些現(xiàn)有的方法估計(jì)2D邊界框和3D邊界框的高度,然后利用2D到3D高度投影約束生成目標(biāo)的深度候選。最終的深度是通過(guò)對(duì)所有候選深度進(jìn)行加權(quán)來(lái)生成的。如下圖所示,該方法僅適用于垂直邊緣,這意味著它們只使用少量約束和3D先驗(yàn),導(dǎo)致深度估計(jì)的不準(zhǔn)確。
方法
DCD的框架的如下圖所示。DCD使用單階段檢測(cè)器從單目圖像中檢測(cè)目標(biāo)。論文提出了密集幾何約束深度估計(jì)器(DGDE,Densely Geometric-constrained Depth Estimator),它可以計(jì)算任何方向的2D-3D邊緣的深度。DGDE可以有效地利用目標(biāo)的語(yǔ)義關(guān)鍵點(diǎn)并產(chǎn)生更多的深度候選。此外,論文利用回歸得到的2D邊緣、3D邊緣和方向作為2D-3D邊緣圖匹配網(wǎng)絡(luò)的輸入。所提出的圖匹配加權(quán)模塊 (GMW,Graph Matching Weighting module) 匹配每個(gè)2D-3D邊緣并輸出匹配分?jǐn)?shù)。通過(guò)將多個(gè)深度與其相應(yīng)的匹配分?jǐn)?shù)相結(jié)合,論文最終可以為目標(biāo)生成一個(gè)穩(wěn)健的深度。
Geometric-based 3D Detection Definition
基于幾何的單目3D目標(biāo)檢測(cè)通過(guò)2D-3D投影約束估計(jì)目標(biāo)的位置。具體來(lái)說(shuō),網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)的尺寸(),旋轉(zhuǎn)角。假設(shè)一個(gè)目標(biāo)有n個(gè)語(yǔ)義關(guān)鍵點(diǎn),論文回歸第i個(gè)關(guān)鍵點(diǎn)在圖像坐標(biāo)中的2D坐標(biāo)和object frame中的3D坐標(biāo)。object frame的坐標(biāo)原點(diǎn)是目標(biāo)的中心點(diǎn)。給定n個(gè)語(yǔ)義2D-3D關(guān)鍵點(diǎn)投影約束,解決3D目標(biāo)位置是一個(gè)超定問(wèn)題,它是用于將點(diǎn)云將從object frame轉(zhuǎn)換到camera frame的平移向量。生成每個(gè)目標(biāo)的語(yǔ)義關(guān)鍵點(diǎn)的方法改編自。論文通過(guò)PCA建立了一些汽車模型,并通過(guò)從點(diǎn)云和2D mask中分割出來(lái)的3D點(diǎn)云來(lái)細(xì)化模型。在獲得關(guān)鍵點(diǎn)后,就可以使用DGDE從關(guān)鍵點(diǎn)投影約束中估計(jì)目標(biāo)的深度。
Densely Geometric-constrained Depth Estimation
雖然以前的深度估計(jì)方法[51]只考慮了垂直邊緣,但DGDE可以處理任意方向的邊緣。因此,論文能夠利用更多的約束來(lái)估計(jì)每個(gè)深度候選的深度。
該方法基于關(guān)鍵點(diǎn)從3D空間到2D圖像的投影關(guān)系。第i個(gè)關(guān)鍵點(diǎn)的3D坐標(biāo)在object frame中定義,并通過(guò)以下等式投影到2D圖像平面上:
其中是第i個(gè)關(guān)鍵點(diǎn)的深度,K是相機(jī)內(nèi)參,K,R,t 表示為:
通過(guò)上述兩式,第i個(gè)關(guān)鍵點(diǎn)的投影約束方程記為:
第j個(gè)關(guān)鍵點(diǎn)投影約束方程與上式類似,進(jìn)一步可以從第i個(gè)、第 j 個(gè)關(guān)鍵點(diǎn)投影約束中得到深度估計(jì):
這個(gè)方程表明深度可以通過(guò)任意方向邊緣的投影約束來(lái)計(jì)算。
給定n個(gè)關(guān)鍵點(diǎn),論文生成m=n(n-1)/2 個(gè)深度候選。與此同時(shí),不可避免地會(huì)遇到一些低質(zhì)量的深度候選。因此,需要適當(dāng)?shù)募訖?quán)方法來(lái)集成這些深度候選。
Depth Weighting by Graph Matching
利用DGDE估計(jì)目標(biāo)的深度候選時(shí),目標(biāo)的最終深度可以根據(jù)根據(jù)估計(jì)質(zhì)量進(jìn)行加權(quán):
接下來(lái)介紹論文提出的新的加權(quán)方法——Graph Matching Weighting module (GMW)。
Graph Construction and Edge Feature extraction:論文構(gòu)造了2D關(guān)鍵點(diǎn)圖和3D關(guān)鍵點(diǎn)圖。3D關(guān)鍵點(diǎn)圖與2D關(guān)鍵點(diǎn)圖基本一致,唯一的區(qū)別是頂點(diǎn)坐標(biāo)是2D坐標(biāo)還是3D坐標(biāo)。2D和3D邊緣特征提取器[47]如下所示:
FC、CN、BN、ReLU 分別表示全連接層、Context Normalization [47]、Batch Normalization 和 ReLU。值得一提的是,Context Normalization 提取了所有邊的全局信息。
Graph matching layer:給定提取的2D和3D邊緣特征,根據(jù)在邊緣s上的2D特征和邊緣t上的3D特征之間的L2距離計(jì)算如下?lián)p失:
然后論文將M作為Sinkhorn layer[4]的輸入來(lái)獲得分配矩陣P。Sinkhorn layer通過(guò)最小化下述目標(biāo)函數(shù)來(lái)迭代優(yōu)化P:
Loss function:設(shè)計(jì)如下所示的回歸損失來(lái)監(jiān)督最終的加權(quán)深度,并使用分類損失來(lái)監(jiān)督圖匹配:
實(shí)驗(yàn)結(jié)果
KITTI上的實(shí)驗(yàn)結(jié)果,優(yōu)勢(shì)比較明顯。
可視化:
更多的實(shí)驗(yàn)結(jié)果如下表所示:
消融實(shí)驗(yàn)
DCD可以比基線更準(zhǔn)確地估計(jì)深度。
GMW和邊數(shù)量的消融實(shí)驗(yàn)
關(guān)于DCD和AutoShape的討論
盡管DCD和AutoShape都利用多個(gè)關(guān)鍵點(diǎn)來(lái)估計(jì)目標(biāo)的位置,但存在如下關(guān)鍵差異:
AutoShape直接使用所有2D-3D關(guān)鍵點(diǎn)投影約束來(lái)求解對(duì)象目標(biāo)深度。DCD則從每個(gè)邊緣約束中求解一個(gè)深度候選。因此,DCD的邊緣約束不僅數(shù)量多,而且比關(guān)鍵點(diǎn)約束的階數(shù)更高;
審核編輯:郭婷
-
檢測(cè)器
+關(guān)注
關(guān)注
1文章
864瀏覽量
47688 -
3D
+關(guān)注
關(guān)注
9文章
2878瀏覽量
107548
原文標(biāo)題:ECCV 2022 | 用于單目3D目標(biāo)檢測(cè)的密集約束深度估計(jì)器
文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論