CVPR 2019的文章出來了,今天聊聊雙目的 3D object detection。這是一篇來自 DJI (大疆)與港科大合作的文章《Stereo R-CNN based 3D Object Detection for Autonomous Driving》,作者分別是 Peiliang Li,陳曉智(DJI,MV3D的作者)和港科大的 Shaojie Shen 老師。
論文鏈接,文中稱代碼將開源
https://arxiv.org/abs/1902.09738
1. Introduction
2018 年在 3D 檢測方面的文章層出不窮,也是各個公司無人駕駛或者機器人學部門關注的重點,包含了點云,點云圖像融合,以及單目 3D 檢測,但是在雙目視覺方面的貢獻還是比較少,自從 3DOP 之后。
總體來說,圖像的檢測距離、圖像的 density 以及 context 信息,在 3D檢測中是不可或缺的一部分,因此作者在這篇文章中挖掘了雙目視覺做 3D檢測的的潛力。
2.Network Structure
整個網絡結構分為以下的幾個部分。
1). RPN部分,作者將左右目的圖像通過stereoRPN產生相應的proposal。具體來說stereo RPN是在FPN的基礎上,將每個FPN的scale上的feature map的進行concat的結構。
2). Stereo Regression,在RPN之后,通過RoiAlign的操作,得到each FPN scale下的left and right Roi features,然后concat相應的特征,經過fc層得到object class, stereo bounding boxes dimension還有viewpoint angle(下圖所示) 的值。這里解釋一下viewpoint,根據Figure3.,假定物
3). keypoint的檢測。這里采用的是類似于mask rcnn的結構進行關鍵點的預測。文章定義了4個3D semantic keypoint,即車輛底部的3D corner point,同時將這4個點投影到圖像,得到4個perspective keypoint,這4個點在3D bbox regression起到一定的作用,我們在下一部分再介紹。
在keypoint檢測任務中,作者利用RoiAlign得到的14*14feature map,經過conv,deconv最后得到6 * 28 * 28的feature map,注意到只有keypoint的u坐標會提供2D Box以外的信息,因此,處于減少計算量的目的,作者aggregate每一列的feature,得到6 * 28的output,其中,前4個channel代表4個keypoint被投影到相應的u坐標的概率,后面兩個channel代表是left or right boundary上的keypoint的概率。
3. 3D Box Estimation
通過網絡回歸得到的 2D box 的 dimension,viewpoint,還有 keypoint,我們可以通過一定的方式得到3D box的位置。定義 3D box 的狀態x = [x, y, z, θ]。
Figure 5,給出了一些稀疏的約束。包含了特征點的映射過程。這里也體現了keypoint的用處。
上述公式即為約束方程,因此可以通過高斯牛頓的方法直接求解。具體可以參考論文的引文17。這里我們簡單證明一下第一個公式。注意,這里的假設都是u,v坐標都已經經過相機內參的歸一化了。
4. Dense 3D Box Alignment
這里就回到shenshaojie老師比較熟悉的BA的過程了,由于part 3僅僅只是一個object level的深度,這里文章利用最小化左右視圖的RGB的值,得到一個更加refine的過程。定義如下的誤差函數
求解可以利用G20或者ceres也可以完成。整個alignment過程其實相對于深度的直接預測是更加robust的,因為這種預測方法,避免了全局的depth estimation中的一些invalid的pixel引起的ill problem的問題。
5. experiment
作者在實驗這塊達到了雙目視覺的state-of-the-art,同時對于各個module也做了很充足的實驗(這塊請查看原論文)。
下面是圖a、b、c為處理結果示例,每幅圖像內部上中下三部分,分別為左眼圖像檢測結果、右眼圖像檢測結果、鳥瞰視圖檢測結果。
圖a
圖b
圖c
6. Insight
最后談談文章給我的一些 insights,首先,整個文章將傳統的 detection 的任務,結合了 geometry constraint 優化的方式,做到了3D位置的估計,想法其實在不少文章sfm-learner之類的文章已經有體現過了,不過用在3Ddetection上面還是比較新穎,避免了做雙目匹配估計深度的過程。也屬于slam跟深度學習結合的一篇文章,感興趣的朋友可以繼續看看(下面鏈接)相關文章
arxiv.org/abs/1802.0552
談幾點我個人意義上的不足吧,首先耗時過程 0.28s 的 inference time,不過可能作者的重點也不在這個方面,特征的利用上可以更加有效率,在實現上。其次,能不能采用deep3dbox的方式預測dimension,然后添加入優化項呢...總體來說,是一篇不錯的值得一讀的文章!
-
機器人
+關注
關注
211文章
28526瀏覽量
207581 -
3D
+關注
關注
9文章
2894瀏覽量
107664 -
圖像檢測
+關注
關注
0文章
34瀏覽量
11893
原文標題:大疆、港科大聯手!雙目3D目標檢測實驗效果大放送 | CVPR 2019
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論