編者按:本文作者M(jìn)ihir Garimella和Prathik Naidu是斯坦福大學(xué)大二的學(xué)生,他們在這篇文章中總結(jié)了對3D場景感知所需要的技術(shù)以及未來發(fā)展的方向。
假設(shè)你要打造一臺(tái)自動(dòng)駕駛汽車,它需要了解周圍情況。你會(huì)用什么方法讓車子感知周圍的行人、自行車和其他障礙物呢?也許你會(huì)想到用照相機(jī),但是這可能不會(huì)很高效:你需要對3D環(huán)境進(jìn)行拍攝,然后將其壓縮成2D圖像。之后,模型會(huì)重建你需要的3D圖像信息(例如車輛距前方行人的距離)。將3D圖像壓縮的過程會(huì)丟掉很多重要信息,然而之后想再重新拼湊這些信息是很困難的,即使是最先進(jìn)的算法也會(huì)出錯(cuò)。
所以,理想情況下你應(yīng)該可以用3D數(shù)據(jù)對2D景觀進(jìn)行優(yōu)化,可以直接用傳感器對前方障礙進(jìn)行定位,而不是用2D圖像估計(jì)行人或其他交通工具與你的距離。但是這時(shí)又會(huì)有新的問題:我們怎么才能在3D數(shù)據(jù)中識(shí)別目標(biāo)物體呢?例如行人、自行車、汽車等等。傳統(tǒng)的CNN會(huì)直接在2D圖像中辨認(rèn)不同的物體,然后再在3D中調(diào)整。3D感知問題已經(jīng)研究了很久,這篇文章就是對這一工作進(jìn)行大致回顧。
特別的,我們將重點(diǎn)關(guān)注最近能夠?qū)崿F(xiàn)3D物體的分類和語義分割的深度學(xué)習(xí)技術(shù)。我們會(huì)從捕捉、表示3D數(shù)據(jù)的常用方法講起,之后會(huì)展示三種基本的用于表示3D數(shù)據(jù)的深度學(xué)習(xí)方法。最后,我們會(huì)思考未來研究的新方向。
如何捕捉并表示3D數(shù)據(jù)?
很明顯,我們需要能直接在3D數(shù)據(jù)上操作的計(jì)算機(jī)視覺方法,但是這里有三大難題:感知、表示、理解3D數(shù)據(jù)。
感知
捕捉3D數(shù)據(jù)的過程很復(fù)雜,雖然2D相機(jī)價(jià)格便宜、使用廣泛,但是要進(jìn)行3D感知還需要特殊的硬件設(shè)備。
立體視覺利用多相機(jī)在不同方位進(jìn)行拍攝來計(jì)算深度信息
1. 在兩個(gè)或兩個(gè)以上的位置放置相機(jī),捕捉不同場景下的目標(biāo)圖像,然后把對應(yīng)的像素進(jìn)行匹配,計(jì)算不同照片中每個(gè)像素的位置有何不同。這也是人類看世界的方法——我們的眼睛捕捉兩個(gè)不同的畫面,然后大腦根據(jù)左右眼不同角度確定3D場景。立體視覺只需要幾個(gè)普通相機(jī),設(shè)備很簡單,因此吸引了很多使用者。但是,這種方法在進(jìn)行精準(zhǔn)測量或計(jì)算速度時(shí)表現(xiàn)得就不那么好了,因?yàn)橛靡曈X細(xì)節(jié)對圖像之間相對的點(diǎn)進(jìn)行匹配,不僅需要大量計(jì)算力,還會(huì)造成很多錯(cuò)誤。
RGB-D相機(jī)可以輸出一個(gè)有四個(gè)通道的圖像,其中包含了顏色信息和像素深度
2. RGB-D是一種特殊的相機(jī),它不僅能捕捉深度信息(D)還能捕捉圖像顏色(RGB)。而且它還能捕捉到和2D相機(jī)一樣的彩色圖像。大多數(shù)RGB-D傳感器是通過“結(jié)構(gòu)光”或“飛行時(shí)間”進(jìn)行工作。你可能聽過微軟的Kinect或iPhone X的Face ID傳感器中包含RGB-D相機(jī),它們很強(qiáng)大,因?yàn)檫@些傳感器體積小、成本低、速度快。但是,RGB-D相機(jī)經(jīng)常會(huì)在深度輸出上出現(xiàn)很多洞,因?yàn)榍胺奖尘暗恼系K物遮擋或者模式識(shí)別的故障等問題。
LIDAR運(yùn)用幾束激光直接感知環(huán)境的幾何結(jié)構(gòu)
3.LIDAR是對目標(biāo)物體發(fā)射高速激光脈沖,并計(jì)算它們返回傳感器的時(shí)間,類似RGB-D相機(jī)的“飛行時(shí)間”技術(shù),但是LIDAR的探測距離可以更長,能捕捉更多點(diǎn),不容易受其他光源的干擾。目前大多數(shù)自動(dòng)駕駛汽車使用的也是這類傳感器,因?yàn)樗鼈兙_度高、范圍廣并且穩(wěn)定。但是LIDAR通常體積很大、價(jià)格昂貴,許多公司正在開發(fā)更便宜的LIDAR系統(tǒng)。
3D表示
獲取數(shù)據(jù)后,你需要用合適的方法表示出來。這里有四種主流的表示方法:
從左至右:點(diǎn)云;voxel網(wǎng)格;多邊形網(wǎng)格;多角度表示
1.點(diǎn)云是在3D空間中點(diǎn)的集合,每個(gè)點(diǎn)都由一個(gè)坐標(biāo)(xyz)表示,同時(shí)會(huì)有其他特征(例如RGB顏色)。它們都是捕捉到的LIDAR數(shù)據(jù)的原始形式,通常在進(jìn)行下一步處理之前,立體和RGB-D數(shù)據(jù)會(huì)轉(zhuǎn)化成點(diǎn)云形式。
2.Voxel網(wǎng)格由點(diǎn)云演化而來。Voxel就像3D中的像素,我們可以將voxel網(wǎng)格想象成量化的、固定尺寸的點(diǎn)云。盡管點(diǎn)云可以在空間中的任何位置具有無線數(shù)量的點(diǎn)與浮點(diǎn)像素坐標(biāo),但是voxel網(wǎng)格是3D網(wǎng)格,其中的每個(gè)體素(voxel)都有固定的尺寸和獨(dú)立的坐標(biāo)。
3.多邊形網(wǎng)格是一組有共同頂點(diǎn)的多變形表明組成的一個(gè)近似幾何形狀的表面。將點(diǎn)云想象成從連續(xù)集合表面采集的3D點(diǎn)的集合,多邊網(wǎng)格的目的是用一種容易渲染的方法表示出這些表面。雖然最初是為了計(jì)算機(jī)圖形而創(chuàng)建的,多邊形網(wǎng)格也可以用于3D視覺。從點(diǎn)云中獲取多邊形網(wǎng)格的方法有很多,可以參考Kazhdan等人的Poisson surface reconstruction(地址:http://hhoppe.com/poissonrecon.pdf "Poisson surface reconstruction")。
4.多角度表示是從多個(gè)角度捕捉到的、經(jīng)過渲染的多邊形網(wǎng)格的2D圖像集合。僅從多個(gè)相機(jī)中捕捉不同圖像和創(chuàng)建多角度的表示之間的區(qū)別在于,多角度需要搭建一個(gè)完整的3D模型,并且從多個(gè)任意角度進(jìn)行渲染,以完全傳遞潛在的幾何圖像。與上面其他三種表示不同,多角度表示通常將3D數(shù)據(jù)轉(zhuǎn)化成更簡單的形式用于處理可視化。
理解
現(xiàn)在,你已經(jīng)將3D數(shù)據(jù)轉(zhuǎn)化成可讀形式了,你需要?jiǎng)?chuàng)建一個(gè)計(jì)算機(jī)視覺管道理解它。這里的問題是,擴(kuò)展傳統(tǒng)的深度學(xué)習(xí)技術(shù)到3D數(shù)據(jù)上會(huì)很棘手。
通過多角度輸入學(xué)習(xí)
多角度表示是最簡單的將2D深度學(xué)習(xí)應(yīng)用在3D上。將3D感知問題轉(zhuǎn)換成2D感知是很聰明的方法,但是它仍然需要你推理目標(biāo)物體的3D幾何圖形。早期運(yùn)用這一方法的深度學(xué)習(xí)研究是Su等人的多角度CNN,這是一種簡介但是高效的網(wǎng)絡(luò)結(jié)構(gòu),可以從多個(gè)2D圖像中學(xué)習(xí)特征描述。運(yùn)用了這種方法,結(jié)果比單獨(dú)使用2D圖像要好。將單獨(dú)的圖像輸入到經(jīng)過訓(xùn)練的VGG網(wǎng)絡(luò)中,提取最重要的特征,對這些激活映射進(jìn)行池化,然后將信息傳遞到其他卷積層中進(jìn)行特征學(xué)習(xí)。
不過,多角度圖像表示有一些限制。主要問題是我們并不是真正學(xué)習(xí)的是3D,一定量的2D角度圖像并不能真正地估計(jì)3D結(jié)構(gòu)。所以,一些類似語義分割的任務(wù),尤其是復(fù)雜的目標(biāo)和場景,都會(huì)受到特征信息的限制。另外,這種形式的3D數(shù)據(jù)可視化是不可擴(kuò)展的,在計(jì)算上會(huì)受到限制。
用容積表示學(xué)習(xí)
通過voxel網(wǎng)格學(xué)習(xí)解決了多角度表示的主要缺點(diǎn)。voxel網(wǎng)格填補(bǔ)了2D和3D表示之間的差距。Maturana和Scherer的VoxNet(地址:https://www.ri.cmu.edu/pubfiles/2015/9/voxnetmaturanaschereriros15.pdf)是最初用深度學(xué)習(xí)方法在圖像分類上達(dá)到較好結(jié)果的方法。
VoxNet結(jié)構(gòu)
VoxNet的結(jié)構(gòu)非常簡潔,包括兩個(gè)卷積層,一個(gè)最大池化層和兩個(gè)用于計(jì)算輸出分?jǐn)?shù)向量的完全連接層。該網(wǎng)絡(luò)結(jié)構(gòu)更簡單,參數(shù)也更少,但它是從上百個(gè)CNN架構(gòu)中隨機(jī)搜索得到的。
用點(diǎn)云學(xué)習(xí)
PointNet
由于基于voxel的方法有多種限制,最近一些研究開始直接處理原始的點(diǎn)云。Qi等人于2016年提出的PointNet(地址:arxiv.org/pdf/1612.00593.pdf)是首個(gè)處理這種不規(guī)則3D數(shù)據(jù)的方法。然而,如論文作者所說,點(diǎn)云僅僅是一些用xyz坐標(biāo)組合起來的3D表示。另外,網(wǎng)絡(luò)應(yīng)該對點(diǎn)云的變化保持穩(wěn)定,例如旋轉(zhuǎn)、翻轉(zhuǎn)、縮放等等。
PointNet結(jié)構(gòu)
PointNet++
雖然PointNet能達(dá)到較好的效果,但是它的一個(gè)重要缺陷是結(jié)構(gòu)無法捕捉近鄰點(diǎn)之內(nèi)的本地結(jié)構(gòu)。為了解決這個(gè)問題,Qi等人在2017年提出了PointNet++(地址:arxiv.org/pdf/1706.02413.pdf),它是PointNet的升級版,它背后的主要原理是一個(gè)分級的特征學(xué)習(xí)層,主要工作過程有三步,首先它會(huì)對點(diǎn)進(jìn)行采樣,用作局部區(qū)域的中心,之后根據(jù)這些區(qū)域中近鄰點(diǎn)到中心點(diǎn)的距離分組,然后用mini-PointNet對區(qū)域進(jìn)行特征編碼。
未來研究新方向
目前對3D數(shù)據(jù)的處理主要集中在點(diǎn)云表示,除此之外還有一些其他成果。2018年,Wang等人提出的Dynamic Graph CNNs利用基于圖形的深度學(xué)習(xí)方法提高了在點(diǎn)云中的特征提取。
另一方面,一些研究者設(shè)計(jì)了新方法處理點(diǎn)云,Su等人的SPLATNet架構(gòu)就是很典型的例子。作者設(shè)計(jì)了一種全新架構(gòu)和卷積操作器,可以直接在點(diǎn)云上進(jìn)行操作。它的核心思想是將“接受域”的概念轉(zhuǎn)換成不規(guī)則的點(diǎn)云,即使在稀疏空間中也能看到空間信息。
SPLATNet架構(gòu)
第三種有前景的研究防線是擴(kuò)展基礎(chǔ)結(jié)構(gòu),建造更詳細(xì)的網(wǎng)絡(luò)用于3D目標(biāo)檢測。2017年,Qi等人的Frustum Pointns提出了一種新方法,將RGB圖像和點(diǎn)云融合,提高了模型在3D場景中定位的效率。
結(jié)語
過去五年,3D深度學(xué)習(xí)方法從多角度發(fā)展到點(diǎn)云的3D數(shù)據(jù)表示,各種處理方法層出不窮,這些研究結(jié)果都非常有前景,因?yàn)樗鼈兡軌蛘鎸?shí)地用3D表現(xiàn)出現(xiàn)實(shí)世界。
然而,這些進(jìn)步僅僅是開始。目前的工作不僅關(guān)注如何提高算法的精確度和性能,而且還要保證它們的穩(wěn)定性和可擴(kuò)展性。雖然現(xiàn)在的大部分研究都是來自自動(dòng)駕駛的需求,但直接在點(diǎn)云上操作的方法能在3D醫(yī)學(xué)成像、VR和室內(nèi)地圖中發(fā)揮很大的作用。
-
3D
+關(guān)注
關(guān)注
9文章
2899瀏覽量
107703 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
784文章
13899瀏覽量
166699 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5510瀏覽量
121340
原文標(biāo)題:超越平面像素:3D數(shù)據(jù)的感知與學(xué)習(xí)
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論