完美世界辰东,小说阅读网站,遮天辰东小说

編者按：本文作者M(jìn)ihir Garimella和Prathik Naidu是斯坦福大學(xué)大二的學(xué)生，他們在這篇文章中總結(jié)了對3D場景感知所需要的技術(shù)以及未來發(fā)展的方向。

假設(shè)你要打造一臺(tái)自動(dòng)駕駛汽車，它需要了解周圍情況。你會(huì)用什么方法讓車子感知周圍的行人、自行車和其他障礙物呢？也許你會(huì)想到用照相機(jī)，但是這可能不會(huì)很高效：你需要對3D環(huán)境進(jìn)行拍攝，然后將其壓縮成2D圖像。之后，模型會(huì)重建你需要的3D圖像信息（例如車輛距前方行人的距離）。將3D圖像壓縮的過程會(huì)丟掉很多重要信息，然而之后想再重新拼湊這些信息是很困難的，即使是最先進(jìn)的算法也會(huì)出錯(cuò)。

所以，理想情況下你應(yīng)該可以用3D數(shù)據(jù)對2D景觀進(jìn)行優(yōu)化，可以直接用傳感器對前方障礙進(jìn)行定位，而不是用2D圖像估計(jì)行人或其他交通工具與你的距離。但是這時(shí)又會(huì)有新的問題：我們怎么才能在3D數(shù)據(jù)中識(shí)別目標(biāo)物體呢？例如行人、自行車、汽車等等。傳統(tǒng)的CNN會(huì)直接在2D圖像中辨認(rèn)不同的物體，然后再在3D中調(diào)整。3D感知問題已經(jīng)研究了很久，這篇文章就是對這一工作進(jìn)行大致回顧。

特別的，我們將重點(diǎn)關(guān)注最近能夠?qū)崿F(xiàn)3D物體的分類和語義分割的深度學(xué)習(xí)技術(shù)。我們會(huì)從捕捉、表示3D數(shù)據(jù)的常用方法講起，之后會(huì)展示三種基本的用于表示3D數(shù)據(jù)的深度學(xué)習(xí)方法。最后，我們會(huì)思考未來研究的新方向。

如何捕捉并表示3D數(shù)據(jù)？

很明顯，我們需要能直接在3D數(shù)據(jù)上操作的計(jì)算機(jī)視覺方法，但是這里有三大難題：感知、表示、理解3D數(shù)據(jù)。

感知

捕捉3D數(shù)據(jù)的過程很復(fù)雜，雖然2D相機(jī)價(jià)格便宜、使用廣泛，但是要進(jìn)行3D感知還需要特殊的硬件設(shè)備。

立體視覺利用多相機(jī)在不同方位進(jìn)行拍攝來計(jì)算深度信息

1. 在兩個(gè)或兩個(gè)以上的位置放置相機(jī)，捕捉不同場景下的目標(biāo)圖像，然后把對應(yīng)的像素進(jìn)行匹配，計(jì)算不同照片中每個(gè)像素的位置有何不同。這也是人類看世界的方法——我們的眼睛捕捉兩個(gè)不同的畫面，然后大腦根據(jù)左右眼不同角度確定3D場景。立體視覺只需要幾個(gè)普通相機(jī)，設(shè)備很簡單，因此吸引了很多使用者。但是，這種方法在進(jìn)行精準(zhǔn)測量或計(jì)算速度時(shí)表現(xiàn)得就不那么好了，因?yàn)橛靡曈X細(xì)節(jié)對圖像之間相對的點(diǎn)進(jìn)行匹配，不僅需要大量計(jì)算力，還會(huì)造成很多錯(cuò)誤。

RGB-D相機(jī)可以輸出一個(gè)有四個(gè)通道的圖像，其中包含了顏色信息和像素深度

2. RGB-D是一種特殊的相機(jī)，它不僅能捕捉深度信息（D）還能捕捉圖像顏色（RGB）。而且它還能捕捉到和2D相機(jī)一樣的彩色圖像。大多數(shù)RGB-D傳感器是通過“結(jié)構(gòu)光”或“飛行時(shí)間”進(jìn)行工作。你可能聽過微軟的Kinect或iPhone X的Face ID傳感器中包含RGB-D相機(jī)，它們很強(qiáng)大，因?yàn)檫@些傳感器體積小、成本低、速度快。但是，RGB-D相機(jī)經(jīng)常會(huì)在深度輸出上出現(xiàn)很多洞，因?yàn)榍胺奖尘暗恼系K物遮擋或者模式識(shí)別的故障等問題。

LIDAR運(yùn)用幾束激光直接感知環(huán)境的幾何結(jié)構(gòu)

3.LIDAR是對目標(biāo)物體發(fā)射高速激光脈沖，并計(jì)算它們返回傳感器的時(shí)間，類似RGB-D相機(jī)的“飛行時(shí)間”技術(shù)，但是LIDAR的探測距離可以更長，能捕捉更多點(diǎn)，不容易受其他光源的干擾。目前大多數(shù)自動(dòng)駕駛汽車使用的也是這類傳感器，因?yàn)樗鼈兙_度高、范圍廣并且穩(wěn)定。但是LIDAR通常體積很大、價(jià)格昂貴，許多公司正在開發(fā)更便宜的LIDAR系統(tǒng)。

3D表示

獲取數(shù)據(jù)后，你需要用合適的方法表示出來。這里有四種主流的表示方法：

從左至右：點(diǎn)云；voxel網(wǎng)格；多邊形網(wǎng)格；多角度表示

1.點(diǎn)云是在3D空間中點(diǎn)的集合，每個(gè)點(diǎn)都由一個(gè)坐標(biāo)（xyz）表示，同時(shí)會(huì)有其他特征（例如RGB顏色）。它們都是捕捉到的LIDAR數(shù)據(jù)的原始形式，通常在進(jìn)行下一步處理之前，立體和RGB-D數(shù)據(jù)會(huì)轉(zhuǎn)化成點(diǎn)云形式。

2.Voxel網(wǎng)格由點(diǎn)云演化而來。Voxel就像3D中的像素，我們可以將voxel網(wǎng)格想象成量化的、固定尺寸的點(diǎn)云。盡管點(diǎn)云可以在空間中的任何位置具有無線數(shù)量的點(diǎn)與浮點(diǎn)像素坐標(biāo)，但是voxel網(wǎng)格是3D網(wǎng)格，其中的每個(gè)體素（voxel）都有固定的尺寸和獨(dú)立的坐標(biāo)。

3.多邊形網(wǎng)格是一組有共同頂點(diǎn)的多變形表明組成的一個(gè)近似幾何形狀的表面。將點(diǎn)云想象成從連續(xù)集合表面采集的3D點(diǎn)的集合，多邊網(wǎng)格的目的是用一種容易渲染的方法表示出這些表面。雖然最初是為了計(jì)算機(jī)圖形而創(chuàng)建的，多邊形網(wǎng)格也可以用于3D視覺。從點(diǎn)云中獲取多邊形網(wǎng)格的方法有很多，可以參考Kazhdan等人的Poisson surf ace reconstruction（地址：http://hhoppe.com/poissonrecon.pdf "Poisson surface reconstruction"）。

4.多角度表示是從多個(gè)角度捕捉到的、經(jīng)過渲染的多邊形網(wǎng)格的2D圖像集合。僅從多個(gè)相機(jī)中捕捉不同圖像和創(chuàng)建多角度的表示之間的區(qū)別在于，多角度需要搭建一個(gè)完整的3D模型，并且從多個(gè)任意角度進(jìn)行渲染，以完全傳遞潛在的幾何圖像。與上面其他三種表示不同，多角度表示通常將3D數(shù)據(jù)轉(zhuǎn)化成更簡單的形式用于處理可視化。

理解

現(xiàn)在，你已經(jīng)將3D數(shù)據(jù)轉(zhuǎn)化成可讀形式了，你需要?jiǎng)?chuàng)建一個(gè)計(jì)算機(jī)視覺管道理解它。這里的問題是，擴(kuò)展傳統(tǒng)的深度學(xué)習(xí)技術(shù)到3D數(shù)據(jù)上會(huì)很棘手。

通過多角度輸入學(xué)習(xí)

多角度表示是最簡單的將2D深度學(xué)習(xí)應(yīng)用在3D上。將3D感知問題轉(zhuǎn)換成2D感知是很聰明的方法，但是它仍然需要你推理目標(biāo)物體的3D幾何圖形。早期運(yùn)用這一方法的深度學(xué)習(xí)研究是Su等人的多角度CNN，這是一種簡介但是高效的網(wǎng)絡(luò)結(jié)構(gòu)，可以從多個(gè)2D圖像中學(xué)習(xí)特征描述。運(yùn)用了這種方法，結(jié)果比單獨(dú)使用2D圖像要好。將單獨(dú)的圖像輸入到經(jīng)過訓(xùn)練的VGG網(wǎng)絡(luò)中，提取最重要的特征，對這些激活映射進(jìn)行池化，然后將信息傳遞到其他卷積層中進(jìn)行特征學(xué)習(xí)。

不過，多角度圖像表示有一些限制。主要問題是我們并不是真正學(xué)習(xí)的是3D，一定量的2D角度圖像并不能真正地估計(jì)3D結(jié)構(gòu)。所以，一些類似語義分割的任務(wù)，尤其是復(fù)雜的目標(biāo)和場景，都會(huì)受到特征信息的限制。另外，這種形式的3D數(shù)據(jù)可視化是不可擴(kuò)展的，在計(jì)算上會(huì)受到限制。

用容積表示學(xué)習(xí)

通過voxel網(wǎng)格學(xué)習(xí)解決了多角度表示的主要缺點(diǎn)。voxel網(wǎng)格填補(bǔ)了2D和3D表示之間的差距。Maturana和Scherer的VoxNet（地址：https://www.ri.cmu.edu/pubfiles/2015/9/voxnetmaturanaschereriros15.pdf）是最初用深度學(xué)習(xí)方法在圖像分類上達(dá)到較好結(jié)果的方法。

VoxNet結(jié)構(gòu)

VoxNet的結(jié)構(gòu)非常簡潔，包括兩個(gè)卷積層，一個(gè)最大池化層和兩個(gè)用于計(jì)算輸出分?jǐn)?shù)向量的完全連接層。該網(wǎng)絡(luò)結(jié)構(gòu)更簡單，參數(shù)也更少，但它是從上百個(gè)CNN架構(gòu)中隨機(jī)搜索得到的。

用點(diǎn)云學(xué)習(xí)

PointNet

由于基于voxel的方法有多種限制，最近一些研究開始直接處理原始的點(diǎn)云。Qi等人于2016年提出的PointNet（地址：arxiv.org/pdf/1612.00593.pdf）是首個(gè)處理這種不規(guī)則3D數(shù)據(jù)的方法。然而，如論文作者所說，點(diǎn)云僅僅是一些用xyz坐標(biāo)組合起來的3D表示。另外，網(wǎng)絡(luò)應(yīng)該對點(diǎn)云的變化保持穩(wěn)定，例如旋轉(zhuǎn)、翻轉(zhuǎn)、縮放等等。

PointNet結(jié)構(gòu)

PointNet++

雖然PointNet能達(dá)到較好的效果，但是它的一個(gè)重要缺陷是結(jié)構(gòu)無法捕捉近鄰點(diǎn)之內(nèi)的本地結(jié)構(gòu)。為了解決這個(gè)問題，Qi等人在2017年提出了PointNet++（地址：arxiv.org/pdf/1706.02413.pdf），它是PointNet的升級版，它背后的主要原理是一個(gè)分級的特征學(xué)習(xí)層，主要工作過程有三步，首先它會(huì)對點(diǎn)進(jìn)行采樣，用作局部區(qū)域的中心，之后根據(jù)這些區(qū)域中近鄰點(diǎn)到中心點(diǎn)的距離分組，然后用mini-PointNet對區(qū)域進(jìn)行特征編碼。

未來研究新方向

目前對3D數(shù)據(jù)的處理主要集中在點(diǎn)云表示，除此之外還有一些其他成果。2018年，Wang等人提出的Dynamic Graph CNNs利用基于圖形的深度學(xué)習(xí)方法提高了在點(diǎn)云中的特征提取。

另一方面，一些研究者設(shè)計(jì)了新方法處理點(diǎn)云，Su等人的SPLATNet架構(gòu)就是很典型的例子。作者設(shè)計(jì)了一種全新架構(gòu)和卷積操作器，可以直接在點(diǎn)云上進(jìn)行操作。它的核心思想是將“接受域”的概念轉(zhuǎn)換成不規(guī)則的點(diǎn)云，即使在稀疏空間中也能看到空間信息。

SPLATNet架構(gòu)

第三種有前景的研究防線是擴(kuò)展基礎(chǔ)結(jié)構(gòu)，建造更詳細(xì)的網(wǎng)絡(luò)用于3D目標(biāo)檢測。2017年，Qi等人的Frustum Pointns提出了一種新方法，將RGB圖像和點(diǎn)云融合，提高了模型在3D場景中定位的效率。

結(jié)語

過去五年，3D深度學(xué)習(xí)方法從多角度發(fā)展到點(diǎn)云的3D數(shù)據(jù)表示，各種處理方法層出不窮，這些研究結(jié)果都非常有前景，因?yàn)樗鼈兡軌蛘鎸?shí)地用3D表現(xiàn)出現(xiàn)實(shí)世界。

然而，這些進(jìn)步僅僅是開始。目前的工作不僅關(guān)注如何提高算法的精確度和性能，而且還要保證它們的穩(wěn)定性和可擴(kuò)展性。雖然現(xiàn)在的大部分研究都是來自自動(dòng)駕駛的需求，但直接在點(diǎn)云上操作的方法能在3D醫(yī)學(xué)成像、VR和室內(nèi)地圖中發(fā)揮很大的作用。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴