在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

3D場景感知所需要的技術(shù)以及未來發(fā)展的方向

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-08-31 09:59 ? 次閱讀

編者按:本文作者M(jìn)ihir Garimella和Prathik Naidu是斯坦福大學(xué)大二的學(xué)生,他們在這篇文章中總結(jié)了對3D場景感知所需要的技術(shù)以及未來發(fā)展的方向。

假設(shè)你要打造一臺(tái)自動(dòng)駕駛汽車,它需要了解周圍情況。你會(huì)用什么方法讓車子感知周圍的行人、自行車和其他障礙物呢?也許你會(huì)想到用照相機(jī),但是這可能不會(huì)很高效:你需要對3D環(huán)境進(jìn)行拍攝,然后將其壓縮成2D圖像。之后,模型會(huì)重建你需要的3D圖像信息(例如車輛距前方行人的距離)。將3D圖像壓縮的過程會(huì)丟掉很多重要信息,然而之后想再重新拼湊這些信息是很困難的,即使是最先進(jìn)的算法也會(huì)出錯(cuò)。

所以,理想情況下你應(yīng)該可以用3D數(shù)據(jù)對2D景觀進(jìn)行優(yōu)化,可以直接用傳感器對前方障礙進(jìn)行定位,而不是用2D圖像估計(jì)行人或其他交通工具與你的距離。但是這時(shí)又會(huì)有新的問題:我們怎么才能在3D數(shù)據(jù)中識(shí)別目標(biāo)物體呢?例如行人、自行車、汽車等等。傳統(tǒng)的CNN會(huì)直接在2D圖像中辨認(rèn)不同的物體,然后再在3D中調(diào)整。3D感知問題已經(jīng)研究了很久,這篇文章就是對這一工作進(jìn)行大致回顧。

特別的,我們將重點(diǎn)關(guān)注最近能夠?qū)崿F(xiàn)3D物體的分類和語義分割的深度學(xué)習(xí)技術(shù)。我們會(huì)從捕捉、表示3D數(shù)據(jù)的常用方法講起,之后會(huì)展示三種基本的用于表示3D數(shù)據(jù)的深度學(xué)習(xí)方法。最后,我們會(huì)思考未來研究的新方向。

如何捕捉并表示3D數(shù)據(jù)?

很明顯,我們需要能直接在3D數(shù)據(jù)上操作的計(jì)算機(jī)視覺方法,但是這里有三大難題:感知、表示、理解3D數(shù)據(jù)。

感知

捕捉3D數(shù)據(jù)的過程很復(fù)雜,雖然2D相機(jī)價(jià)格便宜、使用廣泛,但是要進(jìn)行3D感知還需要特殊的硬件設(shè)備。

立體視覺利用多相機(jī)在不同方位進(jìn)行拍攝來計(jì)算深度信息

1. 在兩個(gè)或兩個(gè)以上的位置放置相機(jī),捕捉不同場景下的目標(biāo)圖像,然后把對應(yīng)的像素進(jìn)行匹配,計(jì)算不同照片中每個(gè)像素的位置有何不同。這也是人類看世界的方法——我們的眼睛捕捉兩個(gè)不同的畫面,然后大腦根據(jù)左右眼不同角度確定3D場景。立體視覺只需要幾個(gè)普通相機(jī),設(shè)備很簡單,因此吸引了很多使用者。但是,這種方法在進(jìn)行精準(zhǔn)測量或計(jì)算速度時(shí)表現(xiàn)得就不那么好了,因?yàn)橛靡曈X細(xì)節(jié)對圖像之間相對的點(diǎn)進(jìn)行匹配,不僅需要大量計(jì)算力,還會(huì)造成很多錯(cuò)誤。

RGB-D相機(jī)可以輸出一個(gè)有四個(gè)通道的圖像,其中包含了顏色信息和像素深度

2. RGB-D是一種特殊的相機(jī),它不僅能捕捉深度信息(D)還能捕捉圖像顏色(RGB)。而且它還能捕捉到和2D相機(jī)一樣的彩色圖像。大多數(shù)RGB-D傳感器是通過“結(jié)構(gòu)光”或“飛行時(shí)間”進(jìn)行工作。你可能聽過微軟的Kinect或iPhone X的Face ID傳感器中包含RGB-D相機(jī),它們很強(qiáng)大,因?yàn)檫@些傳感器體積小、成本低、速度快。但是,RGB-D相機(jī)經(jīng)常會(huì)在深度輸出上出現(xiàn)很多洞,因?yàn)榍胺奖尘暗恼系K物遮擋或者模式識(shí)別的故障等問題。

LIDAR運(yùn)用幾束激光直接感知環(huán)境的幾何結(jié)構(gòu)

3.LIDAR是對目標(biāo)物體發(fā)射高速激光脈沖,并計(jì)算它們返回傳感器的時(shí)間,類似RGB-D相機(jī)的“飛行時(shí)間”技術(shù),但是LIDAR的探測距離可以更長,能捕捉更多點(diǎn),不容易受其他光源的干擾。目前大多數(shù)自動(dòng)駕駛汽車使用的也是這類傳感器,因?yàn)樗鼈兙_度高、范圍廣并且穩(wěn)定。但是LIDAR通常體積很大、價(jià)格昂貴,許多公司正在開發(fā)更便宜的LIDAR系統(tǒng)。

3D表示

獲取數(shù)據(jù)后,你需要用合適的方法表示出來。這里有四種主流的表示方法:

從左至右:點(diǎn)云;voxel網(wǎng)格;多邊形網(wǎng)格;多角度表示

1.點(diǎn)云是在3D空間中點(diǎn)的集合,每個(gè)點(diǎn)都由一個(gè)坐標(biāo)(xyz)表示,同時(shí)會(huì)有其他特征(例如RGB顏色)。它們都是捕捉到的LIDAR數(shù)據(jù)的原始形式,通常在進(jìn)行下一步處理之前,立體和RGB-D數(shù)據(jù)會(huì)轉(zhuǎn)化成點(diǎn)云形式。

2.Voxel網(wǎng)格由點(diǎn)云演化而來。Voxel就像3D中的像素,我們可以將voxel網(wǎng)格想象成量化的、固定尺寸的點(diǎn)云。盡管點(diǎn)云可以在空間中的任何位置具有無線數(shù)量的點(diǎn)與浮點(diǎn)像素坐標(biāo),但是voxel網(wǎng)格是3D網(wǎng)格,其中的每個(gè)體素(voxel)都有固定的尺寸和獨(dú)立的坐標(biāo)。

3.多邊形網(wǎng)格是一組有共同頂點(diǎn)的多變形表明組成的一個(gè)近似幾何形狀的表面。將點(diǎn)云想象成從連續(xù)集合表面采集的3D點(diǎn)的集合,多邊網(wǎng)格的目的是用一種容易渲染的方法表示出這些表面。雖然最初是為了計(jì)算機(jī)圖形而創(chuàng)建的,多邊形網(wǎng)格也可以用于3D視覺。從點(diǎn)云中獲取多邊形網(wǎng)格的方法有很多,可以參考Kazhdan等人的Poisson surface reconstruction(地址:http://hhoppe.com/poissonrecon.pdf "Poisson surface reconstruction")。

4.多角度表示是從多個(gè)角度捕捉到的、經(jīng)過渲染的多邊形網(wǎng)格的2D圖像集合。僅從多個(gè)相機(jī)中捕捉不同圖像和創(chuàng)建多角度的表示之間的區(qū)別在于,多角度需要搭建一個(gè)完整的3D模型,并且從多個(gè)任意角度進(jìn)行渲染,以完全傳遞潛在的幾何圖像。與上面其他三種表示不同,多角度表示通常將3D數(shù)據(jù)轉(zhuǎn)化成更簡單的形式用于處理可視化。

理解

現(xiàn)在,你已經(jīng)將3D數(shù)據(jù)轉(zhuǎn)化成可讀形式了,你需要?jiǎng)?chuàng)建一個(gè)計(jì)算機(jī)視覺管道理解它。這里的問題是,擴(kuò)展傳統(tǒng)的深度學(xué)習(xí)技術(shù)到3D數(shù)據(jù)上會(huì)很棘手。

通過多角度輸入學(xué)習(xí)

多角度表示是最簡單的將2D深度學(xué)習(xí)應(yīng)用在3D上。將3D感知問題轉(zhuǎn)換成2D感知是很聰明的方法,但是它仍然需要你推理目標(biāo)物體的3D幾何圖形。早期運(yùn)用這一方法的深度學(xué)習(xí)研究是Su等人的多角度CNN,這是一種簡介但是高效的網(wǎng)絡(luò)結(jié)構(gòu),可以從多個(gè)2D圖像中學(xué)習(xí)特征描述。運(yùn)用了這種方法,結(jié)果比單獨(dú)使用2D圖像要好。將單獨(dú)的圖像輸入到經(jīng)過訓(xùn)練的VGG網(wǎng)絡(luò)中,提取最重要的特征,對這些激活映射進(jìn)行池化,然后將信息傳遞到其他卷積層中進(jìn)行特征學(xué)習(xí)。

不過,多角度圖像表示有一些限制。主要問題是我們并不是真正學(xué)習(xí)的是3D,一定量的2D角度圖像并不能真正地估計(jì)3D結(jié)構(gòu)。所以,一些類似語義分割的任務(wù),尤其是復(fù)雜的目標(biāo)和場景,都會(huì)受到特征信息的限制。另外,這種形式的3D數(shù)據(jù)可視化是不可擴(kuò)展的,在計(jì)算上會(huì)受到限制。

用容積表示學(xué)習(xí)

通過voxel網(wǎng)格學(xué)習(xí)解決了多角度表示的主要缺點(diǎn)。voxel網(wǎng)格填補(bǔ)了2D和3D表示之間的差距。Maturana和Scherer的VoxNet(地址:https://www.ri.cmu.edu/pubfiles/2015/9/voxnetmaturanaschereriros15.pdf)是最初用深度學(xué)習(xí)方法在圖像分類上達(dá)到較好結(jié)果的方法。

VoxNet結(jié)構(gòu)

VoxNet的結(jié)構(gòu)非常簡潔,包括兩個(gè)卷積層,一個(gè)最大池化層和兩個(gè)用于計(jì)算輸出分?jǐn)?shù)向量的完全連接層。該網(wǎng)絡(luò)結(jié)構(gòu)更簡單,參數(shù)也更少,但它是從上百個(gè)CNN架構(gòu)中隨機(jī)搜索得到的。

用點(diǎn)云學(xué)習(xí)

PointNet

由于基于voxel的方法有多種限制,最近一些研究開始直接處理原始的點(diǎn)云。Qi等人于2016年提出的PointNet(地址:arxiv.org/pdf/1612.00593.pdf)是首個(gè)處理這種不規(guī)則3D數(shù)據(jù)的方法。然而,如論文作者所說,點(diǎn)云僅僅是一些用xyz坐標(biāo)組合起來的3D表示。另外,網(wǎng)絡(luò)應(yīng)該對點(diǎn)云的變化保持穩(wěn)定,例如旋轉(zhuǎn)、翻轉(zhuǎn)、縮放等等。

PointNet結(jié)構(gòu)

PointNet++

雖然PointNet能達(dá)到較好的效果,但是它的一個(gè)重要缺陷是結(jié)構(gòu)無法捕捉近鄰點(diǎn)之內(nèi)的本地結(jié)構(gòu)。為了解決這個(gè)問題,Qi等人在2017年提出了PointNet++(地址:arxiv.org/pdf/1706.02413.pdf),它是PointNet的升級版,它背后的主要原理是一個(gè)分級的特征學(xué)習(xí)層,主要工作過程有三步,首先它會(huì)對點(diǎn)進(jìn)行采樣,用作局部區(qū)域的中心,之后根據(jù)這些區(qū)域中近鄰點(diǎn)到中心點(diǎn)的距離分組,然后用mini-PointNet對區(qū)域進(jìn)行特征編碼。

未來研究新方向

目前對3D數(shù)據(jù)的處理主要集中在點(diǎn)云表示,除此之外還有一些其他成果。2018年,Wang等人提出的Dynamic Graph CNNs利用基于圖形的深度學(xué)習(xí)方法提高了在點(diǎn)云中的特征提取。

另一方面,一些研究者設(shè)計(jì)了新方法處理點(diǎn)云,Su等人的SPLATNet架構(gòu)就是很典型的例子。作者設(shè)計(jì)了一種全新架構(gòu)和卷積操作器,可以直接在點(diǎn)云上進(jìn)行操作。它的核心思想是將“接受域”的概念轉(zhuǎn)換成不規(guī)則的點(diǎn)云,即使在稀疏空間中也能看到空間信息。

SPLATNet架構(gòu)

第三種有前景的研究防線是擴(kuò)展基礎(chǔ)結(jié)構(gòu),建造更詳細(xì)的網(wǎng)絡(luò)用于3D目標(biāo)檢測。2017年,Qi等人的Frustum Pointns提出了一種新方法,將RGB圖像和點(diǎn)云融合,提高了模型在3D場景中定位的效率。

結(jié)語

過去五年,3D深度學(xué)習(xí)方法從多角度發(fā)展到點(diǎn)云的3D數(shù)據(jù)表示,各種處理方法層出不窮,這些研究結(jié)果都非常有前景,因?yàn)樗鼈兡軌蛘鎸?shí)地用3D表現(xiàn)出現(xiàn)實(shí)世界。

然而,這些進(jìn)步僅僅是開始。目前的工作不僅關(guān)注如何提高算法的精確度和性能,而且還要保證它們的穩(wěn)定性和可擴(kuò)展性。雖然現(xiàn)在的大部分研究都是來自自動(dòng)駕駛的需求,但直接在點(diǎn)云上操作的方法能在3D醫(yī)學(xué)成像VR和室內(nèi)地圖中發(fā)揮很大的作用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2899

    瀏覽量

    107703
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    784

    文章

    13899

    瀏覽量

    166699
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5510

    瀏覽量

    121340

原文標(biāo)題:超越平面像素:3D數(shù)據(jù)的感知與學(xué)習(xí)

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    3D打印技術(shù)未來十大應(yīng)用方向

    本文簡述了了未來3D打印技術(shù)行業(yè)可能的10大應(yīng)用方向
    發(fā)表于 10-04 17:20 ?3997次閱讀
    <b class='flag-5'>3D</b>打印<b class='flag-5'>技術(shù)</b><b class='flag-5'>未來</b>十大應(yīng)用<b class='flag-5'>方向</b>

    3d全息聲音技術(shù)解析

    ,但與此同時(shí),物體飛行時(shí)發(fā)出的聲音卻沒能跟著一起“飛”過來。而3D全息聲音技術(shù)要做到的,就是當(dāng)物體飛到你眼前甚至砸在你臉上時(shí),聲音也同時(shí)在最近處響起——就像生活中的真實(shí)場景一樣。這是目前世界上最為
    發(fā)表于 04-16 10:39

    如何利用3D打印技術(shù)做發(fā)光字

    `3D打印技術(shù)運(yùn)用到廣告標(biāo)識(shí)行業(yè),預(yù)示著廣告制作工藝的由復(fù)雜到簡易化的發(fā)展方向,只要圖形設(shè)計(jì)出來,那就可以3D打印出來,這種優(yōu)勢是任何技術(shù)
    發(fā)表于 10-14 16:56

    頻譜感知技術(shù)研究發(fā)展到了哪一步?未來發(fā)展方向是什么?

    無線網(wǎng)絡(luò)中的頻譜使用信息。從無線網(wǎng)絡(luò)的功能分層角度看,頻譜感知技術(shù)主要涉及物理層和鏈路層,其中物理層主要關(guān)注各種具體的本地檢測算法,而鏈路層主要關(guān)注用戶間的協(xié)作以及感知機(jī)制的控制與優(yōu)
    發(fā)表于 08-02 07:22

    3D傳感器如何為車內(nèi)安全保駕護(hù)航?

    圖像感知技術(shù)公司,此前,他們的3D感知技術(shù)已經(jīng)實(shí)現(xiàn)了穿透不同材料、感知液體,
    發(fā)表于 07-29 07:38

    3D顯示技術(shù)發(fā)展現(xiàn)狀及未來趨勢

    3D行業(yè)的發(fā)展,預(yù)計(jì)2021年收入將達(dá)到250億元。相關(guān)報(bào)告:華經(jīng)產(chǎn)業(yè)研究院發(fā)布的《2020-2025年中國裸眼3D顯示器行業(yè)市場前景預(yù)測及投資戰(zhàn)略研究報(bào)告》四、3D顯示
    發(fā)表于 11-27 16:17

    AR0237IR圖像傳感器推動(dòng)3D成像技術(shù)發(fā)展

    )和Lumentum的VCSEL技術(shù),不同于其他圖像傳感器使用RGB模式生成觀看圖像流并需要另一個(gè)IR模塊來檢測運(yùn)動(dòng)的生動(dòng)性。該方案采用深入感知以及反欺詐和
    發(fā)表于 12-16 16:14

    電視才是3D技術(shù)未來發(fā)展的核心

    在2012美國廣播電視展覽會(huì)(NAB)上,他沒有過多地談?wù)?b class='flag-5'>3D電影,而是語出驚人地預(yù)測,電視才是3D技術(shù)未來發(fā)展的決定因素。
    發(fā)表于 04-23 09:02 ?1297次閱讀

    3d打印的未來發(fā)展方向

    本視頻主要詳細(xì)介紹了3d打印的未來發(fā)展方向,分別是打破尺寸限制、360°打印、打印集成、捆綁和通用。
    的頭像 發(fā)表于 03-26 16:31 ?8769次閱讀

    我國3D打印材料產(chǎn)業(yè)未來發(fā)展分析

    。由于3D打印在裝備制造業(yè)中應(yīng)用較廣,金屬類3D打印材料的需求也變得越來越大,未來我國3D打印材料行業(yè)將逐一解決行業(yè)發(fā)展痛點(diǎn),不斷向更高質(zhì)量
    發(fā)表于 05-10 08:52 ?2887次閱讀
    我國<b class='flag-5'>3D</b>打印材料產(chǎn)業(yè)<b class='flag-5'>未來</b><b class='flag-5'>發(fā)展</b>分析

    什么是3D場景式消費(fèi),新興技術(shù)如何助力發(fā)展

    隨著5G、AI和3D等新興技術(shù)發(fā)展3D場景式消費(fèi)將作為一種全新的購物體驗(yàn)進(jìn)入人們的日常生活中,從傳統(tǒng)的實(shí)體店到現(xiàn)在的電商平臺(tái),線下體驗(yàn)線
    的頭像 發(fā)表于 07-08 11:50 ?2775次閱讀

    什么是3D視覺感知底層技術(shù)全圖?

    “AIOT時(shí)代離不開3D視覺感知底層技術(shù)的支撐,但技術(shù)越往底層深入,攻堅(jiān)難度將越呈指數(shù)級增長。為此,展開3D視覺
    的頭像 發(fā)表于 06-15 09:58 ?3441次閱讀

    3D成像感知的現(xiàn)狀和未來

    來源:大話成像 Yan Ming,Eric 編輯:感知芯視界 隨著科技的迅猛發(fā)展,我們正逐漸邁向一個(gè)數(shù)字化、智能化的未來。在這場革命性的變革中,3D成像和傳感
    的頭像 發(fā)表于 08-21 10:07 ?811次閱讀

    如何實(shí)現(xiàn)高精度的3D感知

    ? 端到端自動(dòng)駕駛是自動(dòng)駕駛技術(shù)的重要發(fā)展方向之一。而要實(shí)現(xiàn)端到端自動(dòng)駕駛,離不開高精度3D信息輸入,因此如何實(shí)現(xiàn)高精度的3D感知尤為關(guān)鍵。
    的頭像 發(fā)表于 10-17 09:53 ?1190次閱讀

    3D HMI應(yīng)用場景發(fā)展趨勢

    人機(jī)交互的革命性趨勢。本文將探討3DHMI設(shè)計(jì)的概念、優(yōu)勢、應(yīng)用場景以及未來發(fā)展趨勢。3DHMI
    的頭像 發(fā)表于 02-19 13:27 ?1275次閱讀
    <b class='flag-5'>3D</b> HMI應(yīng)用<b class='flag-5'>場景</b>和<b class='flag-5'>發(fā)展</b>趨勢
    主站蜘蛛池模板: 俄罗斯女人69xxx| 日本免费在线一区| 一区二区免费在线观看| 97夜夜操| 爽死你个放荡粗暴小淫视频| 欧美日韩不卡码一区二区三区| 午夜一级影院| 欧美日韩亚洲色图| 欧美freesex10一13| 六月丁香婷婷综合| 国产小视频免费在线观看| 欧美伊久线香蕉线新在线| 特黄黄三级视频在线观看| 男人j进入女人j在线视频| 老熟女毛片| 一级a爰片久久毛片| 黑人一区二区三区中文字幕| 国产h在线| 欧美日韩一卡2卡三卡4卡新区 | 欧美成人精品一区二区 | 天堂亚洲网| 一级毛片aaaaaa视频免费看| 午夜理伦| 天堂bt| 色多多在线观看| 快色视频在线观看| 1024人成网站色| 激情五月综合| 一本到卡二卡三卡福利| 亚洲图片综合区另类图片| 欧美在线播放| 91大神大战丝袜美女在线观看| 欧美成人免费网站| 精品午夜久久影视| 自偷自拍亚洲欧美清纯唯美| 伊人久久狼人| 性欧美www| 久久黄色毛片| 国产女人视频| av2014天堂网| 亚洲视频国产|