Google人工智能與機(jī)器學(xué)習(xí)首席科學(xué)家李飛飛在Google I/O開發(fā)者大會(huì)表示人工智能將成為“第四次工業(yè)革命的驅(qū)動(dòng)力”,它將改變?nèi)祟惿睢⒐ぷ骱蜏贤ǖ姆绞健T谌斯ぶ悄艿娜齻€(gè)階段“弱人工智能—強(qiáng)人工智能—超人工智能”的發(fā)展中,視覺信息的獲取是必不可少的,機(jī)器從對(duì)物體的識(shí)別到場(chǎng)景的理解都必須先獲取其三維信息以及位置關(guān)系。三維視覺將成為人工智能的“殺手級(jí)應(yīng)用”。
在過去十年間,人類在對(duì)圖像識(shí)別和圖像標(biāo)注等基礎(chǔ)視覺領(lǐng)域已經(jīng)取得了重大進(jìn)展,基于這種二維圖像視覺在諸如人臉識(shí)別、工業(yè)檢測(cè)、安防以及汽車ADAS等方面得到了廣泛的應(yīng)用,成為人工智能的一些重要落地應(yīng)用。隨著人工智能的發(fā)展,二維信息無法滿足對(duì)真實(shí)場(chǎng)景的充分理解,所以各個(gè)大廠都在著力研究三維視覺的技術(shù),如Intel的RealSense、Apple的TrueDepth,以及諸多廠家面向無人駕駛的多線激光雷達(dá)等,這些技術(shù)都在幫助機(jī)器獲取一個(gè)至關(guān)重要信息——深度信息,來實(shí)現(xiàn)三維人臉識(shí)別、手勢(shì)識(shí)別、獲知物體間的空間關(guān)系,以及視覺導(dǎo)航、路徑規(guī)劃、主動(dòng)避障等工作。
三維視覺在強(qiáng)人工智能階段必將是不可獲取的組成部分,是機(jī)器智能和企業(yè)變革的重要技術(shù)。接下來我們就三維視覺的技術(shù)方案給做一個(gè)系統(tǒng)介紹。
其中三角測(cè)距中的非編碼方式的方案常見于工業(yè)檢測(cè)領(lǐng)域,這種方案我們暫且不討論。我們?cè)谶@一期著重討論其它幾種方式的近距離三維視覺方案。
近距離三維感知設(shè)備我們稱之為深度相機(jī),其中雙目相機(jī)即是利用雙攝像頭模擬人眼,通過計(jì)算空間中同一個(gè)物體在兩個(gè)相機(jī)成像的視差來獲得物體離相機(jī)的距離。
而ToF(Time of Flight)即飛行時(shí)間法,其測(cè)距原理是通過連續(xù)發(fā)射經(jīng)過調(diào)制的特定頻率的光脈沖到被觀測(cè)物體上,然后接收從物體反射回去的光脈沖,通過探測(cè)光脈沖的飛行(往返)時(shí)間來計(jì)算被測(cè)物體離相機(jī)的距離。
三角法測(cè)距中的采用編碼方式的方案業(yè)內(nèi)均定義為結(jié)構(gòu)光方式。結(jié)構(gòu)光法不依賴于物體本身的顏色和紋理,是采用主動(dòng)投影編碼圖案(比如散斑、條紋光等)的方法來實(shí)現(xiàn)快速魯棒的匹配特征點(diǎn),能夠獲得較高的精度,也大大擴(kuò)展了適用范圍。
蘋果iPhone X的“齊劉海”——TrueDepth系統(tǒng)
iPhone X通過前置點(diǎn)陣投影器(也就是結(jié)構(gòu)光投影儀)將超過30000個(gè)肉眼不可見的光點(diǎn)(紅外激光散斑點(diǎn))投影到人臉,再根據(jù)紅外鏡頭接收到的反射光點(diǎn),計(jì)算得到人臉三維圖。
這種空間編碼方式,是向空間投射了單幅隨機(jī)的激光衍射斑點(diǎn),但是由于這些點(diǎn)并不能覆蓋空間上所有的區(qū)域,勢(shì)必在某些位置無法獲取到三維信息,導(dǎo)致其精度是有一定限制的,通常為毫米級(jí)精度,這也是為什么iPhone X只是獲取了人臉的大致模型,在其FaceID應(yīng)用中實(shí)際上只是應(yīng)用了結(jié)構(gòu)光方案判斷解鎖手機(jī)的是一個(gè)真實(shí)的人,而非平面照片或視頻,作為一種活體判斷防止被攻擊破解的手段。
這類散斑結(jié)構(gòu)光的方案被國(guó)內(nèi)奧比中光、華捷艾米等企業(yè)采用。主要應(yīng)用于體感交互、手勢(shì)識(shí)別、人臉識(shí)別活體檢測(cè)等領(lǐng)域。
那是否有方案可以實(shí)現(xiàn)高精度的三維數(shù)據(jù)呢?答案是肯定的。這就是我們接下來要講的動(dòng)態(tài)結(jié)構(gòu)光的時(shí)間編碼方案,此種方案的深度相機(jī)的原理如下:
它同樣由一個(gè)攝像機(jī)和一個(gè)結(jié)構(gòu)光投影儀組成,結(jié)構(gòu)光投影儀向被測(cè)物體投射多組明暗相間的光柵圖像(隨時(shí)間可調(diào)制),攝像機(jī)同時(shí)拍攝經(jīng)被測(cè)物體表面調(diào)制而變形的多組光柵圖像,通過一定算法計(jì)算出被測(cè)物體的三維數(shù)據(jù)。
這種動(dòng)態(tài)結(jié)構(gòu)光方案的三維視覺其實(shí)在工業(yè)界早有應(yīng)用,主要應(yīng)用在逆向工程、三維檢測(cè)、三維建模等領(lǐng)域,這就是傳統(tǒng)的三維掃描儀,既然將它稱為儀器,也就可想而知其體積通常比較大,價(jià)格也很昂貴。
那是否存在一種深度相機(jī)方案,其精度高,體積小,價(jià)格也不那么高呢?答案也是肯定的。這個(gè)就是MEMS微振鏡的方案(MEMS:微機(jī)電系統(tǒng))。MEMS微振鏡是一種將可動(dòng)結(jié)構(gòu)芯片化的執(zhí)行器,工作時(shí)芯片內(nèi)部的鏡面可以高速擺動(dòng),以實(shí)現(xiàn)激光束的高速掃描。
基于MEMS微振鏡的深度相機(jī)與傳統(tǒng)的三維掃描儀最大的區(qū)別是結(jié)構(gòu)光投影方式上,三維掃描儀采用DLP、LCOS等進(jìn)行動(dòng)態(tài)結(jié)構(gòu)光的投影,而此深度相機(jī)是采用MEMS微振鏡與激光來進(jìn)行掃描投影。
采用MEMS微振鏡的投影方式,不僅克服了體積和成本上的缺點(diǎn),同時(shí)由于這種投影系統(tǒng)是激光掃描式,投影并無光學(xué)放大鏡頭,也就沒有焦距的概念,是一個(gè)無需調(diào)焦的系統(tǒng)(free-focus projector),這也就使得基于MEMS微振鏡深度相機(jī)的工作范圍要比三維掃描儀要大很多。
基于MEMS微振鏡的深度相機(jī)可以實(shí)現(xiàn)亞毫米級(jí),甚至更高的深度精度,相比較同樣小體積的散斑靜態(tài)結(jié)構(gòu)光方案的深度相機(jī),精度提升有至少一個(gè)數(shù)量級(jí)。而相比同樣精度的三維掃描儀,其體積小、重量輕、無需調(diào)焦等優(yōu)勢(shì)特點(diǎn)擴(kuò)展了高精度三維視覺的應(yīng)用場(chǎng)景。
以下將結(jié)構(gòu)光的三維視覺方案做一個(gè)綜合對(duì)比:
MEMS深度相機(jī)所采集的亞毫米精度數(shù)據(jù)可以滿足三維人臉識(shí)別需求,實(shí)現(xiàn)真正用三維數(shù)據(jù)來作為識(shí)別判定依據(jù)。而非像iPhoneX中三維信息只能用于活體判斷,也避免出現(xiàn)如新聞中所報(bào)道的母子二人均可解鎖iPhone X的情況。
同時(shí)這種高精度深度相機(jī)所采用的MEMS微振鏡尺寸通常只有幾個(gè)毫米,功耗也只有幾十毫瓦,非常適合集成于如智能手機(jī)、平板電腦等便攜式的設(shè)備中,為其增加三維人臉識(shí)別、三維掃描建模等功能。目前采用這種技術(shù)方案的國(guó)內(nèi)外廠家有Intel的RealSense,知微傳感(Zhisensor)的Argus等。
隨著人工智能對(duì)視覺傳感器的需求越來越高,高精度的三維視覺產(chǎn)品也將會(huì)越來越普及,在不遠(yuǎn)的將來,機(jī)器擁有比人類更敏銳的視覺感知的確是完全可能的。
-
iPhone X
+關(guān)注
關(guān)注
0文章
79瀏覽量
6409 -
三維視覺
+關(guān)注
關(guān)注
1文章
17瀏覽量
1768
原文標(biāo)題:比iPhone X更牛X的三維視覺技術(shù)
文章出處:【微信號(hào):MEMSensor,微信公眾號(hào):MEMS】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論