近日,第 N 次在公開場合 diss 激光雷達(dá)的馬斯克,再一次讓自動(dòng)駕駛圈對無人車不同的傳感器應(yīng)用方案展開了熱議。
實(shí)際上,如果站在馬斯克的角度,我們其實(shí)不難理解他對激光雷達(dá)的「痛恨心理」。
畢竟特斯拉是一家面向普通消費(fèi)者賣車的企業(yè),而不是一家賣自動(dòng)駕駛技術(shù)和解決方案的公司。
在至少 3 年內(nèi),無論是從成本、技術(shù)可靠性、安全性、美觀性甚至是用戶對自動(dòng)駕駛的信任度和品味來看,大多數(shù)車企的量產(chǎn)車型,都不會(huì)把激光雷達(dá)納入考慮范疇。
當(dāng)然,根據(jù)馬斯克說話常常打臉的經(jīng)典表現(xiàn)來看,或許在幾年后他會(huì)自己站出來反駁自己堅(jiān)持的觀點(diǎn)。
事實(shí)上,在「自動(dòng)駕駛汽車究竟應(yīng)該用不用激光雷達(dá)」這個(gè)問題上長時(shí)間的爭論不休,衍生出了「激光雷達(dá)派」與「純計(jì)算機(jī)視覺派」。
目前,一個(gè)被激光雷達(dá)派以及大眾普遍接受的觀點(diǎn)是,考慮到純視覺算法在數(shù)據(jù)形式和精度上的不足,L3 級以上的自動(dòng)駕駛乘用車必須要采用激光雷達(dá)。
當(dāng)然,從谷歌 Waymo、通用 Cruise,再到百度阿波羅和國內(nèi)的 Pony.ai、文遠(yuǎn)知行等自稱 L4 級自動(dòng)駕駛乘用車解決方案的公司,車頂上的激光雷達(dá)一直都非常扎眼。
而「計(jì)算機(jī)視覺派」的重要組成部分則是自動(dòng)駕駛技術(shù)解決方案初創(chuàng)公司,但這個(gè)解決方案到底是多高的級別,其實(shí)目前沒有確切的定論。
通常情況下,「昂貴的成本」和「技術(shù)能力」是眾多車企與計(jì)算機(jī)視覺技術(shù)公司反對采用激光雷達(dá)的主要理由。
譬如作為一家主打攝像頭方案的技術(shù)創(chuàng)業(yè)公司,2017 年 AutoX 的「炫技首秀」就是讓一輛只搭載 7 個(gè)攝像頭的林肯 MKZ 跑在普通公路的車道上。雖然后來受到了來自激光雷達(dá)派的「反擊」,其創(chuàng)始人兼 CEO 肖健雄也一直堅(jiān)持以攝像頭為主的傳感器方案,
此外,部分高精地圖創(chuàng)業(yè)公司也強(qiáng)調(diào)從成本出發(fā),采用低成本的攝像頭方案采集高精數(shù)據(jù)。
綜合來看,截至目前自動(dòng)駕駛?cè)?nèi)最主流的觀點(diǎn)雖然是「該有的,一個(gè)都不能少」,但不難看出,做車廠的生意,對于計(jì)算機(jī)視覺公司來說,暫時(shí)性拋開激光雷達(dá)是個(gè)還不錯(cuò)的主意;
而另一層面,對于計(jì)算機(jī)視覺工程師來說,想要在高級別自動(dòng)駕駛解決方案上擺脫激光雷達(dá),就要持續(xù)研究和驗(yàn)證純視覺技術(shù)方案替代激光雷達(dá)的可行性。
因此,當(dāng)大家還在圍觀「馬斯克罵激光雷達(dá)」時(shí),我們想從機(jī)器之心擅長的角度出發(fā),看看能否從技術(shù)上來「驗(yàn)證」這個(gè)看似不太靠譜的觀點(diǎn)。
很湊巧,我們發(fā)現(xiàn)了一篇來自康奈爾大學(xué)的技術(shù)論文,作者中 Yan Wang 與 Wei-Lun Chao 均為華人。該論文提出了一種新方法來縮短純視覺技術(shù)架構(gòu)與激光雷達(dá)間的性能差距。
該論文提出的方法,改變了立體攝像機(jī)目標(biāo)檢測系統(tǒng)的 3D 信息呈現(xiàn)形式,甚至將其稱之為——偽激光雷達(dá)數(shù)據(jù)(pseudo-LiDAR)。
研究者在擋風(fēng)玻璃兩側(cè)各使用一個(gè)相對廉價(jià)的攝像機(jī),采用其新方法之后,該攝像機(jī)在目標(biāo)檢測方面的性能接近激光雷達(dá),且其成本僅為后者的一小部分。研究者發(fā)現(xiàn)以鳥瞰圖而不是正視圖來分析攝像機(jī)捕捉到的圖像可以將目標(biāo)檢測準(zhǔn)確率提升 2 倍,從而使立體攝像機(jī)成為激光雷達(dá)的可行替代方案,且其成本相比后者要低很多。
研究主題
可靠和穩(wěn)健的 3D 目標(biāo)檢測是自動(dòng)駕駛系統(tǒng)的基礎(chǔ)要求。要想避免與行人、騎自行車的人、汽車相撞,自動(dòng)駕駛汽車必須第一時(shí)間檢測出它們。
現(xiàn)有的算法嚴(yán)重依賴激光雷達(dá)(LiDAR),它可以提供周邊環(huán)境的準(zhǔn)確 3D 點(diǎn)云。盡管激光雷達(dá)的準(zhǔn)確率很高,但出于以下原因,自動(dòng)駕駛行業(yè)急需激光雷達(dá)的替代品:
首先,激光雷達(dá)非常昂貴,給自動(dòng)駕駛硬件增加了大量費(fèi)用;
其次,過度依賴單個(gè)傳感器會(huì)帶來安全風(fēng)險(xiǎn),在一個(gè)傳感器出現(xiàn)故障時(shí)利用備用傳感器是較優(yōu)的選擇。一個(gè)自然的選擇是來自立體攝像機(jī)或單目攝像機(jī)的圖像。光學(xué)相機(jī)性價(jià)比較高(比激光雷達(dá)便宜了多個(gè)數(shù)量級),且可以高幀率運(yùn)行,能夠提供稠密深度圖,而激光雷達(dá)信號只有 64 個(gè)或 128 個(gè)稀疏旋轉(zhuǎn)激光束。
近期的多項(xiàng)研究探索了在 3D 目標(biāo)檢測中使用單目攝像機(jī)和立體深度(視差)估計(jì) [19, 13, 32]。但是,目前主要的成果仍然是激光雷達(dá)方法的補(bǔ)充。
例如,KITTI 基準(zhǔn)上的一個(gè)頂尖算法 [17] 使用傳感器融合(sensor fusion)將汽車的 3D 平均精度(AP)從激光雷達(dá)的 66% 提升到了激光雷達(dá)+單目圖像的 73%。而在僅使用圖像的算法中,當(dāng)前最優(yōu)算法的 AP 僅為 10% [30]。
對后者較差性能的一個(gè)直觀且流行的解釋是基于圖像的深度估計(jì)準(zhǔn)確率較低。
與激光雷達(dá)相反,立體深度估計(jì)的誤差隨著深度增加而呈現(xiàn)二階增長。但是,對激光雷達(dá)和立體深度估計(jì)器生成的 3D 點(diǎn)云進(jìn)行視覺對比后發(fā)現(xiàn),這兩種數(shù)據(jù)模態(tài)之間存在高質(zhì)量的匹配,甚至遠(yuǎn)處的物體也是如此(詳見圖 1)。
圖 1:來自視覺深度估計(jì)的偽激光雷達(dá)(pseudo-LiDAR)信號。左上:KITTI 街景圖像,其中汽車周圍的紅色邊界框是通過激光雷達(dá)獲取的,而綠色邊界框是通過偽激光雷達(dá)獲取的。左下:估計(jì)到的視差圖。右:偽激光雷達(dá)(藍(lán)色)vs 激光雷達(dá)(黃色)。其中偽激光雷達(dá)點(diǎn)與激光雷達(dá)的點(diǎn)很好地對齊。
解決方案
這篇論文提供了另一種解釋——研究者假設(shè)立體攝像機(jī)和激光雷達(dá)之間性能差距的主要原因不在于深度準(zhǔn)確率的差異,而是在于在立體攝像機(jī)上運(yùn)行的 ConvNet 3D 目標(biāo)檢測系統(tǒng)的 3D 信息表示。
具體來說,激光雷達(dá)信號通常被表示為 3D 點(diǎn)云或者「鳥瞰」視角圖,并據(jù)此進(jìn)行處理。在這兩種情況下,目標(biāo)的形狀和大小都不會(huì)隨著深度而發(fā)生變化。
而基于圖像的深度估計(jì)主要是針對每個(gè)像素,通常被表示為額外的圖像通道,使得遠(yuǎn)處的對象很小,不易被檢測到。更糟糕的是,這種表示的像素近鄰將 3D 空間中較遠(yuǎn)區(qū)域的點(diǎn)聚集在一起,這就使得在這些通道上執(zhí)行 2D 卷積的卷積網(wǎng)絡(luò)更難推理,以及準(zhǔn)確地定位 3D 空間中的物體。
為了驗(yàn)證這一論斷,該研究引入了一種適用于立體攝像機(jī) 3D 目標(biāo)檢測的兩步法。首先將來自立體攝像機(jī)或單目攝像機(jī)的估計(jì)深度圖轉(zhuǎn)換為 3D 點(diǎn)云,即模擬激光雷達(dá)信號的偽激光雷達(dá);然后利用現(xiàn)有的基于激光雷達(dá)的 3D 目標(biāo)檢測流程 [23, 16],直接在偽激光雷達(dá)表示上進(jìn)行訓(xùn)練。
通過改變偽激光雷達(dá)的 3D 深度表示,使基于圖像的 3D 目標(biāo)檢測算法獲得前所未有的準(zhǔn)確率提升。具體來說,在 KITTI 基準(zhǔn)上獲得 0.7 交并比(IoU)的汽車實(shí)例在驗(yàn)證集上獲得了 37.9% 的 3D AP,比之前最優(yōu)圖像方法的準(zhǔn)確率提升了 2 倍。這樣就能把基于立體攝像機(jī)和基于激光雷達(dá)的系統(tǒng)之間的差距減半。
圖 2:用于 3D 目標(biāo)檢測的兩步 pipeline。給定立體或單目攝像機(jī)圖像,研究者首先預(yù)測深度圖,然后將其轉(zhuǎn)換為激光雷達(dá)坐標(biāo)系統(tǒng)中的 3D 點(diǎn)云,即偽激光雷達(dá)。然后像處理激光雷達(dá)一樣處理它,因此任何基于激光雷達(dá)的 3D 檢測算法都能在其上使用。
研究者對立體深度估計(jì)和 3D 目標(biāo)檢測算法的多種組合進(jìn)行了評估,并得到了非常一致的結(jié)果。這表明性能的提升是由于使用了偽激光雷達(dá)表示,它較少依賴于 3D 目標(biāo)檢測架構(gòu)的創(chuàng)新或深度估計(jì)技術(shù)。
總之,該論文有以下貢獻(xiàn):
首先,通過實(shí)驗(yàn)證明,基于立體攝像機(jī)和基于激光雷達(dá)的 3D 目標(biāo)檢測技術(shù)之間的性能差異不是因?yàn)楣烙?jì)深度的質(zhì)量,而是因?yàn)楸硎尽?/p>
其次,研究者提出了一種新型 3D 目標(biāo)檢測估計(jì)深度表示——偽激光雷達(dá),將之前的最優(yōu)性能提升了 2 倍,達(dá)到了當(dāng)前最佳水平。
這一研究結(jié)果表明,在自動(dòng)駕駛汽車中使用立體攝像頭是可能的,這樣既能夠極大地降低成本,又能夠改進(jìn)安全性能。
論文:Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving
論文鏈接:https://arxiv.org/abs/1812.07179
摘要:3D 目標(biāo)檢測是自動(dòng)駕駛的一項(xiàng)重要任務(wù)。如果 3D 輸入數(shù)據(jù)是通過精確但昂貴的激光雷達(dá)獲得的,那么目前的技術(shù)可以獲得高度精確的檢測率。基于較便宜的單目攝像機(jī)或立體攝像機(jī)圖像數(shù)據(jù)的方法目前能夠達(dá)到的準(zhǔn)確率較低,這種差距通常被歸因于基于圖像的深度估計(jì)技術(shù)缺陷。
然而,在本文中,研究者認(rèn)為,數(shù)據(jù)表示(而非其質(zhì)量)是造成這種差距的主要原因。研究者將卷積神經(jīng)網(wǎng)絡(luò)的內(nèi)部工作原理考慮在內(nèi),提出將基于圖像的深度圖轉(zhuǎn)換為偽激光雷達(dá)表示——本質(zhì)上是模擬激光雷達(dá)信號。有了這種表示,我們就能應(yīng)用當(dāng)下基于激光雷達(dá)的各種不同檢測算法。
在流行的 KITTI 基準(zhǔn)上,該論文提出的方法在基于圖像的性能方面取得了令人印象深刻的改進(jìn),超越當(dāng)前最佳方法,將 30 米范圍內(nèi)的目標(biāo)檢測準(zhǔn)確率從當(dāng)前最佳的 22% 提高到了 74%。截至論文提交時(shí),該論文提出的算法在基于立體圖像方法的 KITTI 3D 目標(biāo)檢測排行榜上達(dá)到了當(dāng)前最高水平。
實(shí)驗(yàn)
研究者通過不同的深度估計(jì)和目標(biāo)檢測算法,在不同的設(shè)置下評估了有/沒有偽激光雷達(dá)的情況下 3D 目標(biāo)檢測的結(jié)果(如下表)。偽激光雷達(dá)得到的結(jié)果顯示為藍(lán)色,真實(shí)激光雷達(dá)的結(jié)果顯示為灰色。
表 1:3D 目標(biāo)檢測結(jié)果。表中顯示了汽車分類的 AP_BEV / AP_3D 百分率、對應(yīng)于鳥瞰圖和 3D 目標(biāo)框檢測的平均精度。
表 4:行人和騎車人類別的 3D 目標(biāo)檢測結(jié)果。研究者報(bào)告了 IoU = 0.5(標(biāo)準(zhǔn)度量)時(shí)的 AP_BEV / AP_3D,并將 PSMNET(藍(lán)色)估計(jì)的偽激光雷達(dá)和激光雷達(dá)(灰色)進(jìn)行比較,兩者都使用 F-POINTNET 算法。
圖 4:定性比較。研究者使用 AVOD 算法對激光雷達(dá)、偽激光雷達(dá)和正視圖(立體)進(jìn)行了比較。紅色框中的是 Groundtruth,綠色框中的是預(yù)測框;偽激光雷達(dá)圖像(下面一行)中的觀測者在最左邊向右看。正視圖方法(右)甚至錯(cuò)誤計(jì)算了附近目標(biāo)的深度,并且完全忽視了遠(yuǎn)處的目標(biāo)。
-
特斯拉
+關(guān)注
關(guān)注
66文章
6313瀏覽量
126568 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
45994 -
激光雷達(dá)
+關(guān)注
關(guān)注
968文章
3972瀏覽量
189930 -
馬斯克
+關(guān)注
關(guān)注
1文章
822瀏覽量
21345
原文標(biāo)題:馬斯克剛罵了激光雷達(dá),這篇用純視覺代替激光雷達(dá)的名校論文「力挺」了他
文章出處:【微信號:vision263com,微信公眾號:新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論