主要內容:提出了一種基于學習的相機定位算法,其無需存儲圖像特征和場景三維點云,降低了存儲限制,通過識別場景中稀疏但顯著有代表性的landmark來找到2D-3D對應關系進行后續的魯棒姿態估計,通過訓練檢測landmark的場景特定的CNN來實現所提出的想法,即回歸輸入圖像中對應landmark的2D坐標。
創新點與Contributions:1)與大多數landmark通常可見的人體姿態估計不同,由于相機視野有限并且無法同時觀察場景的不同部分,相機姿態估計任務中大多數場景landmark不會同時可見,文章通過提出一種新的神經方位估計器(Neural Bearing Estimator,NBE)來解決這一問題,該估計器可以直接回歸相機坐標系中場景landmark的3D方位向量,NBE學習全局場景表示的同時學習預測場景landmark的方向向量,即使它們不可見。 2)提出了一個新的室內定位數據集,INDOOR-6,相對于傳統的7-Scenes室內數據集,包含更多變化的場景、晝夜圖像和強烈的照明變化 3)與現有的無存儲定位方法相比,具有低存儲的優點且性能較好 文章提出了兩種預測圖像中場景landmark的方法,在第一種方法中訓練了一個模型來識別圖像中的2D場景地標,稱之為場景地標檢測器(SLD),由于假設已知的相機內參,這些2D檢測可以轉換為3D方位矢量或射線。在第二種方法中訓練了一個不同的模型直接預測相機坐標系中landmark的3D方位向量,稱之為神經方位估計器(NBE)。注:使用SLD,只能檢測到相機視場(FoV)中可見的landmark,而NBE預測所有landmark的方位,包括相機視場外不可見的landmark。
首先會有一個SFM構建的點云模型,會在這些點云中挑選出有代表性的點云子集,用這些子集以及建圖時SFM算法生成的數據庫圖像的偽真值來訓練兩個提出的網絡模型。SLD:SLD被設計為將RGB圖像I作為輸入并輸出一組像素似然圖(熱圖)表示每個可見地標的位置,其模型架構如下:
由四個主要組件組成:使用ResNet-18為backbone,刪除最后三個最大池化層以保留高分辨率特征圖(輸出分辨率為輸入圖像分辨率的四分之一),其次在ResNet-18之后使用擴張卷積塊,擴張率設置為1、2、3和4,接下來轉置卷積層執行上采樣,并負責生成分辨率為輸入圖像一半的熱圖,最后一層由1×1卷積組成,預測L個熱圖通道,每個地標一個。 訓練損失:
在推斷過程中,假設當其最大熱圖值超過閾值τ=0.2時表明檢測到地標,利用亞像素精度計算熱圖峰值位置處裁剪的17×17 patch的期望值。NBE:設計了一個模型在給定圖像I的情況下回歸全部場景landmark(即使它不可見)的方位向量。 CNN將圖像I作為輸入以生成深度特征圖,然后是多個MLP(多層感知器)塊,每個塊輸出指向landmark的方向向量,MLP包含兩個全連接層,具有128個ReLU激活節點。
訓練好兩個模型后,將每個查詢圖像輸入SLD網絡以獲得2D檢測,然后根據內參將其轉換為一組landmark方位向量B1,如果檢測到超過八個場景landmark,使用魯棒最小解算器(P3P+RANSAC)計算相機姿態,然后使用基于Levenberg-Marquardt的非線性細化。如果沒有8個,將相同的圖像輸入NBE網絡并獲得預測方位B2,然后合并方位估計B1和B2的集合以形成新的集合B3,當集合B1和B2中的方位指向同一地標時,保留來自B1的估計,因為SLD通常比NBE更準確。最后使用上面描述的相同過程但使用B3計算相機姿態。如何從點云中選擇有代表性的場景landmark提供給網絡進行訓練?從SfM點云P中找到L個場景landmark的最佳子集是一個組合問題,其中評估每個子集都是困難的。本文受之前以貪婪的方式尋找有區別的關鍵點或場景元素工作的啟發,去選擇魯棒性(具有更長的軌跡)、可重復性(在多個場景中看到)和可概括性(從許多不同的觀看方向和深度觀察)的場景landmark,測量軌跡長度大于閾值t的3D點x的顯著性得分A(x),如下所示:
除了最大化總體顯著性得分之外還尋找在空間上覆蓋3D場景的場景landmark以便從場景內的任何地方都可以看到一些地標,例如無論攝像機在場景中的哪個位置都希望一些地標可見。為此使用算法1中描述的約束貪婪方法
下圖表述一些挑選到的landmark在二維圖像中的投影的裁剪patch
實驗:訓練模型的細節可去論文中查看 實驗數據集是在自己提出的INDOOR-6數據集和7Scenes數據集上
評估了單獨使用NBE, SLD,聯合使用NBE+SLD, NBE+SLD(E)(是更緊湊的網絡),和SOTA的基于分層定位方法結合HLoc+SLD Baseline為Posenet、DSAC、HLoc 在INDOOR-6數據集上的結果:
存儲比較和消融研究:
7Scenes數據集上的實驗結果:
總結:算法是一種存儲要求低但精度高的方法。主要見解是在人和物體姿態估計中廣泛用于關鍵點檢測的現代CNN架構也適用于檢測顯著的、場景特定的3D landmark。 實驗結果表明,其方法優于以前的無存儲方法,但不如HLoc(頂級檢索和匹配方法之一)準確,但是HLoc需要高存儲。而且基于landmark的2D–3D對應關系補充了HLoc的對應關系,并且在計算姿態之前結合這些對應關系進一步提高了HLoc精度。局限性:首先神經網絡是特定于場景的,像其他學習方法一樣每個場景需要許多訓練圖像,而且在使用之前需要仔細選擇場景landmark集。
審核編輯 :李倩
-
神經網絡
+關注
關注
42文章
4777瀏覽量
100956 -
算法
+關注
關注
23文章
4624瀏覽量
93114 -
cnn
+關注
關注
3文章
353瀏覽量
22267
原文標題:通過場景landmark做定位的新思路(CVPR 2022)
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論