論文作者:Junyi Ma, Xieyuanli Chen, Jingyi Xu, Guangming Xiong?
論文來源:IEEE Transactions on Industrial Electronics
1、摘要
在本文中,作者在其原有工作OverlapTransformer (OT)的基礎上,提出了一種用于自動駕駛的時空融合激光雷達地點識別算法SeqOT。SeqOT以多幀激光雷達數據作為輸入,使用端到端的方式直接為序列化數據提取全局描述子,用以快速的地點識別檢索。SeqOT采用多尺度Transformer結構對單幀高階特征與多幀高階特征進行增強和融合,并使用池化結構對多幀子描述子進行降維,顯著提升地點識別描述子特異性和實時性。此外,SeqOT具有yaw角旋轉不變和激光序列順序不變的結構,進一步提高自動駕駛車輛多角度地點識別的準確率。試驗結果表明,SeqOT在長、短時間跨度數據集上均具有很好的識別性能,且其運行速度快于激光雷達幀率,適用于實時運行的自動駕駛車輛。
2、主要工作與貢獻
本文的主要貢獻是一個端到端的地點識別神經網絡,它利用連續的range image實現可靠的長期地點識別。受益于所提出的yaw角旋轉不變結構,SeqOT對視點變化和多幀激光雷達數據的輸入順序具有較強的魯棒性,因此即使在自動駕駛車輛以相反方向行駛時也能實現可靠的地點識別。SeqOT利用多尺度Transformer模塊來融合序列化激光雷達數據的時空信息,通過增強單幀內部特征的關聯與多幀間特征的關聯,增強地點描述子特異性,進而提升地點識別精度。
3、算法流程
圖1 SeqOT算法結構
SeqOT由單幀編碼模塊、多幀編碼模塊,以及池化模塊組合而成。如圖1所示,首先將多幀三維激光點云通過球面投影轉換為多幀二維range image,然后將各幀range image輸入到單幀編碼模塊中,分別進行空間維度的壓縮和通道維度的擴張,再利用單幀Transformer模塊進行特征圖的特異性增強,然后將特異性增強后的結果與增強前的結果進行通道維度上的拼接。以上操作均對序列化激光信息中的單幀數據分別進行操作。接下來,將單幀編碼模塊輸出的特征輸入到多幀編碼模塊中,在將相鄰幀特征進行拼接后,輸入到多幀Transformer模塊進行多幀信息的高階特征融合與增強,然后將融合后的結果輸入到NetVLAD結構中生成一系列維度為1x256的子描述子向量。池化模塊將此輸入激光序列中的全部子描述子進行池化壓縮,為輸入激光序列生成最終的1x256全局描述子向量。
球面投影與yaw角旋轉等變性
SeqOT使用序列化range image作為輸入,并充分利用其yaw角旋轉等變性。一個三維激光點(x, y, z),通過如下公式就可以投影至一個二維的圖像像素(u, v),這就是球面投影生成range image的過程。range image上的每個像素點都代表激光點的距離信息。
range image本身具備yaw角旋轉等變性,即一幀激光點云相對于z軸的旋轉等價于本幀range image的平移。圖2展示了yaw角旋轉等變的簡單示例。
圖2 yaw角旋轉等變性示例
得益于三維點云繞z軸的旋轉等價于range image的平移,SeqOT后續的結構能夠輸出一系列yaw角旋轉等變的中間特征圖,進而最終將yaw角旋轉等變性轉化為yaw角旋轉不變性,輸出不受視點變化影響的全局描述子,從而保證多角度地點識別的可行性。
單幀編碼模塊
單幀編碼模塊對輸入序列激光幀的每一幀單獨進行高階特征提取。基于此前的工作[1],單幀編碼模塊使用了與OverlapTransformer相似的OverlapNetLeg對range image進行高度方向的壓縮與通道維度的擴張。而后的單幀Transformer模塊對OverlapNetLeg的輸出進行特異性增強,即增強單幀激光內部不同特征之間的關聯。增強后的特征與增強前的特征進行拼接,得到yaw角旋轉等變的中間特征,輸入到后續的多幀編碼模塊。
多幀編碼模塊與池化模塊
多幀編碼模塊將連續幀經過單幀編碼模塊輸出的序列化高階特征進行初步融合,池化模塊則對初步融合的特征進行描述子級的聚合,最終為序列化輸入計算地點識別描述子。在多幀編碼模塊中,首先將相鄰三幀點云對應的單幀編碼模塊的輸出進行拼接,構成更長的特征編碼,輸入至多幀Transformer模塊,對幀間特征關聯進行增強,實現多幀信息的融合。序列化信息融合后的特征輸入至NetVLAD結構中,提取一系列子描述子。池化模塊最終將序列子描述子進行聚合,生成一維地點識別全局描述子。由于結構中使用了具有順序不變性質的NetVLAD結構與GeM池化結構,因此最終輸出的全局描述子具備yaw角旋轉不變性和激光序列順序不變性,示例如圖3所示,相關證明詳見論文。
圖3 全局描述子yaw角旋轉不變性示例
基于overlap的訓練
與此前工作[1]類似,SeqOT利用基于overlap劃分的數據集進行訓練。利用overlap作為label進行訓練的理念在OverlapNet論文[2]中有所闡述。訓練過程采用對比學習的思路,對于一幀query點云,同時向SeqOT輸入本幀點云對應的序列激光幀、以及它的kp個正樣本序列和kn個負樣本序列。基于overlap的triplet loss函數如下式所示。
使用overlap而不是點云之間的距離作為衡量正負樣本的基準,是因為overlap對于描述激光點云相似度來說是一個更為自然的方式;此外,點云間的overlap對應了后續點云配準的質量,因此基于overlap對是否為同一地點進行判斷更有益于后續算法的進行。此外,本工作面向自動駕駛車輛地點識別最常用場景——可重復性行駛環境,為低顯存的嵌入式設備提供了更為節省資源的兩步訓練策略,即第一步:將triplet loss作用于多幀編碼模塊輸出的子描述子,訓練池化模塊之前的模型,并保存訓練使用的子描述子;第二步:利用保存的子描述子作為輸入,將triplet loss作用于SeqOT最終輸出的全局描述子,訓練池化模塊。
4、實驗結果
毫末數據集上的地點識別結果
KITTI和MulRan數據集上的泛化性測試結果
輸入序列長度的對比試驗結果
多尺度Transformer的消融試驗結果
yaw角旋轉不變性驗證
審核編輯:郭婷
-
神經網絡
+關注
關注
42文章
4773瀏覽量
100874 -
激光雷達
+關注
關注
968文章
3983瀏覽量
190052 -
自動駕駛
+關注
關注
784文章
13844瀏覽量
166571
原文標題:SeqOT: 基于時空融合Transformer的SOTA地點識別算法,代碼開源(IEEE Trans2022)
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論