0. 引言
雖然近年來無監督單目深度學習取得了很大的進展,但仍然存在一些基本問題。首先,目前的方法存在尺度模糊性問題,因為反推過程對于深度和平移來說相當于任意尺度因子。其次,光度誤差對照明變化和移動物體敏感。此外,盡管在無監督學習框架下已經為光度誤差圖引入了不確定性,但自我運動的不確定性度量仍然是重要的。在2022 ECCV論文"Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular Depth Estimation by Integrating IMU Motion Dynamics",作者提出了一種感知框架,通過集成視覺和IMU來進行真實尺度估計,算法已經開源。
1. 論文信息
2. 摘要
近年來,無監督單目深度和自我運動估計引起了廣泛的研究關注。盡管當前的方法已經達到了很高的尺度精度,但是由于利用單目序列進行訓練所固有的尺度模糊性,它們通常不能學習真實的尺度度量。在這項工作中,我們解決了這個問題,并提出了DynaDepth,一種新的尺度感知框架,集成了視覺和IMU運動動力學的信息。
具體來說,我們首先提出了IMU光度損失和跨傳感器光度一致性損失,以提供稠密的監督和絕對尺度。為了充分利用來自兩個傳感器的互補信息,我們進一步驅動一個可微分的以相機為中心的擴展卡爾曼濾波器(EKF),以在觀察視覺測量時更新IMU預積分。
此外,EKF公式使得能夠學習自我運動不確定性測量,這對于無監督的方法來說不是微不足道的。通過在訓練過程中利用IMU,DynaDepth不僅學習了絕對尺度,還提供了更好的泛化能力和對光照變化和移動物體等視覺退化的魯棒性。我們通過在KITTI和Make3D數據集上進行大量實驗和仿真,驗證了DynaDepth的有效性。
3. 算法分析
如圖1所示是作者提出的單目尺度感知深度估計和自我運動預測方法DynaDepth的概述,該系統在以相機為中心的擴展卡爾曼濾波器(EKF)框架下,將IMU運動動力學顯式集成到基于視覺的系統中。DynaDepth旨在聯合訓練尺度感知深度網絡Md,以及融合IMU和相機信息的自我運動網絡Mp。
圖1 DynaDepth概述
DynaDepth通過使用IMU的估計運動執行反向操作,來構建尺度感知的IMU光度損失,并使用基于外觀的光度損失。為了校正由光照變化和運動物體引起的誤差,作者進一步提出了跨傳感器光度一致性損失,分別使用網絡預測和IMU集成自我運動的合成目標視圖。
與積累來自初始幀的重力和速度估計的經典VIO-SLAM系統不同,對于無監督深度估計方法,這兩個度量是未知的。為了解決這個問題,DynaDepth訓練兩個超輕型網絡,這兩個網絡將兩個連續幀作為輸入,并在訓練期間預測以相機為中心的重力和速度。
考慮到IMU和相機提供兩種互補的獨立傳感模式,作者進一步為DynaDepth導出了一個可區分的以相機為中心的EKF框架,以充分利用這兩種傳感器。當從相機觀察新的自我運動預測時,DynaDepth根據IMU誤差狀態和視覺預測的協方差更新IMU預積分。
這樣一方面可以通過視覺來糾正IMU噪聲偏差,另一方面還提供了一種學習預測自我運動的不確定性測量的方式,這對于最近出現的將深度學習納入經典SLAM系統以實現學習、幾何和優化的協同作用的研究方法是有益的。
綜上所述,作者所做工作的主要貢獻如下:
(1) 提出了IMU光度損失和交叉傳感器光度一致性損失,以提供稠密的監督和絕對尺度;
(2) 為傳感器融合推導了一個可微分的以相機為中心的EKF框架;
(3) 通過在KITTI和Make3D數據集上的大量實驗和仿真證明了DynaDepth有利于:<1>絕對尺度的學習;<2>泛化能力;<3>對諸如照明變化和移動物體的視覺退化的魯棒性;<4>自我運動不確定性度量的學習。
3.1 IMU光度損失
如果直接將訓練損失寫為IMU預積分項上的殘差,那么就只能為自我運動網絡提供稀疏的監督,作者提出了一種IMU光度損失:
其中K和N是相機的固有特性,yi和zi是圖像中的像素坐標系以及由Md預測的深度,I(yi)是yi處的像素強度,ψ()表示深度歸一化函數,SSIM()表示結構相似性索引。
3.2 交叉傳感器光度一致性損失
作者進一步提出跨傳感器光度一致性損失來對齊IMU預積分和Mp的自我運動,而不是直接比較。對于自我運動,作者使用反向圖像之間的光度誤差,這為Md和Mp提供了更密集的監督信號:
此外,DynaDepth中的總訓練損失Ltotal還包括基于視覺的光度損失Lvis、平滑度損失Ls以及弱L2范數損失Lvg:
3.3 以相機為中心的EKF融合框架
為了充分利用互補的IMU和相機,作者提出了一個以相機為中心的EKF框架。與之前將EKF集成到基于深度學習的框架中以處理IMU數據的方法不同,DynaDepth不需要真實的自我運動和速度來獲得每個IMU幀的對齊速度和重力,而是提出{Mv,Mg}來預測。在論文中,作者推導了該EKF的傳播和更新過程。
EKF傳播:設ck表示時刻tk的相機幀,bt表示tk到tk+1之間的IMU幀,誤差狀態為:
EKF利用一階泰勒近似將狀態轉移模型在每個時間步線性化進行傳播,誤差狀態的連續時間傳播模型為:δx*bt = Fδxbt + Gn,其中F和G為:
EKF更新公式為:
DynaDepth將觀測量定義為Mp預測的自我運動,為了完成以相機為中心的EKF更新步驟,可推導h和H為:
4. 實驗
作者評估了DynaDepth在KITTI上的有效性,以及在Make3D上的泛化能力。此外,作者對IMU損耗、EKF框架、學習到的自我運動不確定性以及對光照變化和移動物體的魯棒性進行了消融實驗。在具體試驗階段,損失函數的四個權重依次為0.001,0.5,0.01,0.001,初始學習率為1e-4,在一個NVIDIA V100 GPU上訓練了30輪。
4.1 KITTI上的尺度感知深度估計
如表1所示是將DynaDepth與最新的單目深度估計方法進行比較的結果,作者為了公平比較只給出了圖像分辨率為640x192和尺寸適中的編碼器所取得的結果,即ResNet18(R18)和ResNet50(R50)。
表1 對KITTI進行的每張圖像的重定標深度評估
除了標準的深度評價指標之外,作者還報告了重尺度因子的均值和標準誤差來證明尺度感知能力。值得注意的是DynaDepth達到了一個近乎完美的絕對尺度,在尺度感知方面甚至R18版本也優于G2S R50 ,而后者使用了更重的編碼器。
如表2所示是對比結果,并與利用GPS信息構造速度約束的PackNet-SfM和G2S進行了比較。在這種情況下,DynaDepth實現了所有度量指標的最佳性能,為單目方法的非尺度深度評估設定了一個新的基準。為了更好的說明,圖1(b)給出了包含IMU和不包含IMU的比例直方圖。
表2 在KITTI進行深度評估結果
4.2 Make3D上的泛化
作者利用KITTI上訓練的模型進一步檢驗DynaDepth在Make3D上的泛化能力,圖1(c)給出了一個定性示例,其中沒有IMU的模型在玻璃和陰影區域失效,而DynaDepth實現了可區分的預測。定量結果如表3所示,DynaDepth取得了相當好的尺度比例,表明DynaDepth學習的尺度能力可以很好地推廣到不可觀測的數據集。
此外,僅利用陀螺儀和加速度計IMU信息的DynaDepth取得了最好的泛化效果。作者解釋了可能的原因:首先,由于建模能力的提高,完整模型可能會過擬合KITTI數據集。第二,因為Mv和Mg都以圖像作為輸入,性能退化可能是由于視覺數據的域間隙造成的,這也解釋了這種情況下G2S的尺度損失。
此外,實驗也表明EKF有明顯的提高泛化能力,可能是因為EKF融合框架考慮了不確定性,以更合理的方式融合了可泛化IMU動力學和特定視覺信息。
表3 Make 3d上的泛化結果
4.3 消融研究
作者對KITTI進行了消融研究,并關注IMU相關損失、EKF融合框架和學習自我運動不確定性對KITTI的影響,結果如表4所示。此外,還設計了模擬實驗來驗證DynaDepth對光照變化和運動物體等視覺退化的魯棒性。
表4 KITTI上IMU相關損失和EKF融合框架的消融結果
結果顯示,IMU光度損失具有重要作用。但僅用IMU光度損失學習的只是一個粗略的尺度。將IMU光度損失和交叉傳感器光度損失結合在一起,可以提高準確性,Lvg的使用進一步增強了評價結果。
針對光照變化和運動物體,這兩種情況違反了光度損失的底層假設。作者通過在0.5范圍內隨機交替的圖像對比度來模擬光照變化,通過隨機插入三個150x150的黑色方塊來模擬運動物體,結果如表5所示。在光照變化下,Mono deep2的精度按預期下降,DynaDepth則在一定程度上挽救了精度,保持了正確的絕對尺度。
在這種情況下,EKF幾乎改進了所有的度量指標,使用EKF和Lvg在AbsRel上達到了最優。然而,沒有Lvg的模型在大多數度量指標上都取得了最好的性能,其原因可能是Lvg對視覺數據的依賴性,對圖像質量更加敏感。當存在移動對象時,Mono deep2完全失敗,使用EKF顯著地提高了性能,但考慮到任務的難度,仍然難以學習到尺度。在這種情況下,使用Lvg顯著提供了強有力的規模監管,取得了良好的規模效果。
表5 對來自KITTI的模擬數據的魯棒性消融結果
作者以平均協方差作為不確定性度量,圖2說明了自我運動不確定性的訓練過程。學習的不確定性表現出與深度誤差(AbsRel)類似的模式,這意味著隨著訓練的繼續,模型對其預測變得更加確定。此外,DynaDepth R50比R18具有更低的不確定性,表明更大的模型容量也有助于提高預測的可信度,但這種差異并不明顯。
圖2 訓練過程
5. 結論
在2022 ECCV論文"Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular Depth Estimation by Integrating IMU Motion Dynamics"中,作者提出了DynaDepth,這是一個使用IMU運動動力學的尺度感知、魯棒和可推廣的單目深度估計框架。具體來說,作者提出了IMU光度損失和跨傳感器光度一致性損失,以提供稠密的監督和絕對尺度。
此外,作者為傳感器融合推導了一個以攝像機為中心的EKF框架,它也提供了在無監督學習設置下的自我運動不確定性度量。最后作者通過實驗證明了DynaDepth在學習絕對尺度、泛化能力和抵抗視覺退化的魯棒性方面具有優勢。
-
傳感器
+關注
關注
2552文章
51217瀏覽量
754603 -
濾波器
+關注
關注
161文章
7843瀏覽量
178376 -
深度學習
+關注
關注
73文章
5507瀏覽量
121270
原文標題:基于整合IMU運動動力學的無監督單目深度估計
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論