在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

為什么基于學習的VO很難超過傳統VSLAM?

3D視覺工坊 ? 來源:3D視覺工坊 ? 作者:泡椒味的口香糖 ? 2022-11-10 09:48 ? 次閱讀

0. 筆者個人體會

深度學習在其他CV領域可以說已經完全碾壓了傳統圖像算法,例如語義分割、目標檢測、實例分割、全景分割。但是在VSLAM領域,似乎還是ORB-SLAM3、VINS-Fusion、DSO、SVO這些傳統SLAM算法占據領導地位。那么這背后的原因是什么?基于深度學習的VO目前已經發展到了什么程度?

本文將帶領讀者探討基于學習的VO難以訓練的真正原因,并分析幾個目前SOTA的學習VO,深入淺出理解基于學習的VO和傳統VSLAM算法之間的區別是什么。當然筆者水平有限,如果有不同見解歡迎大家一起討論,共同學習!

1. 為什么基于學習的VO很難超過傳統VSLAM?

最早的基于學習的VO應該是2017年ICRA論文“DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks”,這個架構也非常直觀,就是將圖片序列利用CNN提取特征,然后借助RNN輸出位姿。之后它們團隊也在2018年ICRA發表了“End-to-end, sequence-to-sequence probabilistic visual odometry through deep neural networks”,提出了DeepVO的改進版本ESP-VO,但可以看出它們在一些場景的效果還是不太好的。

87d2d812-6084-11ed-8abf-dac502259ad0.png885a4ed2-6084-11ed-8abf-dac502259ad0.png8884291e-6084-11ed-8abf-dac502259ad0.png

我認為基于學習的VO之所以失敗,主要有六點原因。

首先就是數據量的問題,深度學習是非常吃數據的。

模型越大,想讓網絡權重收斂所需的數據規模也就越大。近些年隨著Transformer的橫空出世,深度網絡的參數量幾乎是呈幾何倍數增長,動不動就出現上億參數的大模型。

但目前VSLAM的評估場景主要是KITTI (22個序列)、EuRoC (11個序列)和TUM (24個序列)這三個數據集。

即使是三個數據集加起來,也沒有ImageNet這一個數據集大。因此想使用深度學習直接定位建圖的話,模型根本喂不飽,訓練就顯得非常困難。

88a2c950-6084-11ed-8abf-dac502259ad0.png

但僅僅如此嗎?

如果只是數據集規模的問題,那直接在車上放一個攝像頭,開車出去采個十幾萬張圖片不就可以輕松解決問題了嗎?或者說根本不需要自己采集數據集,直接使用其他CV領域的數據集,比如伯克利自動駕駛BDD數據集里面有10萬個視頻序列,不一樣可以用嗎? 這里就需要說到另一個很少有人關注的點,就是空間位姿中的主成分問題

KITTI數據集是用無人車采集的,EuRoC是用無人機采集的,TUM是用手持相機采集的。這里不可避免得就涉及到六個自由度的分布問題,顯然KITTI數據集中的位姿基本都是繞Z軸的旋轉和水平方向的平移(顯然車不可能無緣無故翻滾和上升),EuRoC和TUM數據集中的位姿也是繞Z軸的旋轉和水平方向的平移占主導(這個也很容易理解,錄制視頻的時候也很難有特別復雜的雜技運動)。

這是什么意思呢?

就是說,目前SLAM算法中常用的數據集,基本上只有兩個方向的運動,其他4個自由度的運動很少或基本為0。這就導致基于學習的方法在訓練過程中,只能學習到繞Z軸的旋轉和水平方向的平移這兩個方向的運動,其他4個方向很難得到充分學習。不僅如此,其他4個方向還會帶來大量噪聲,導致本來學好的位姿也不準了!

88cefc96-6084-11ed-8abf-dac502259ad0.png

第三點原因也相當重要,就是圖像分辨率和內參的問題!深度模型在訓練之前,輸入數據會統一Resize為固定的大小,也就是說基于學習的VO在訓練過程中學到的是這一固定分辨率下的位姿估計結果。

當網絡換一個數據集進行測試的時候,由于圖片分辨率變了,網絡沒學習過這種設置下的位姿,所以輸出結果非常受影響。但是傳統SLAM算法不會有這種問題,因為它是完全基于對極幾何和PNP進行求解的,即使換一個數據集,結果也不會受到太大影響。

88f9c642-6084-11ed-8abf-dac502259ad0.png

第四點原因,就是所有單目算法都會面臨的尺度模糊問題。單目算法的尺度不確定性在此不做過多贅述。需要注意的是,基于學習的VO在一個數據集上會學習到這個數據集所對應的尺度,這個尺度還是一個相對尺度。當我們希望將網絡遷移到另一個數據集時,由于這個尺度變化,會導致網絡估計出的位姿非常不準。

第五,基于學習的VO很難實現回環檢測

熟悉ORB-SLAM3的同學知道,ORB-SLAM3中是存在短期、中期、長期、多地圖這四種數據關聯的。短期數據關聯對應跟蹤線程,也是大多數VO使用的唯一數據關聯類型,一旦地圖元素從視野中消失,就會被丟棄,即使回到原來的地方,也會造成持續的位姿漂移。中期數據關聯對應局部建圖,通過BA優化可以約束具有共視關系的關鍵幀。長期數據關聯指回環和重定位,可以拉回大幅度的累計漂移。

多地圖數據關聯可以使用之前已經建立的多塊地圖來實現地圖中的匹配和BA優化。通過這四種數據關聯模型,ORB-SLAM3實現了非常強的全局一致性約束,使得整體的位姿估計非常準。但是對于基于學習的VO來說,僅有幀間匹配,很難去實現回環這種長期數據關聯,位姿漂移的問題非常嚴重。

最后一個問題就是,現有的深度學習方法非常吃計算資源。2022年了,基本上3090顯卡只能勉強達到深度學習的入門門檻,沒有幾塊A100的話,大模型想都不要想。目前效果最好DROID-SLAM甚至需要4塊3090才能達到實時運行。但SLAM算法的最終目標還是落地,要求的是能在低功耗的嵌入式設備上實時運行。

目前大公司的SLAM算法都在做減法來盡可能縮減算力要求,這時候突然要求GPU加速就有點令人難以接受,畢竟誰也不可能真的給自動駕駛汽車或者配送無人機裝4塊A100吧?

2. 傳統VSLAM就一定穩定嗎?

我們所熟知的ORB-SLAM、VINS等算法在KITTI、EuRoC、TUM這些靜態場景中都已經實現了非常好的效果。但問題是這些場景的規模還是太小了,很少有什么運動模糊的情況,并且也沒有什么動態物體。即使它們之中有一些動態序列,動態物體所占的圖像范圍也沒有多大。

當涉及到一些高動態、無紋理、大范圍遮擋等挑戰性的場景時,傳統的VSLAM算法很容易崩潰。如下圖所示,測試ORB-SLAM在挑戰性數據集Tartan Air中的運行結果時發現,ORB-SLAM平均只能跑完一半的序列,平均絕對軌跡誤差ATE甚至達到了27.67m,雙目比單目的效果好一些,但也沒有好太多。

89534384-6084-11ed-8abf-dac502259ad0.png8a573d30-6084-11ed-8abf-dac502259ad0.png

現有的傳統方法也基本都是加入點線面特征,或者引入IMU/激光雷達/輪速計/GNSS等多傳感器來輔助定位和建圖。

但現有算法也基本都是針對特定場景才能運行的,針對這些挑戰性場景,始終都沒有一個統一且完善的解決方案。 但在深度學習領域,這些都不是問題!目前YOLO已經出到了v7版本,可以輕輕松松檢測上千種不同目標,基于Transformer語義分割/實例分割的IoU也已經不停漲點。

不用說檢測出一個動態物體,就是多目標跟蹤的算法現在也已經非常成熟。 所以說,深度學習結合SLAM是一個非常有價值的大方向!雖然現有的深度學習方法也都有不同的問題,但相信隨著時間變化,這些問題都可以被解決。

3. TartanVO

TartanVO來源于2020年CoRL論文“TartanVO: A Generalizable Learning-based VO”,作者是卡內基梅隆大學的王雯珊。

前面說到,ORB-SLAM在挑戰性數據集Tartan Air上運行很容易崩潰,Tartan Air數據集也是王雯珊團隊的工作。

Tartan Air是一個大規模、多場景、高動態的仿真數據集,里面包含20種不同的環境、500+個軌跡以及40萬+幀圖像。雖然Tartan Air并不來源于真實傳感器,只是一個仿真場景,但其實內部的圖像已經足夠真實。

8aa37600-6084-11ed-8abf-dac502259ad0.png

我們沿著TartanVO作者的設計思路來進行分析,首先TartanVO設計了一個簡單并傳統的網絡架構,思路也非常簡單,輸入是連續的兩幀圖像。網絡首先會提取特征并估計光流,之后利用Pose網絡估計出位姿。

8aef8e64-6084-11ed-8abf-dac502259ad0.png

但TartanVO的作者發現,訓練過程中的損失一直降不下來!通過分析發現這是由于平移位姿估計差引起的,那原因就顯而易見了,還是單目尺度不確定問題!為了解決這個問題,作者設計了對應的尺度一致性損失,只估計相對尺度:

8b27a646-6084-11ed-8abf-dac502259ad0.png

8b4243b6-6084-11ed-8abf-dac502259ad0.png

同時TartanVO的另一個重要創新點在于,通用性非常強!前面說到,不同數據集的圖像分辨率和內參不一致,這影響了網絡的泛化性能。

因此TartanVO又加入了內參層,在訓練過程中同時估計相機內參矩陣。同時在訓練過程中對Tartan Air數據集的圖像進行隨機裁剪和縮放,以此來模擬不同的內參。

8b71fafc-6084-11ed-8abf-dac502259ad0.png

定量結果也證明了網絡的有效性,雖然訓練損失提高了(模型任務復雜了),但測試損失還是得到了明顯降低。

8bf25ba2-6084-11ed-8abf-dac502259ad0.png

下表是在KITTI數據集上的測試結果,注意TartanVO并沒有進行Finetune,但是效果比其他基于學習的VO方法好。值得一提的是,TartanVO的平移精度很高,但是相較于ORB-SLAM的旋轉精度較低,這是因為ORB-SLAM具有回環檢測模塊。

8c1aca1a-6084-11ed-8abf-dac502259ad0.png

4. 基于TartanVO的動態稠密RGB-D SLAM

這篇論文是今年5月上傳到arXiv的,論文名為“Dynamic Dense RGB-D SLAM using Learning-based Visual Odometry”,同樣是卡內基梅隆大學的研究成果。

這個網絡是基于TartanVO進行的,相當于TartanVO在動態環境中的改進,輸出是沒有動態對象的稠密全局地圖。

算法的主要思想是從兩個連續的RGB圖像中估計光流,并將其傳遞到視覺里程計中,以通過匹配點作為直接法來預測相機運動。然后通過利用光流來執行動態分割,經過多次迭代后,移除動態像素,這樣僅具有靜態像素的RGB-D圖像就被融合到全局地圖中。

不過不知為何,這篇論文沒有進行定量評估,沒有和其他SLAM算法的一些ATE、RTE等參數的對比,只有一些定量對比,可能是工作還在進一步優化。

8c463db2-6084-11ed-8abf-dac502259ad0.png8c744612-6084-11ed-8abf-dac502259ad0.png

5. DytanVO

DytanVO算是目前最前沿的成果了,論文名“DytanVO: Joint Refinement of Visual Odometry and Motion Segmentation in Dynamic Environments”,同樣是卡內基梅隆大學王雯珊團隊的工作,該論文已經提交到2023 ICRA。 DytanVO的整個網絡架構還是基于TartanVO進行優化的。

DytanVO由從兩幅連續圖像中估計光流的匹配網絡、基于無動態運動的光流估計位姿的位姿網絡和輸出動態概率掩碼的運動分割網絡組成。

匹配網絡僅向前傳播一次,而位姿網絡和分割網絡被迭代以聯合優化位姿估計和運動分割。停止迭代的標準很簡單,即兩個迭代之間旋轉和平移差異小于閾值,并且閾值不固定,而是預先確定一個衰減參數,隨著時間的推移,經驗地降低輸入閾值,以防止在早期迭代中出現不準確的掩碼,而在后期迭代中使用改進的掩碼。

8d0128d4-6084-11ed-8abf-dac502259ad0.jpg

下圖所示是DytanVO的運行示例,包含兩個輸入的圖像幀、估計的光流、運動分割以及在高動態AirDOS-Shibuya數據集上的軌跡評估結果。結果顯示DytanVO精度超越TartanVO達到了最高,并且漂移量很小。

8d3312b8-6084-11ed-8abf-dac502259ad0.jpg

下表是在AirDOS-Shibuya的七個序列上,DytanVO與現有最先進的VO算法進行的定量對比結果。

七個序列分為三個難度等級:大多數人站著不動,很少人在路上走來走去,穿越(容易)包含多個人類進出相機的視野,而在穿越道路(困難)中,人類突然進入相機的視野。

除了VO方法之外,作者還將DytanVO與能夠處理動態場景的SLAM方法進行了比較,包括DROID-SLAM、AirDOS、VDO-SLAM以及DynaSLAM。

8d5b70fa-6084-11ed-8abf-dac502259ad0.png

6. 總結

深度學習已經廣泛應用到了各個領域,但在SLAM領域卻沒有取得很好的效果。本文深入探討了為什么基于學習的VO效果不如傳統的SLAM算法,并介紹了三種基于學習的VO的算法原理。

總之,深度學習與SLAM結合是一個大趨勢,現階段無論是基于學習的VO還是傳統SLAM算法都有各自的問題,但兩者結合就可以解決很多困難。





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ESP
    ESP
    +關注

    關注

    0

    文章

    184

    瀏覽量

    34010
  • VSLAM算法
    +關注

    關注

    0

    文章

    5

    瀏覽量

    2248

原文標題:基于學習的VO距離傳統VSLAM還有多遠?

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    大聯大世平集團推出基于Intel技術的雙目VSLAM空間定位解決方案

    大聯大控股宣布,其旗下世平推出基于英特爾(Intel)Movidius Myriad 2的雙目VSLAM空間定位解決方案。
    發表于 12-05 16:17 ?1437次閱讀

    新人求教:學習電子很難就業嗎 ?以后發展如何?

    學習電子很難就業嗎 ????以后發展如何??????...
    發表于 05-22 10:26

    分享一款基于Intel技術的雙目VSLAM空間定位解決方案

    SLAM是什么?VSLAM技術框架主要包括哪些?VSLAM技術擁有哪些核心技術優勢?
    發表于 07-09 07:29

    激光SLAM和視覺VSLAM的分析比較

    什么是激光SLAM?視覺VSLAM又是什么?激光SLAM和視覺VSLAM有哪些不同之處?
    發表于 11-10 07:16

    詮視科技的VSLAM技術突破 看看CEO林瓊如何詮釋

    在移動機器人領域,2018年最大的技術進展莫過于VSLAM技術在該領域的應用突破了,它將讓移動機器人自主行駛有更廣闊的空間。對機器人企業而言,VSLAM是令人頭疼的事情,現如今有一家企業把它做好了,對其它企業而言,就省事多了。
    的頭像 發表于 03-02 10:09 ?5191次閱讀

    通過持續元學習解決傳統機器學習方式的致命不足

    傳統機器學習正在凸顯它的不足。為了解決此問題,伯克利大學人工智能實驗室教授繼2017年提出元學習后,又提出在線元學習。不僅可以解決傳統
    的頭像 發表于 03-04 14:20 ?2083次閱讀

    VSLAM系統方法的各種特點

    近年來,基于視覺的傳感器在SLAM系統中顯示出顯著的性能、精度和效率提升。在這方面,視覺SLAM(VSLAM)方法是指使用相機進行姿態估計和地圖生成的SLAM方法。
    的頭像 發表于 11-01 09:53 ?2499次閱讀

    研討會預告 | 在 Jetson 上使用 vSLAM 進行 ROS 2 精準定位

    庫執行立體視覺同步定位和繪圖(VSLAM),并估計立體視覺慣性測距。 在首次 Isaac ROS 線上研討會上,您將學習到如何使用 Isaac ROS Visual SLAM 進行測繪和機器人導航。 研討
    的頭像 發表于 11-10 11:00 ?1048次閱讀

    VC-VO異質顆粒的相演化促進鋰硫電池中硫轉化反應

    VC-VO異質顆粒作為多硫化物固定劑和氧化還原反應催化劑有效地增強了鋰硫電池的電化學性能。VC-VO異質顆粒結合了VO的強吸附能力和VC的氧化還原活性。VC-VO異質顆粒可以同時實現對
    的頭像 發表于 11-14 15:07 ?1360次閱讀

    一文梳理缺陷檢測的深度學習傳統方法

    但由于缺陷多種多樣,傳統的機器視覺算法很難做到對缺陷特征完整的建模和遷移,所以越來越多的學者和工程人員開始將深度學習算法引入到缺陷檢測領域中。
    的頭像 發表于 02-13 15:39 ?1285次閱讀

    基于事件相機的vSLAM研究進展

    vSLAM能夠通過視覺傳感器來獲取環境信息,以達到估計機器人位姿和周圍環境三維重建的目的。但是傳統的視覺傳感器受限于它的硬件而導致的低動態感光范圍和運動中產生的動態模糊,在一些復雜的場景下無法得到良好的結果,例如高速運動中的或者復雜的光照條件下的場景。
    發表于 05-09 15:49 ?730次閱讀
    基于事件相機的<b class='flag-5'>vSLAM</b>研究進展

    基于事件相機的vSLAM研究進展

    為了能讓基于事件相機的vSLAM在事件數據上實現位姿估計和三維重建,研究者設計出了多種多樣針對事件相機的數據關聯、位姿估計和三維重建的解決方案。我們將主流的算法分類為四種類別,分別為特征法、直接法、運動補償法和基于深度學習的方法。
    發表于 05-12 11:51 ?422次閱讀
    基于事件相機的<b class='flag-5'>vSLAM</b>研究進展

    聯合學習傳統機器學習方法中的應用

    聯合學習傳統機器學習方法中的應用
    的頭像 發表于 07-05 16:30 ?790次閱讀
    聯合<b class='flag-5'>學習</b>在<b class='flag-5'>傳統</b>機器<b class='flag-5'>學習</b>方法中的應用

    深度學習傳統機器學習的對比

    在人工智能的浪潮中,機器學習和深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步,為眾多領域帶來了革命性的變化。然而,盡管它們都屬于機器學習的范疇,但深度學習
    的頭像 發表于 07-01 11:40 ?1466次閱讀

    傳統機器學習方法和應用指導

    在上一篇文章中,我們介紹了機器學習的關鍵概念術語。在本文中,我們會介紹傳統機器學習的基礎知識和多種算法特征,供各位老師選擇。 01 傳統機器學習
    的頭像 發表于 12-30 09:16 ?297次閱讀
    <b class='flag-5'>傳統</b>機器<b class='flag-5'>學習</b>方法和應用指導
    主站蜘蛛池模板: 狠狠色噜狠狠狠狠色综合久| 国产成人mv在线观看入口视频| 迅雷www天堂在线资源| 福利片午夜| 伊人婷婷色香五月综合缴激情 | 成人av.com| 怡红院影院| 日本xxwwxxww视频免费丝袜| 久久99精品久久久久久秒播| 波多野结衣第一页| 亚洲一区二区三区中文字幕| 欧美日本一区二区三区生| 亚洲香蕉电影| 日韩欧美中文字幕在线视频| 美女黄18| aaaa日本| 久久国产美女| 国产黄色在线观看| 综合精品| 日韩欧美一区二区三区视频| 激情五月开心婷婷| 一级片在线观看视频| 九九午夜| 性感美女逼| 婷婷色六月| 久久人视频| 天天天天做夜夜夜夜| 东北老女人啪啪对白| 亚欧洲乱码专区视频| 性生活黄色毛片| 美女网站色免费| 小屁孩和大人啪啪| 成人在线一区二区三区| 男女视频在线| 日韩视频高清| www.激情网.com| 国产片在线| av福利网址网站| 免费日韩一级片| 天天干天天要| 亚洲黄网在线|