業務背景
高精地圖也稱為高分辨率地圖(High Definition Map, HDMap)或者高度自動駕駛地圖(Highly Automated Driving Map, HAD Map)。近些年,隨著自動駕駛技術以及業務的蓬勃發展,高精地圖成為了實現高等級自動駕駛必不可少的數據。
高精地圖是一類擁有精確的地理位置信息和豐富的道路元素語義信息的地圖數據,能起到構建類似于人腦對于空間的整體記憶與認知功能,可以幫助自動駕駛車輛預知路面復雜信息,如坡度、曲率、航向等,更好的規避潛在的風險。是實現自動駕駛的關鍵所在。
高精地圖以精細描述道路及其車道線、路沿、護欄、交通燈、交通標志牌、動態信息為主要內容,具有精度高、數據維度多、時效性高等特點。為自動駕駛汽車的規劃、決策、控制、定位、感知等應用提供支撐,是自動駕駛解決方案的基礎及核心。
高精地圖與普通的導航地圖不同,主要面向自動駕駛汽車,通過車輛自身特有的定位導航體系,協助自動駕駛系統完成規劃、決策、控制等功能,以及解決自動駕駛車輛計算性能限制問題,拓展傳感器檢測范圍。
通俗來講,高精地圖是比普通導航地圖精度更高,數據維度更廣的地圖。其精度更高體現在地圖精度精確到厘米級,數據維度更廣則體現在地圖數據除了道路信息以外還包括與交通相關的周圍靜態、動態信息。
普通導航地圖(左)vs高精地圖(右)
1.2 高精地圖對自動駕駛的價值
高精地圖作為自動駕駛的稀缺資源和必備構件,能夠滿足自動駕駛車輛在行駛過程中地圖精確計算匹配、實時路徑規劃導航、輔助環境感知、駕駛決策輔助和智能汽車控制的需要,并在每個環節都發揮著至關重要的作用。主要有以下幾個方面: 輔助環境感知 傳感器作為自動駕駛的感官,有其局限性,如易受惡劣環境影響,性能受限或者算法魯棒性不足等。高精地圖可以對傳感器無法探測或者探測精度不夠的部分進行補充,實現實時狀況的檢測以及外部信息的反饋,進而獲取當前位置精準的交通狀況。
通過對高精地圖的解析,可以將當前自動駕駛車輛周邊的道路、交通設施、基礎設施等元素和元素質檢的拓撲連接關系提取出來。如果自動駕駛汽車在行駛過程中檢測到高精地圖不存在的元素,則在一定程度上可將這些元素視為障礙物。通過該方式,可以幫助感知系統識別周圍環境,提高檢測精度和檢測速度,并節約計算資源。
輔助定位 由于定位系統可能因環境關系或者系統穩定性問題存在定位誤差,無人駕駛車輛并不能與周圍環境始終保持正確的位置關系,在無人駕駛車輛行駛過程中,利用高精地圖元素匹配可精確定位車輛在車道上的具體位置,從而提高無人駕駛車輛的定位精度。
相比更多的依賴于GNSS(Global Navigation Satellite System,全球導航衛星系統)提供定位信息的普通導航地圖,高精地圖更多依靠其準確且豐富的先驗信息(如車道形狀、曲率、路面導向箭頭、交通標志牌等),通過結合高維度數據與高效率的匹配算法,能夠實現符合自動駕駛車輛所需的高精度定位功能。
輔助路徑規劃決策 普通導航地圖僅能給出道路級的路徑規劃,而高精地圖的路徑規劃導航能力則提高到了車道級,例如高精地圖可以確定車道的中心線,可以保證無人駕駛車輛盡可能地靠近車道中心行駛。在人行橫道、低速限制或減速帶等區域,高精地圖可使無人駕駛車輛能夠提前查看并預先減速。對于汽車行駛附近的障礙物,高精地圖可以幫助自動駕駛汽車縮小路徑選擇范圍,以便選擇最佳避障方案。
輔助控制 高精地圖是對物理環境道路信息的精準還原,可為無人駕駛車輛加減速、并道和轉彎等駕駛決策控制提供關鍵道路信息。而且,高精地圖能給無人駕駛車輛提供超視距的信息,并與其他傳感器形成互補,輔助系統對無人駕駛車輛進行控制。
高精地圖為無人駕駛車輛提供了精準的預判信息,具有提前輔助其控制系統選擇合適的行駛策略功能,有利于減少車載計算平臺的壓力以及對計算性能瓶頸的突破,使控制系統更多關注突發狀況,為自動駕駛提供輔助控制能力。因此,高精地圖在提升汽車安全性的同時,有效降低了車載傳感器和控制系統的成本。
1.3 高精地圖生產的路線
精度與成本的平衡
與傳統的標精地圖生產相比,衛星影像已經無法滿足高精地圖的精度需求,地圖制作需要在地面進行實際道路采集。為了滿足高精地圖的精度需求,業界的各家公司分別給出了不同的數據采集方案。主要可以分為以激光雷達(LiDAR)+ 組合慣導 + RTK的高精度自采方案,以及有RTK+視覺的眾包采集方案。
簡單的講,這兩種方案主要是在精度與成本兩個因素中進行取舍的結果。兩者都經歷了長期的演進,孰優孰劣無法一概而論?;蛘哒f,方案的選擇更多的要看具體的業務需求與場景條件。接下來本文對兩種采集方案進行簡要的介紹。
“高富帥”的高精自采方案:LiDAR+慣導+RTK
很多自動駕駛廠商目前上線使用的高精地圖的原始數據都采集自高規格的多傳感器(LiDAR+慣導+RTK)采集設備。這種數據可重建出具備厘米級精度的道路地圖,但其采用的各種“頂配傳感器”動輒幾十萬元。業界常見的裝備齊全的高精地圖采集車通常都需要幾百萬元一輛。加上其背后的巨大的數據處理及運維成本,真可謂是“高富帥”的建圖方案。
“LiDAR+慣導+RTK” 采集方案的采集車12
在這種方案下,建圖主要過程是以慣導+RTK融合的位姿作為先驗,之后基于LiDAR點云進行三維場景的高精重建。得到精確的位姿和點云后,再通過LiDAR在地面上的反射率圖恢復出路面標識,并進一步進行矢量化,最終完成高精地圖的生產。通常而言,這種以LiDAR+慣導為主的建圖方法所獲得的高精地圖可以達到厘米級別的地圖精度,以滿足自動駕駛中實時精準定位的需求。
經濟實惠的視覺眾包方案:GNSS+視覺
對于高精地圖生產而言,最大的成本不在于完成一次全路網的地圖構建,而在于如何解決高精地圖的隨時更新。如何用較低的成本維持一個城市級別乃至國家級別路網的鮮度,才是各大地圖廠商面臨的最大挑戰。
隨著傳感器芯片的不斷發展,集成了GNSS、IMU(Inertial measurementunit,慣性測量單元)模塊與攝像頭的模塊的一體式設備成本已經到達百元級別。事實上,這一傳感器組合采集的數據在很多路況下已經可以勝任高精地圖重建任務。目前道路上有大量乘用車已經安裝了帶有GNSS功能的行車記錄儀。一方面,行車記錄儀可以保證日常的行車安全需要。另一方面,記錄儀采集的原始數據可以通過網絡回傳到服務器,經過數據清洗工作后形成建圖數據集,并進一步通過地圖重建算法形成高精地圖。
由于傳感器成本較低,這樣的采集數據較之上文的“高富帥”方案精度較低,同時受路況和天氣的影響較大。因此在這種方案下,需要有很好的算法能力以及數據清洗能力,才能完成相應的高精地圖生產與更新。
GNSS+視覺解決方案13 對于這種性價比極高的眾包方案,技術上有很多難關要攻克。例如如何高效合理的對原始采集數據進行回傳與篩選,如何指定特定的區域進行更新,如何克服低價傳感器帶來的各種誤差,如何解決設備多樣性帶來的誤差等等。同時,如果真的將這種方式投入到規模化的高精地圖生產,還需要解決好法律上的測繪合規的問題。 本文要介紹的視覺重建算法,正是這種高性價比重建方案中的核心技術。接下來,將基于這種GNSS+視覺的采集方式,介紹一下幾類可行的視覺重建系統設計方案。
視覺重建的系統設計
基于不同業務場景,數據特點,研發人員可以為視覺重建設計不同的算法流程。這里簡單介紹三類:基于Structure-from-Motion的重建、基于深度網絡的視覺重建、基于語義的矢量化視覺重建。下面將一一進行介紹。 2.1 基于Structure-from-Motion的重建 在視覺高精地圖重建方面,Structure-form-Motion (SfM) 方案是非常常見的選擇。從業務需求上講,建圖大多無實時性要求,而對精度的要求較為嚴格。相比之下,各種VO或SLAM方案要追求實時性,同時其最終的目的更傾向于定位,而非建圖。SfM方案更強調建圖的精度,方案中并無時序性要求。這為地圖的長期維護提供了便利。典型的SfM重建流程大致可以分為特征提取、稀疏重建,稠密重建三個步驟。
Colmap中的SfM重建流程1? 特征與匹配 在SfM中,首先要進行的就是特征點的提取與匹配工作。這一部分中,最經典的莫過于SIFT特征子1。如果不限制具體的應用場景(室內 vs. 室外,自然景觀 vs. 人造物體等等),那么SIFT特征子可以在各類場景中均有比較穩定的特征提取與匹配結果。 隨著近些年深度學習網絡的發展,很多研究者提出了基于深度學習的特征提取與匹配方案。其中最著名的當屬MagicLeap團隊提出的SuperPoint(CVPR2018)2+ SuperGlue(CVPR2020)3方案。 SuperPoint作為一種特征點提取算法,采用了自監督的方式進行訓練,并采用了Homographic Adaptation技術大大加強了提取特征點的場景適應性。相比于傳統的SIFT,提取的特征點可信度更強。 SuperGlue作為一種特征匹配算法,引入了注意力機制來強化網絡對特征的表達能力,從而使得在視差較大的兩幅圖像之間仍然可以很好的找到特征點間的匹配關系。在CVPR2020/ECCV2020的indoor/outdoor localization challenges中,使用了SuperPoint以及SuperGlue的方案名列前茅,充分展現了這兩種方法在特征提取與匹配方面的優勢。
基于SuperPoint+SuperGlue的特征提取與匹配效果1? 在今年的CVPR2021上,商湯團隊發表了LofTR?。該工作基于Transformer構建了一個端到端的特征匹配模型,對于弱紋理區域可以給出較為準確的匹配結果。由于Transformer提供了較大的感受野,使之可以更好的利用全局信息去對局部特征進行描述。相較SuperPoint+SuperGlue,該方法在室內的弱紋理場景有著更為穩定可信的匹配結果。
LofTR的特征匹配結果1?稀疏重建 完成了特征點的提取與匹配后,便可以開始增量式的稀疏重建。算法會基于一定的篩選條件,選擇兩幀作為初始幀,利用雙視幾何(two-view-geometry)的方法計算兩幀的相對位姿,并基于其中的一幀構建本次重建的坐標系。當位姿確認后,就可以基于特征點的匹配關系,三角化出空間中的3D地圖點。初始化完成后,便可以繼續選擇尚未注冊的新圖像注冊到模型中。注冊時可以用雙視幾何計算其與已有幀的相對位姿,也可以用3D-2D的方法(例如PnP, pespective-n-point)計算位姿,甚至可以使用精度較高的先驗位姿直接注冊。注冊后要再次進行三角化,計算出更多的3D地圖點。同時,在注冊一定數量的新幀后,需要進行BA(bundle adjustment)優化,進一步優化位姿與地圖點的精度。上述注冊新幀,三角化,BA優化的過程將循環進行,直到完成所有圖像的重建。最終,就獲得了所有圖像的位姿以及一個由稀疏地圖點構成的稀疏重建結果。
長距離稀疏重建結果
稠密重建
完成稀疏重建后,需要進行稠密化建圖。這個過程中,首先要解決深度估計問題。得到了深度圖之后,結合深度圖與相機位姿,就可以進行物體表面紋理的稠密重建。
以Colmap?中的稠密重建過程為例。首先要進行深度估計。這個模塊大致可分為匹配代價構造,代價累積,深度估計,深度圖優化這四個部分。Colmap中使用了NCC來構造匹配代價,之后使用Patch Match作為信息傳遞的策略。通過這個過程,深度估計問題轉化為針對每個特征,尋找其最優的深度和法向量。整個過程利用GEM算法進行優化。Colmap中的方案對于弱紋理的區域無法很好的給出較好的深度估計。
在得到深度估計結果(深度圖)后,各幀的深度圖會進行融合。在融合后RGB圖像上的像素就可以投影到三維空間中,得到稠密點云,完成最終的稠密重建。
對于道路場景而言,由于路面的特征點非常稀少(典型的弱紋理),所以使用經典的算法恢復路面紋理具有較大的挑戰。于是,很多研究者開始嘗試利用深度神經網絡去解決這一難題。
2.2 基于深度網絡的視覺重建 在SfM中,當在稀疏重建中獲得了相機的位姿之后,還需要稠密的深度圖來準確的恢復出路面的DOM(Digital Orthophoto Map,數字正射影像圖)以及各種交通標識。而基于特征點的SfM僅能提供一些稀疏的路面點,這對于恢復路面平面是遠遠不夠的。因此需要借助其他方法來進行稠密的深度恢復。 近些年,隨著深度學習的迅猛發展,越來越多的工作實現了基于RGB圖像的深度預測。按照工作發表的前后順序,大致可以將這一研究方向分為四類,分別是:基于單幀圖像的深度估計,基于多幀圖像的深度估計,同時估計相機運動與深度,基于自監督訓練的運動與深度估計。 基于單幀的深度估計 對于神經網絡深度估計,最簡單的方式要算基于單幀的深度估計。這一領域比較經典的工作有MonoDepth?及MonoDepth2?這兩個工作基于雙目的約束進行無監督訓練,獲得的模型可以基于單幀RGB圖像輸出深度圖。 此種方法雖然可以很好的預測出稠密的深度圖,但由于在預測過程中缺乏幾何約束,因此模型存在泛化性的問題。一旦相機參數或者場景類型發生了變化,模型很難保證可以給出正確的深度預測。同時,幀間的深度連續性也是這種方法難以解決的問題。因此,單幀的深度預測很難應用到高精地圖的重建過程中。
單目深度預測:MonoDepth21?
基于多幀圖像的深度估計
考慮到實際場景中我們的輸入是一個圖像序列,因此利用多視幾何(Multiview Video Stereo, MVS)進行多幀的深度估計可以很好的解決單幀深度估計中多幀之間的深度連續性問題,同時由于可以利用幀間的幾何約束,模型能預測更準確的深度值。
近些年很多工作圍繞這個問題展開。一個比較經典的工作是MVSNet?,作者利用多幀構建cost volume,對深度進行估計。獲得初步的深度估計結果后,再通過一個優化網絡,對深度圖做進一步的優化,最終可以得到比較理想的深度信息。對于視覺高精重建任務而言,由于位姿存在著一定的誤差。因此一旦某一幀的位姿計算錯誤,將會直接影響相鄰幀的深度預測。因此這種方案在道路重建任務中存在著一定的局限性。
同時估計相機運動與深度
解決多幀圖像深度估計問題時,可以借鑒經典SfM算法中“預測新幀的位姿-三角化獲得地圖點”這樣迭代的思路,讓網絡交替預測位姿與深度,并進行多輪迭代。這樣能保證深度與位姿之間可以有很好的幾何匹配,同時也可以獲得較高的預測精度。
在這一方面,DeepV2D?是一個比較有代表性的工作。DeepV2D中引入了深度估計和運動估計兩個子網絡。網絡會選取一個長度為5-8幀的滑窗,滑窗內的圖像會輸入到兩個子網絡中,推理得到的深度和位姿會相互更新。經過幾輪更新之后,最終就可以得到連續性好,精度高的深度預測結果。這種網絡設計充分的利用了圖像的運動特性與幾何約束,可以很好的利用相鄰的多幀信息的對深度進行預測。在兩個子網迭代結果的過程中,預測精度會逐漸收斂,得到的深度也會有比較好的連續性。
同時預測深度與相機運動的網絡:DeepV2D1?
下圖展示了使用LiDAR數據訓練而得的深度估計網絡模型,在實際道路上預測深度的結果。可見在這種典型的弱紋理場景下,網絡一方面可以較好的預測出平整的路面,同時也可以對物體邊緣(路沿,樹木)有較好的描述。
輸入RGB圖像(上)深度預測結果(下)
基于自監督訓練的運動與深度估計
在上一類工作中,為了訓練運動估計網絡與深度估計網絡,需要大量高精度的深度圖作為訓練數據。為了解決一些業務上缺乏訓練數據的問題,有一些研究者提出了無監督的訓練方法去進行單目深度估計訓練。例如最近在CVPR2021上發表的ManyDepth1?。類似于Monodepth,此方法利用了cost volume進行深度估計。對于相鄰幀,其預測了幀間的相對位置,以便于多幀之前構建cost volume。同時也使用提取局部特征的方法,將特征圖輸入到最終的深度預測中,提高深度預測的穩定性。對于道路場景深度預測中最難解決的動態物體問題,該工作也給出了基于置信度預測的解決方案。
自監督的單目深度估計網絡:ManyDepth1?
2.3 基于語義的矢量化視覺重建
端側實時重建
在業界一些廠商的實踐中,有些公司提出了“通過語義分割檢測+語義重建來創建矢量地圖”(地平線NavNet方案11)。該方案僅需一顆前視攝像頭,運用深度學習和SLAM技術實現了道路場景的語義三維重建,將建圖與定位的過程全部在車端實時進行。車輛通過前視攝像頭捕捉即時交通信息,然后抽象出道路場景的特征(即實現場景語義三維重建),并直接在車端完成地圖“繪制”與定位。 在數據采集過程中,路況信息的采集通過幾項相關的傳感器來實現——攝像頭,GNSS和IMU。在這之后,輸入的圖像數據會進行基于神經網絡的語義分析,以獲得主要的道路要素信息。 在建圖過程中,方案通過語義SLAM的方式來實現高精度地圖的創建。具體來說,方案使用語義分割檢測+語義重建來創建矢量地圖,將后端優化、語義識別和參數化等方面和鏈路,融合成為一條優化模塊——聯合優化模塊,既簡化了工作的流程,節約時間和運算能耗,又可以實現同樣的功能。 如果在同一路段有多次采集的數據,在云端可以將大量車輛采集的地圖片段數據進行關聯匹配,以矢量地圖要素的屬性參數為變量,根據屬性的相似度約束建立統一的目標函數,優化求解以獲得融合地圖結果。這一融合優化過程既可以定時全量執行,也可以根據地圖更新的結論,經過事件觸發進行高效融合之后,提供更新、更精準的地圖信息,即可快速地發布到車端供車輛定位導航使用。
離線重建
由于實時性的要求,端側實時重建方案需要偏定制化的硬件方案來提供足夠的算力支撐。另一方面,如果不需要實時的建圖,也可以使用前文提到的SfM方式先進行稀疏重建并使用神經網絡預測深度圖,之后結合語義分割結果進行后續的要素跟蹤與矢量化。
具體而言,在獲得相機位姿和深度信息后,可以將路面像素投影到世界坐標系中。之后,使用了語義跟蹤的技術來對反投影出的路面進行融合。也就是利用幀間特征點的匹配關系,將每一幀投影的路面切片進行對齊與融合,就可以得到相對平整清晰的路面DOM。同時在圖像上進行路面標識的檢測,基于檢測結果提取矢量關鍵點,并把這些關鍵點投到路面,就獲得了矢量化的路面標識。在長距離的重建過程中,在多次經過或者掉頭的場景,會出現已經矢量化的車道線或路面標識重影??梢詫σ呀浕謴统龅氖噶繕俗R進行回環檢測,并對其進行與融合,進一步消弭位姿與深度誤差帶來的影響。
基于語義分割及檢測進行路面標識矢量化(上)車道線矢量化的結果(下)
業務實踐中的探索
上文介紹了業界常見的幾種視覺建圖方案路線。在實際應用的過程中,可以基于業務場景、數據特點、成本限制、硬件條件等實際因素,對其中的一些步驟進行改造或組合。在這種改造中,只有對每種建圖路線的優劣、限制條件有著比較深入的理解,才能真正設計出貼合業務需求的好算法方案。在無人車的地圖生產過程中,我們結合實際運營的業務需求與場景條件,也進行了一些積極的探索。
在SfM重建過程中,目前稀疏重建算法只能處理短距離場景(2公里左右),而這距離實際業務需求有著指數級的差距。我們設計了分段重建、多段拼接以及聯合優化的策略,把稀疏重建算法真正的應用于實際業務,不僅保證了重建精度,絕對誤差控制在0.5米以內,而且極大的縮短了重建耗時。
在特征點提取以及深度估計的網絡訓練過程中,目前的公開數據集和實際業務場景之間存在較大的domain gap。因此我們采用了transfer learning的算法進行了初步的探索,取得了不錯的成果,最終重建的精度和穩定性都獲得了顯著的提升。
總結與展望
在高精建圖重建任務中,相比于激光建圖路線,視覺建圖路線具備精度略低,成本極低,算力消耗較低等特點。因此,視覺建圖更適合進行大范圍實時的更新。 在業務實踐中,激光建圖和視覺建圖的優勢被很好的融合在了一起。在視覺重建方案中,利用了激光建圖生成的點云數據進行訓練數據集的構建,得到了貼合實際場景的深度預測模型。通過視覺重建獲得的DOM和道路元素矢量結果可以對激光建圖結果形成很好的補充,提高了建圖生產的魯棒性。 在后續的迭代過程中,我們會持續的基于業務的需要和運營場景的特點進行技術優化。除了提升既有的方案性能,還將對一些新的方向進行探索,包括:
全路況全天候的更新發現技術
全國范圍內全等級道路的更新維護能力
端云結合的建圖計算架構
希望通過我們的努力,為無人車配送業務提供新鮮而高質量的高精地圖,保證業務的健康發展,把生活的便利帶給每一位消費者。
審核編輯 :李倩
-
自動駕駛
+關注
關注
784文章
13904瀏覽量
166730 -
無人車
+關注
關注
1文章
303瀏覽量
36505
原文標題:無人車業務中的視覺三維重建
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論