作者:| 來源:3DCV
筆者總結
本文提出了一種在線激光雷達語義分割框架MemorySeg,它利用三維潛在記憶來改進當前幀的預測。傳統的方法通常只使用單次掃描的環境信息來完成語義分割任務,而忽略了觀測的時間連續性所蘊含的上下文信息。該框架旨在解決在激光雷達表示中引入記憶的若干挑戰,包括遮擋、資源限制和動態場景。作者引入了一種點級鄰域變化正則化器,用于抑制局部三維鄰域內預測的劇烈變化,并在SemanticKITTI、nuScenes和PandaSet等公開數據集上驗證了MemorySeg的有效性。所提出的框架構建了周圍環境的稀疏三維潛在表示,提供了豐富的三維上下文,從而區分不同的類別,尤其是在當前被遮擋的區域。MemorySeg優于僅依賴激光雷達的當前最先進的語義分割方法。該方法能夠保留先前觀測到的區域,即使在當前被遮擋,因為遮擋物和被遮擋物在激光雷達觀測中占據不同的三維空間,而不是在距離視圖中重疊。與距離視圖(RV)相比,三維記憶為不同的類別分配了相同的表示能力,無論它們與自動駕駛車輛(SDV)的距離如何,保持了點之間的距離,無論視點或距離如何,并且學習了不同類別的尺寸先驗知識。
我們的方法學習一個三維稀疏潛在記憶表示,以更好地將先前幀聯系起來。我們應用 PCA 將潛在維數減少到3,并繪制為 RGB圖。
原文摘要
激光雷達點云的語義分割是近年來的研究熱點,大多數現有方法只關注于利用單次掃描的環境信息來完成這個任務。然而,觀測序列中包含的豐富上下文信息可以有助于提高對場景中難以觀測(例如被遮擋)或觀測稀疏(例如遠距離)區域的理解,并且可以在每次獲取新掃描時減少重復計算。在本文中,我們研究了如何利用過去幀的信息來在線地改進當前幀的預測。為此,我們提出了一種新穎的框架,用于處理激光雷達點云時間序列的語義分割,該框架利用記憶網絡來存儲、更新和檢索過去的信息。我們的框架還包括一種新的正則化器,該正則化器抑制點云局部鄰域內語義預測的變化。先前的工作嘗試在范圍視圖表示中將記憶集成到語義分割中,但是這些方法無法處理鄰近行為者的移動造成的遮擋,以及場景的范圍視圖表示發生的巨大變化。我們提出的框架通過構建周圍環境的稀疏三維潛在表示來克服這些限制。我們在SemanticKITTI、nuScenes和PandaSet上評估了我們的方法。實驗結果表明,與僅依賴激光雷達的當前最先進方法相比,我們的框架表現更好。
方法詳解
在這一節中,我們介紹MEMORYSEG,這是一個在線語義分割框架,用于流式激光雷達點云,它利用三維潛在記憶來記住過去并更好地處理遮擋和稀疏觀測。在本節的后續部分,我們首先描述我們的模型構建,然后介紹網絡體系結構,最后解釋學習過程。
3.1 模型構建
令表示激光雷達掃描序列,其中是序列長度,是時間索引。每個激光雷達掃描包含第幀的個無序點。包含笛卡爾坐標,是激光強度。讓是從時間到的車輛坐標系之間的姿態變換。
為了進行有依據的語義預測,在本文中,我們在三維中維護一個潛在(或隱藏)記憶。這個記憶是稀疏的,因為大多數三維空間是未被占用的。為了表示這種稀疏性,我們在時間的參數化記憶為一個稀疏體素集,其坐標為,對應嵌入為。是時間處潛在記憶中的體素條目數,是嵌入維度。保留體素坐標很重要,以便在參考坐標變化時執行對齊。我們利用基于體素的稀疏表示,因為與密集張量以及點級稀疏表示相比,它在計算上提供顯著的優勢,而性能不會受到損害。
我們的推理過程是每當有新的激光雷達掃描可用時,就重復執行以下三個步驟:(i)編碼器接收當前時刻的最新激光雷達點云,并提取點級和體素級的觀測嵌入,(ii)利用新觀測的體素級嵌入更新潛在記憶,(iii)通過結合編碼器的點級嵌入和更新后的記憶的體素級嵌入,解碼出語義預測。我們請讀者參考圖2以更好地理解我們的方法。
記憶更新階段由于SDV移動導致參考框架變化,記憶和當前激光雷達掃描的不同稀疏級別,以及其他行為者的運動而面臨挑戰。為了解決這些挑戰,引入了特征對齊模塊(FAM)將以前的記憶狀態與當前觀察嵌入對齊。隨后,采用自適應填充模塊(APM)在當前數據中填充丟失的觀察結果,并將新觀察結果添加到記憶中。然后,采用記憶完善模塊(MRM)使用填充后的觀察結果更新潛在記憶。接下來,我們將詳細解釋每個組件。
圖2. 模型概述。在編碼器處理時間t的激光雷達點云之后,結果特征圖用于更新潛在記憶(參見圖3了解有關記憶更新的更多詳細信息)。然后,解碼器將精煉的記憶與編碼器的點嵌入組合以獲得語義預測。
編碼器:我們的編碼器由點分支和體素分支組成。點分支計算點級嵌入,保留細節;體素分支通過三維稀疏卷積塊執行上下文推理。點分支為每個點接收一個7維特征向量,具有xyz坐標、強度以及最近體素中心的相對偏移。它包含兩個共享的MLP,輸出點嵌入,如圖2所示。我們對屬于同一體素的點(體素大小為)的第一個共享MLP的點嵌入進行平均,以獲得體素特征。然后,這些特征通過具有三維稀疏卷積的四個殘差塊處理,每個塊都將特征圖下采樣2倍。對具有三維稀疏卷積的兩個額外殘差塊進行上采樣,以將稀疏特征圖恢復原始大小。與恢復原始分辨率的完整U型網絡不同,為了計算效率,我們只上采樣到原始大小的,并使用更粗糙的特征來更新潛在記憶,然后再解碼更細微的細節以輸出我們的語義預測。
特征對齊:隨著SDV的移動,參考框架會發生變化。我們提出特征對齊模塊(FAM)將上一幀的潛在記憶從 ego幀轉換到,并與當前的觀察嵌入對齊。具體來說,我們獲取記憶體素坐標,并使用姿態信息將其從ego幀投影到。然后,我們使用投影坐標并以體素大小重新采樣。如果多個條目位于同一記憶體素內,我們取平均作為體素特征。得到的扭曲坐標和記憶在ego幀中的嵌入分別表示為和。
圖3. 潛在記憶更新過程概述。潛在記憶嵌入使用特征對齊模塊(FAM)轉換到t的ego幀。接下來,自適應填充模塊(APM)用于學習記憶和觀察嵌入的填充。記憶完善模塊(MRM)使用填充后的觀察嵌入更新潛在記憶。然后將更新的記憶傳遞到解碼器以生成語義預測。
自適應填充:為了處理潛在記憶和體素級觀測嵌入的不同稀疏級別,我們提出自適應填充模塊(APM)。參閱圖3。首先,我們以相同的體素大小重新采樣編碼器特征。同一體素內的條目進行平均。結果坐標和嵌入表示為和。在本節中,為簡潔起見,我們省略了。設和為當前掃描中記憶中不存在的新觀測的坐標和嵌入。要獲得新條目的記憶嵌入的初始猜測,我們在其周圍鄰域內使用加權聚合方法。這涉及考慮相對于記憶中現有相鄰體素的坐標偏移,這為聚合過程提供了關于其重要性的洞察,類似于Continuous Conv。除此之外,我們還將特征相似性和特征距離作為聚合過程的額外線索。編碼特征相似性特別有用,因為它可以為分配鄰域中的權重提供更多信息。在動態場景中有移動行為者時,網絡應該學習從相似嵌入的鄰域開始,而不是最接近的條目。更精確地說,我們在記憶中添加坐標為的條目,每個體素的嵌入初始化如下:
其中和是體素索引,是體素在中的近鄰,是一個共享的MLP,后接softmax層在鄰域尺寸上進行,以確保。
其次,我們標識記憶中在當前觀察中未被觀察到的區域,并將其坐標和嵌入表示為和。我們以類似的方式添加條目和來完成當前觀察。
記憶完善: 我們設計ConvGRU的稀疏版本來使用當前填充的觀察嵌入更新上一潛在記憶,如下所示:
其中,,是降采樣特征的稀疏三維卷積塊,目的是擴大感受野,并有上采樣層將嵌入恢復到原始大小。和是學習的信號,分別用于重置或更新記憶。我們引用讀者參考補充材料中有關稀疏卷積塊的詳細體系結構。
解碼器:我們的解碼器由一個MLP、兩個帶稀疏三維卷積的殘差塊和一個線性語義頭組成。具體來說,我們首先獲取在坐標處的對應記憶嵌入,并將其與來自編碼器的點嵌入相加。然后將得到的組合嵌入體素化,體素大小為,并通過兩個上采樣特征圖回原始分辨率的殘差塊進一步處理。與此同時,一個MLP獲取體素化之前的點嵌入,以保留細粒度細節。最后,語義頭獲取體素和點嵌入的組合,為每個點獲得語義預測。
記憶初始化 在序列開始時(),使用第一個觀測結果初始化記憶,其中,。
3.2 學習
我們通過最小化常規分割損失函數和新的點級正則化器的線性組合來學習我們的分割模型,以更好地監督網絡訓練。
這里,表示按類頻率的倒數加權的交叉熵損失,以解決數據集中的類別不平衡問題。Lovasz Softmax Loss()用作交集與聯合(IoU)指標(這是語義分割的常用評估指標)的可微分替代,以訓練網絡。另外,對應于我們提出的點級正則化器。,和是超參數。
點級平滑度:我們的正則器旨在限制語義預測在每個點的三維鄰域內的顯著變化,除非這些變化發生在類別邊界上。形式化地,
這里,表示點周圍的真實語義變化,而對應于點周圍的預測語義變化。我們使用表示預測的語義分布,使用表示真實的語義獨熱標簽。變量表示的第個元素。表示中點的鄰域,||表示鄰域中的點數。
實驗結果
論文針對nuScenes數據集、PandaSet數據集和SemanticKITTI數據集等進行了與最先進方法的比較實驗。結果表明,MemorySeg在這些數據集上取得了更先進的性能。
表1. 在SemanticKITTI測試集與最新方法的比較
表2. 在nuScenes激光雷達語義分割測試集與最新方法的比較
表3. 在PandaSet測試集與最新方法的比較
圖4. 在不同距離范圍的驗證集上與單幀基線(SFB)的比較
圖5. 隨時間的MEMORYSEG預測示意圖,在頂部左上角包括來自單幀基線(SFB)的預測以及具有顏色編碼的真值
表4. 提出的網絡組件消融實驗結果
表5. 提出的正則化器消融實驗結果
結論
在本文中,我們提出了一種新的在線LiDAR分割模型MEMORYSEG,它利用一個稀疏的三維潛在記憶遞歸地累積從過去觀察中學習到的語義嵌入。我們還提出了一個新的點級變化正則化器來監督三維點云上的語義分割學習。我們的結果表明,與僅依靠單個掃描的方法相比,我們的方法可以顯著改善遠區域的語義預測,克服這些區域更加稀疏,更容易部分遮擋的困難。展望未來,我們的未來工作將關注將實例分割和跟蹤集成到端到端的增強記憶全景分割框架中。
審核編輯:湯梓紅
-
三維
+關注
關注
1文章
511瀏覽量
29010 -
雷達
+關注
關注
50文章
2955瀏覽量
117754 -
激光雷達
+關注
關注
968文章
4000瀏覽量
190128 -
數據集
+關注
關注
4文章
1208瀏覽量
24748
原文標題:ICCV2023最新!MemorySeg:激光雷達語義分割SOTA!
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論