來源:3D視覺工坊
1. 導讀
運動重建(SfM)是一項在給定一組圖像的情況下聯合恢復相機姿態和場景三維幾何的任務,盡管取得了幾十年的重大進展,但仍然是一個具有許多開放挑戰的難題。SfM的傳統解決方案由復雜的最小解算器流水線組成,當圖像沒有充分重疊、運動過少等時,該流水線容易傳播錯誤并失敗。最近的方法試圖重新審視這一范式,但我們的經驗表明,他們沒有解決這些核心問題。在本文中,我們提出在最近發布的3D視覺基礎模型上構建,該模型可以魯棒地產生局部3D重建和精確匹配。我們引入了一種低內存的方法來精確地對齊全局坐標系中的這些局部重建。我們進一步表明,這種基礎模型可以作為有效的圖像檢索器,而沒有任何開銷,將整體復雜性從二次降低到線性。總的來說,我們的新型SfM流水線是簡單的、可擴展的、快速的和真正不受約束的,也就是說,它可以處理任何有序或不有序的圖像集合。在多個基準上的大量實驗表明,我們的方法在不同的設置上提供了穩定的性能,特別是在中小規模的設置上優于現有的方法。
2. 引言
運動恢復結構(SfM)是計算機視覺領域一個長期存在的問題,旨在根據每個相機拍攝的圖像來估計場景的3D幾何結構以及觀測該場景的相機的參數。由于它方便地同時為相機和地圖提供信息,因此構成了許多實用計算機視覺應用的重要組成部分,如導航(包括地圖繪制和視覺定位)、密集多視圖立體重建(MVS)、新視角合成、自校準甚至考古學。
實際上,SfM是一個“大海撈針”式的問題,通常涉及高度非凸的目標函數,存在許多局部最小值。由于在這種情況下找到全局最小值直接實現起來過于困難,因此傳統的SfM方法,如COLMAP,將問題分解為一系列(或流程)最小問題,例如關鍵點提取與匹配、相對姿態估計以及通過三角測量和捆綁調整實現的增量重建。異常值(如錯誤的像素匹配)的存在帶來了額外的挑戰,迫使現有方法在流程中的多個環節反復進行假設的提出和驗證,通常使用隨機抽樣一致算法(RANSAC)或其多種變體。這種方法幾十年來一直是標準做法,但它仍然很脆弱,當輸入圖像重疊不足或視點之間的運動(即平移)不足時,就會失效。
最近,一系列創新方法提出重新審視SfM,以減輕傳統流程的復雜性和解決其缺點。例如,VGGSfM引入了一種端到端的可微版本流程,簡化了其中的一些組件。同樣,無檢測器SfM用學習到的組件替換了經典流程中的關鍵點提取和匹配步驟。然而,這些變化必須放在適當的背景下考慮,因為它們并沒有從根本上挑戰傳統流程的整體結構。相比之下,FlowMap和Ace-Zero分別提出了一種全新的解決SfM問題的方法,該方法基于全局損失函數的簡單一階梯度下降。它們的訣竅是在場景優化過程中訓練一個幾何回歸網絡,作為重新參數化和正則化場景幾何結構的一種方式。不幸的是,這種方法僅在特定配置下有效,即對于重疊度高且光照變化小的輸入圖像。最后,DUSt3R證明,單個Transformer架構的前向傳遞就可以很好地估計出一個小型雙圖像場景的幾何結構和相機參數。這些特別穩健的估計然后可以使用簡單的梯度下降再次拼接在一起,從而放寬了前面提到的許多約束。然而,它產生的全局SfM重建結果相當不準確,且擴展性不好。
在本文中,我們提出了MASt3R-SfM,這是一個完全集成的SfM流程,能夠處理完全不受約束的輸入圖像集合,即從單個視圖到大規模場景,甚至可能沒有相機運動,如圖1所示。我們在最近發布的DUSt3R(一個3D視覺的基礎模型)的基礎上構建,特別是其最近的擴展MASt3R,它能夠在單個前向傳遞中執行局部3D重建和匹配。由于MASt3R從根本上僅限于處理圖像對,因此它在大規模圖像集合上的擴展性很差。為了解決這個問題,我們利用其凍結的編碼器進行快速圖像檢索,計算開銷可忽略不計,從而得到了一種具有圖像數量準線性復雜度的可擴展SfM方法。由于MASt3R對異常值具有魯棒性,因此所提出的方法能夠完全擺脫RANSAC。SfM優化基于MASt3R輸出的凍結局部重建結果,通過兩次連續的梯度下降進行:首先,使用3D空間中的匹配損失;然后使用2D重投影損失來細化先前的估計。
3. 效果展示
有趣的是,我們的方法超越了運動恢復結構,因為它在沒有運動(即純旋轉情況)時也能工作,如圖1所示。
上圖:使用隨機子采樣改變輸入視圖數量時CO3Dv2數據集的相對旋轉(RRA)和平移(RTA)精度(視圖越多,重疊越大)。與我們的競爭對手相比,MASt3R-SfM在整個范圍內提供了幾乎恒定的性能,即使是很少的視圖。下圖:MASt3R-SfM也可以在沒有運動的情況下工作,即在純旋轉設置下工作。我們在這里展示了共享同一個光學中心的6個視圖的重建。推薦課程:為什么說colmap仍然是三維重建的核心?
4. 主要貢獻
我們做出了三項主要貢獻。首先,我們提出了MASt3R-SfM,這是一個功能完備的SfM流程,能夠處理不受約束的圖像集合。其次,為了實現圖像數量的線性復雜度,我們展示了如何利用MASt3R的編碼器進行大規模圖像檢索,這是我們的第二項貢獻。請注意,只要提供現成的MASt3R檢查點,我們的整個SfM流程就無需訓練。最后,我們在一系列不同的數據集上進行了廣泛的基準測試,結果表明,盡管取得了顯著進展,但現有方法在小規模設置中仍然容易失敗。相比之下,如圖1所示,MASt3R-SfM在多種條件下均表現出最先進的性能。
5. 方法
我們提出了一種新穎的大規模3D重建方法,該方法包括圖2中概述的四個步驟。首先,我們使用高效且可擴展的圖像檢索技術構建共視圖。該圖的邊連接可能重疊的圖像對。其次,我們使用MASt3R對該圖的每條邊進行成對局部3D重建和匹配。第三,我們使用3D空間中的匹配損失和梯度下降,將所有局部點圖粗略對齊到同一世界坐標系中。這作為第四步的初始化,在這一步中,我們執行第二階段的全局優化,這次是最小化2D像素重投影誤差。下面我們將詳細介紹每個步驟。
6. 實驗結果
7. 總結 & 未來工作
我們引入了MASt3R-SfM,這是一種針對無約束結構從運動恢復(Structure from Motion, SfM)的相對簡單且完全集成的解決方案。
與當前存在的SfM流程相比,MASt3R-SfM能夠處理非常小的圖像集合,而不會出現明顯的問題。得益于我們方法所依賴的底層MASt3R基礎模型中編碼的強先驗知識,它甚至可以處理無運動的情況,并且完全不依賴于隨機抽樣一致性算法(RANSAC),這兩項特性通常在使用標準基于三角測量的SfM方法中無法實現。
-
相機
+關注
關注
4文章
1351瀏覽量
53612 -
開源
+關注
關注
3文章
3349瀏覽量
42500 -
模型
+關注
關注
1文章
3243瀏覽量
48840 -
計算機視覺
+關注
關注
8文章
1698瀏覽量
45993
原文標題:完虐COLMAP!全新開源SfM框架MASt3R:簡單、快速、可擴展的三維重建
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論