作者引入了一種方法,可以僅使用單個寬基線立體圖像對生成新視角。在這種具有挑戰性的情況下,3D場景點只被正常觀察一次,需要基于先驗進行場景幾何和外觀的重建。作者發現從稀疏觀測中生成新視角的現有方法因恢復不正確的3D幾何和可導渲染的高成本而失敗,這阻礙了其在大規模訓練中的擴展。作者通過構建一個多視圖轉換編碼器、提出一種高效的圖像空間極線采樣方案來組裝目標射線的圖像特征,以及一個輕量級的基于交叉注意力的渲染器來解決這些問題。作者的貢獻使作者的方法能夠在一個大規模的室內和室外場景的真實世界數據集上進行訓練。作者展示了本方法學習到了強大的多視圖幾何先驗,并降低了渲染時間。作者在兩個真實世界數據集上進行了廣泛的對比實驗,在保留測試場景的情況下,明顯優于先前從稀疏圖像觀測中生成新視圖的方法并實現了多視圖一致的新視圖合成。
1 前言
本文介紹了在極端稀疏輸入條件下進行新視圖合成的問題,提出了一個從單個廣角立體圖像對中生成高質量新視圖的方法。為了更好地推理三維場景,提出了一個多視圖視覺變換器來計算每個輸入圖像的像素對準特征,并引入多視圖特征匹配以進一步煉化三維幾何。通過采用以圖像為中心的采樣策略,提出了一種高效的可微分渲染器,解決了樣本稀疏問題,從而大大減少了樣本量需求。實驗證明了該方法在幾個數據集上均獲得了最先進的結果,比現有方法表現出更好的性能。
2 相關背景
IBR方法通過融合一組輸入圖像的信息生成新的相機視角下的圖像。單場景體繪制方法則利用可微渲染進行的3D場景表示來進行新視角合成。不同于IBR方法需要多個輸入圖像,單場景體繪制方法需要數百個密集采樣的3D場景的輸入圖像。與這兩種方法不同,一些方式使用可微渲染來監督基于先驗的推理方法,即先驗知識可以幫助優化3D重建和視圖合成。現有的方法普遍依賴于多個圖像觀測,而作者的方法通過僅使用一組寬基線立體圖像對場景進行重建來解決這一問題。
3 方法
本文提出一種用于生成3D場景新視角圖像的方法。該方法使用已知相機內參和外參以及寬基線立體圖像計算像素對齊的特征,并使用基于交叉注意力的渲染器將特征轉換為新視角的圖像渲染結果。該方法為解決新視角圖像生成問題提供了一種有效的解決方案。
3.1 Multiview Feature Encoding - 多視圖特征編碼
本文中提出了一種多視角編碼器來獲取特征。該方法包括兩個階段:首先通過ResNet50提取基礎卷積特征。然后,通過學習的每像素位置嵌入和相機位置嵌入將這兩個圖像轉換為平面特征向量。接下來,這些向量經過視覺Transformer編碼器處理,使每個向量的表示包含了整個場景的上下文。最后,用一個低分辨率的基礎CNN獲取高頻的圖像信息,這些信息與之前的圖像特征映射級聯在一起。
3.2 Epipolar Line Sampling and Feature Matching - 線極線采樣和特征匹配
本文提出了一種基于像素對齊特征的通用的新視角合成方法。通過對極線采樣來找到樣本點,然后使用特征匹配模塊計算來自另一個視圖的次要特征,以進一步處理表面細節。采用基礎矩陣來定義不同視圖生產的極線,并在其上采樣像素來獲得樣本。深度值可通過封閉形式的三角測量獲得。在這種方法中,樣本點的數量已達到有效最大值。
3.3 Differentiable Rendering via Cross-Attention - 交叉注意力實現可微分渲染
本文介紹了使用交叉注意力實現可微分渲染的方法。為了將樣本集映射到顏色值,作者將每個視差線上的點嵌入為一個射線查詢標記。然后,作者的渲染程序通過兩輪交叉注意力,得到特征嵌入,然后通過簡單的 MLP 解碼為顏色。作者的方法不需要顯式計算精確的場景深度,而是可以使用目標相機射線信息和少數視差樣本計算像素顏色。
3.4 Training and Losses - 訓練和損失函數
在視圖合成中,訓練圖像合成模型的損失函數是關鍵。模型應該能夠生成與真實圖像盡可能接近的合成圖像。本文提出了由圖像損失和正則化損失組成的損失函數,其中圖像損失通過LPIPS感知損失測量。此外,正則化損失有助于提高多視角一致性。作者還使用幾何一致的數據增強來提高模型的泛化能力。
4 實驗
在本文中,作者展示的方法可以從寬基線立體圖像中有效地渲染新視角。作者在不同類型的場景中進行了評估和分析,并且成功應用了該方法在野外捕獲的場景中。
4.1 實驗細節
作者在RealEstate10k和ACID這兩個大型室內外場景的數據集上進行訓練和評估。作者使用67477個場景進行RealEstate10k的訓練和7289個場景進行測試,11075個場景進行ACID的訓練和1972個場景進行測試,按照默認的劃分方法。作者使用256×256分辨率的圖像對作者的方法進行訓練,并在測試場景中評估方法的重建中間視角的能力(詳細信息在附錄中)。
作者將作者的方法與幾種現有的從稀疏圖像觀測中合成新視角的方法進行比較。作者將比較使用像素對齊特征的pixelNeRF和IBRNet,這些特征被解碼成使用體積渲染渲染的3D體積。作者還將與使用視覺變換器骨干計算極線特征和基于光場渲染器計算像素顏色的通用補丁渲染(GPNR)進行比較。這些基線涵蓋了現有方法中使用的各種設計選擇,例如使用CNN和transformer計算的像素對齊特征圖,使用MLP和transformer進行的特征解碼體積渲染以及基于光場的渲染。
作者為所有基線使用公開可用的代碼庫,并使用作者用于公正評估的相同數據集對其進行訓練。有關更多基線的比較,請參見補充材料。評估指標。作者使用LPIPS ,PSNR,SSIM和MSE指標來比較渲染圖像與地面真實圖像的圖像質量。
4.2 室內場景的神經渲染
在各種評估指標下,本文的方法在室內場景中渲染新視角時均優于比較的基線。此外,與其他方法相比,該方法能更好地重建場景的3D結構,并捕獲更多的高頻細節,這為視覺應用提供了更好的合成質量。
4.3 室外場景的神經渲染
本文研究對具有潛在無界深度的戶外場景進行了神經渲染的評估,展示了定性和定量結果,指出了該方法在重建幾何結構、多視角一致的渲染以及各項指標方面的表現均優于基線方法。
4.4 消融實驗
本文研究進行了組件分析和消融實驗。消融實驗表明了我們方法的各個組件對性能的貢獻,其中包括2D極線采樣、多視編碼器、跨圖像的對應關系匹配、多視一致性的正則化損失以及數據增強。此外,本研究對不同渲染方法的質量和速度進行了比較,結果顯示我們的輕量級方法在質量和速度方面實現了最佳的平衡,并提升了高質量視頻的渲染速度。最后,我們可視化了我們方法中的基礎極線注意權重,用來分析渲染器的學習計算。
4.5 從不規定姿態圖像中合成新視角
本文提出了一種方法,可以使用寬基線立體圖像合成新視角,即使在未知相對位姿的情況下。在這種情況下,使用SuperGlue計算像素對應關系,使用平均內參估計本質矩陣,從而推導出姿態信息。這一方法可以處理不規定姿態的圖像,能較好地推斷場景的幾何形狀。
5 討論
本文提出了一種通過非常稀疏的視角輸入合成場景的方法。然而,該方法的渲染結果質量不如其他基于更多圖像的優化方法。同時,由于該方法依賴于學習先驗知識,其適用范圍受到限制。雖然該方法能夠擴展到處理多于兩個輸入視角,但是目前只嘗試了處理兩個視角。
6 總結
本文提出了一種僅使用自監督訓練實現從單個寬基線立體圖像對中進行隱式3D重建和新視角合成的方法。該方法利用多視角編碼器、圖像空間對極線特征采樣方案和基于交叉注意力的渲染器,在具有挑戰性場景數據集上超越了以往方法的質量,同時在渲染速度和質量之間取得了很好的平衡。同時,利用對極線幾何在結構化和通用化學習范例之間進行平衡,該方法可在RealEstate10k等現實數據集上進行訓練。
責任編輯:彭菁
-
3D
+關注
關注
9文章
2878瀏覽量
107549 -
數據集
+關注
關注
4文章
1208瀏覽量
24703 -
渲染器
+關注
關注
0文章
18瀏覽量
3238
原文標題:CVPR2023 I 一種全新的單個寬基線立體圖像對中學習渲染新視角的方法
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論