在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

利用NeRF訓練深度立體網絡的創新流程

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-05-29 10:49 ? 次閱讀

本文提出了一種新的深度立體網絡訓練框架,可以從使用單個手持相機拍攝的圖像序列中生成立體訓練數據。這種方法利用了神經渲染解決方案提供的立體圖像,跳過了基于ground-truth的訓練,使用三元組來補償遮擋和深度圖像作為代理標簽進行NeRF監督訓練。實驗結果表明,訓練模型的效果比現有的自我監督方法提高了30-40%,在Middlebury數據集中達到了受監督模型的效果,而且大多數情況下在零拍攝泛化方面表現出色。

1 前言

本文介紹了神經渲染用于構建靈活可擴展訓練數據的新范式,該方法可以輕松地訓練深度立體網絡且無需任何基礎知識。該方法使用標準單手持相機在野外收集稀疏的圖像序列,并在其上訓練NeRF模型。通過NeRF模型,可以從任意視點合成立體對以自我監督的方式訓練任何立體網絡,其中通過渲染每個對的第三個視圖來有效地解決遮擋問題。此外,NeRF渲染的深度作為代理監督完善了我們的NeRF監督訓練方法。實驗結果表明,相對于現有的自我監督方法和合成數據集方法,所提出的方法在零拍攝泛化方面表現更出色。

本文的主要貢獻可以總結為以下幾點:

創新的方法來使用神經渲染和一系列用戶收集的圖像序列來收集和生成立體訓練數據。

一個 NeRF-Supervised 訓練協議,結合渲染圖像三元組和深度圖來解決遮擋和增強細節。

在具有挑戰性的立體數據集上實現了最先進的零樣本泛化結果,且沒有利用任何真實立體對或基準。

29376a56-fcfc-11ed-90ce-dac502259ad0.png

2 相關背景

本文這部分介紹了立體匹配、無監督立體、零樣本泛化和神經輻射場等方面的相關工作。在立體匹配中,介紹了近幾年深度學習成為該領域主導技術的情況。然而,這些方法嚴格要求密集的真實地面實況。在無監督立體中,使用光度損失的策略是常見的,但根據作者的說法,這些策略只適用于單個領域的專業化或適應。在零樣本泛化中,將視差估算視為制作立體算法的問題進行改進是一條研究思路。在神經輻射場中,NeRF是主要的方法,其模型可以解決多種問題。作者提出的方法是通過從單個圖像生成立體對來學習,不需要在數百萬圖像上預先訓練任何模型或有實況標簽,但仍然能取得更好的結果。

3 方法

本文提出了NeRF-Supervised(NS)學習框架,用于訓練立體匹配網絡。該框架的步驟主要包括:從多個靜態場景中收集多視角圖像,適配NeRF以渲染立體三元組和深度信息,最后使用渲染的數據訓練立體匹配網絡。

29558db0-fcfc-11ed-90ce-dac502259ad0.png

3.1 Background: Neural Radiance Field (NeRF) - NeRF背景

神經放射場(NeRF)是一種將場景中點的 3D 坐標和捕捉該點的相機的視角作為輸入,映射到顏色-密度輸出的模型。為了渲染 2D 圖像,該模型通過將相機光線分成預定義的采樣點,并使用 MLP 估計每個采樣點的密度和顏色,最終使用體渲染合成 2D 圖像。顯式表示例如體素網格可以存儲其他特征,以加速模型訓練和計算。

3.2 NeRF as a Data Factory - NeRF作為數據工廠

這部分作者介紹了如何使用NeRF作為數據工廠生成立體圖像對以訓練深度立體網絡。首先,作者通過COLMAP對圖像進行預處理,然后為每個場景擬合獨立的NeRF,并使用渲染損失進行優化。最后,通過虛擬立體相機參數渲染兩個新視圖和一個第二個目標幀,創建完美校正的立體三元組。在這個過程中,我作者從渲染深度中提取位移,并用它來輔助訓練深度立體網絡。

3.3 NeRF-Supervised Training Regime - NeRF監督訓練機制

作者提出了一個NeRF-Supervised訓練方案,其中利用一個圖像三元組通過光度損失和渲染位移損失對深度立體模型進行監督。三元組光度損失通過使用圖像重建來對遮擋問題進行補償。渲染位移損失被過濾以去除不可靠的像素。最終,兩個損失被加權平衡后,用于訓練任何深度立體網絡。

29b3ab0c-fcfc-11ed-90ce-dac502259ad0.png

4 實驗

4.1 實施細節

作者使用移動設備捕獲的高分辨率場景進行深度估計的方法。通過收集270個靜態場景和渲染三元組來生成訓練數據,并使用Instant-NGP作為NeRF engine實現,以實現精確深度估計。此外,還引入了一個提議來提高現有立體算法的性能,并利用普通的相機進行實現。其中,作者采用了準確性和快速收斂的RAFT-Stereo作為主要架構,并使用PSMNet和CFNet進行評估,提高了這些算法的性能。

4.2 評估數據集與協議

作者使用KITTI、Middlebury和ETH3D數據集進行評估,計算視差誤差指標,并按照立體匹配領域的協議定義驗證和測試集。評估采用固定的閾值τ,分別為KITTI固定τ = 3,Middlebury固定τ = 2,ETH3D固定τ = 1。在評估期間,考慮遮擋和非遮擋區域并具有有效的基準視差。

歡迎關注微信公眾號「3D視覺工坊」,加群/文章投稿/課程主講,請加微信:QYong2014,添加時請備注:加群/投稿/主講申請

4.3 消融研究

作者使用渲染視頻生成大規模立體訓練數據集的方法,涉及渲染參數選擇,標簽生成和代理損失的選擇方法等。在進行降板研究時,作者發現在他們的數據集上使用L3ρ損失是最佳的,這利用了他們的渲染三重組合產生的三角形幾何形狀的自監督。本文還介紹了使用虛擬基線對視差分布的影響,評估了渲染圖像的分辨率以及收集的場景數量在訓練過程中的影響。作者發現,更多的圖像及更小的虛擬基線可以提高模型的性能。在最具挑戰性的數據集上使用更多場景可以顯著提高模型的準確性。

29f71b08-fcfc-11ed-90ce-dac502259ad0.png2a16b1e8-fcfc-11ed-90ce-dac502259ad0.png2a396f58-fcfc-11ed-90ce-dac502259ad0.png

4.4 與MFS對比

作者比較了本文的方法和最新的從單一圖像生成立體圖對方法MfS,并通過訓練三種立體網絡得出。研究表明,在使用MfS生成方法和使用MfS數據集上訓練時,MfS表現較好(A,D和G)。然而,本文的方法在不需要使用大量訓練數據的情況下,通過NS范式提供的監督訓練的立體網絡在大多數情況下表現更好,證明了我們的NS范式實現了更好的性能和更高的預測質量。

2a491264-fcfc-11ed-90ce-dac502259ad0.png

4.5 零樣本泛化基準測試

作者針對立體視覺領域的零樣本泛化問題,在NS-PSMNet模型的基礎上進行了實驗評估并與其它先進方法進行了比較。針對不同論文中關于Middlebury數據集評估協議的不一致性問題,本文重新評估了相關方法并建立了一個公共評估協議。通過對比實驗結果,本文發現組合使用泛化能力較強的RAFT-Stereo和NS的方法可以在Middlebury數據集上獲得最佳結果。同時,在使用全部數據集作為評估標準時,NS-PSMNet模型的表現優于除了PSMNet的其他先進方法。

2a7a0f68-fcfc-11ed-90ce-dac502259ad0.png

5 總結

NeRF-Supervised Deep Stereo提出了一種新的學習框架,可以輕松地訓練立體匹配網絡,而不需要任何ground-truth數據,該論文還提出了一種NeRF-Supervised訓練協議,該協議結合了渲染圖像三元組和深度圖,以解決遮擋問題并增強細節,實驗結果表明,該模型在挑戰性的立體數據集上取得了最先進的零樣本泛化結果。

本文提出了一種利用NeRF訓練深度立體網絡的創新流程,通過單個低成本手持相機捕捉圖像進行訓練,產生了最先進的零樣本泛化,超越了自我監督和監督方法。雖然局限于小規模、靜態的場景,而且仍無法處理具有挑戰性的條件,但是作者的工作是數據民主化的顯著進步,將成功的關鍵置于用戶手中。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7033

    瀏覽量

    89040
  • 網絡
    +關注

    關注

    14

    文章

    7567

    瀏覽量

    88794

原文標題:CVPR2023 I NeRF-Supervised Deep Stereo:不需要任何ground-truth數據

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    利用深度循環神經網絡對心電圖降噪

    具體的軟硬件實現點擊 http://mcu-ai.com/ MCU-AI技術網頁_MCU-AI 我們提出了一種利用由長短期記憶 (LSTM) 單元構建的深度循環神經網絡來降 噪心電圖信號 (ECG
    發表于 05-15 14:42

    關于創新訓練計劃項目

    學校有個大學生創新訓練計劃項目的申報,不知道做什么,想做個電子類的,只會一點單片機基礎,c語言麻煩各位給點建議。。。
    發表于 04-25 23:14

    人工智能AI-卷積神經網絡LabVIEW之Yolov3+tensorflow深度學習有用嗎?

    python編程語言的前提下,使用labview訓練和部署深度學習模型,并配備相關案例視頻以及源碼。適用人群:1、適用于工業自動化行業從業者利用labview或者C#進行深度學習應用;
    發表于 11-27 11:19

    基于虛擬化的多GPU深度神經網絡訓練框架

    針對深度神經網絡在分布式多機多GPU上的加速訓練問題,提出一種基于虛擬化的遠程多GPU調用的實現方法。利用遠程GPU調用部署的分布式GPU集群改進傳統一對一的虛擬化技術,同時改變
    發表于 03-29 16:45 ?0次下載
    基于虛擬化的多GPU<b class='flag-5'>深度</b>神經<b class='flag-5'>網絡</b><b class='flag-5'>訓練</b>框架

    深度學習網絡訓練技巧的詳細資料匯總

    本文檔的主要內容詳細介紹的是深度學習網絡訓練技巧匯總,總結訓練網絡的各種經驗和技巧
    發表于 03-07 08:00 ?10次下載
    <b class='flag-5'>深度</b>學習<b class='flag-5'>網絡</b><b class='flag-5'>訓練</b>技巧的詳細資料匯總

    基于預訓練模型和長短期記憶網絡深度學習模型

    語義槽填充是對話系統中一項非常重要的任務,旨在為輸入句子的毎個單詞標注正確的標簽,其性能的妤壞極大地影響著后續的對話管理模塊。目前,使用深度學習方法解決該任務時,一般利用隨機詞向量或者預訓練詞向量
    發表于 04-20 14:29 ?19次下載
    基于預<b class='flag-5'>訓練</b>模型和長短期記憶<b class='flag-5'>網絡</b>的<b class='flag-5'>深度</b>學習模型

    NVIDIA GPU加快深度神經網絡訓練和推斷

    深度學習是推動當前人工智能大趨勢的關鍵技術。在 MATLAB 中可以實現深度學習的數據準備、網絡設計、訓練和部署全流程開發和應用。聯合高性能
    的頭像 發表于 02-18 13:31 ?2052次閱讀

    NeRF的基本概念及工作原理

    神經輻射場 (NeRF) 是一個完全連接的神經網絡,可以基于部分 2D 圖像集生成復雜 3D 場景的新視圖。它被訓練使用渲染損失來重現場景的輸入視圖。它的工作原理是獲取代表場景的輸入圖像并在它們之間進行插值以渲染一個完整的場景。
    的頭像 發表于 08-29 11:01 ?2.3w次閱讀

    Block nerf:可縮放的大型場景神經視圖合成

    為了在大場景中應用神經輻射場(NeRF)模型,文章提出將大型場景分解為相互重疊的子場景 (block),每一個子場景分別訓練,在推理時動態結合相鄰 Block-NeRF 的渲染視圖。
    的頭像 發表于 10-19 15:15 ?1541次閱讀

    了解NeRF 神經輻射場

    介紹 NeRF( Neural Radiance Fields )是一種先進的計算機圖形學技術,能夠生成高度逼真的3D場景。它通過深度學習的方法從2D圖片中學習,并生成連續的3D場景模型。NeRF
    的頭像 發表于 06-12 09:52 ?5600次閱讀
    了解<b class='flag-5'>NeRF</b> 神經輻射場

    基于NeRF的隱式GAN架構

    一小部分2D圖像合成復雜3D場景的新視圖方面提供了最先進的質量。 作者提出了一個生成模型HyperNeRFGAN,它使用超網絡范式來生成由NeRF表示的三維物體。超網絡被定義為為解決特定任務的單獨目標
    的頭像 發表于 06-14 10:16 ?1061次閱讀
    基于<b class='flag-5'>NeRF</b>的隱式GAN架構

    深度學習框架區分訓練還是推理嗎

    深度學習框架區分訓練還是推理嗎 深度學習框架是一個非常重要的技術,它們能夠加速深度學習的開發與部署過程。在深度學習中,我們通常需要進行兩個關
    的頭像 發表于 08-17 16:03 ?1389次閱讀

    利用PyTorch實現NeRF代碼詳解

    神經輻射場(NeRF)是一種利用神經網絡來表示和渲染復雜的三維場景的方法。它可以從一組二維圖片中學習出一個連續的三維函數,這個函數可以給出空間中任意位置和方向上的顏色和密度。通過體積渲染的技術,
    的頭像 發表于 10-21 09:46 ?745次閱讀

    人臉識別模型訓練流程

    人臉識別模型訓練流程是計算機視覺領域中的一項重要技術。本文將詳細介紹人臉識別模型的訓練流程,包括數據準備、模型選擇、模型訓練、模型評估和應用
    的頭像 發表于 07-04 09:19 ?971次閱讀

    如何利用Matlab進行神經網絡訓練

    ,使得神經網絡的創建、訓練和仿真變得更加便捷。本文將詳細介紹如何利用Matlab進行神經網絡訓練,包括
    的頭像 發表于 07-08 18:26 ?1888次閱讀
    主站蜘蛛池模板: 51国产午夜精品免费视频| 国产欧美日韩视频免费61794| 免费看黄资源大全高清| 中文字幕佐山爱一区二区免费| 亚洲国产精品综合久久网络 | 人人澡人| 中国一级特黄剌激爽毛片| 97精品久久天干天天蜜| 亚洲黄色三级网站| 国产福利资源| 97精品伊人久久久大香线焦| 午夜乩伦| 亚洲六月丁香六月婷婷花| 特黄特色网站| 久久中文字幕综合婷婷| 天堂w| 国产紧缚jvid| 男人j进女人j视频| 欧美成人三级伦在线观看| 成人永久免费视频| 欧美性网站| 日韩色网站| www.激情.com| 很黄的网站在线观看| www.亚洲成人| 日本片免费观看一区二区| 亚洲国产片| 福利在线看片| 泰国一级毛片aaa下面毛多| 最新欧美一级视频| 美女扒尿口给男人桶到爽| 久久e| 欧美极品在线观看| 欧美性free| 香蕉操| 国产成人精品系列在线观看| 国产稀缺精品盗摄盗拍| 中文字幕1区| 久久久免费网站| 欧美xingai| 美女被拍拍拍拍拍拍拍拍|