摘要
虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)(XR)帶來了對3D內(nèi)容生成的不斷增長需求。然而,創(chuàng)建高質(zhì)量的3D內(nèi)容需要人類專家進(jìn)行繁瑣的工作。在本文中,我們研究了將單個圖像提升為3D對象的具有挑戰(zhàn)性的任務(wù),并首次展示了能夠生成與給定參考圖像相對應(yīng)的具有360°視圖的可信3D對象。通過條件化參考圖像,我們的模型可以滿足從圖像合成物體新視角的永恒好奇心。我們提出了NeuralLift-360,一種新穎框架,利用深度感知神經(jīng)輻射場生成可信3D對象,并通過CLIP引導(dǎo)擴(kuò)散先驗(yàn)學(xué)習(xí)概率驅(qū)動3D提升,并通過比例不變深度排名損失減輕深度誤差。我們在真實(shí)和合成圖像上進(jìn)行了全面實(shí)驗(yàn),在這些實(shí)驗(yàn)中,NeuralLift-360優(yōu)于當(dāng)前最先進(jìn)方法。
主要貢獻(xiàn)
? 針對野外的單張圖片,我們展示了將其提升到3D的有前景的結(jié)果。我們使用NeRF作為有效的場景表示,并整合來自擴(kuò)散模型的先驗(yàn)知識。
? 我們提出了一種以CLIP為引導(dǎo)的采樣策略,有效地將擴(kuò)散模型的先驗(yàn)知識與參考圖像結(jié)合起來。
? 當(dāng)參考圖像難以精確描述時,我們在保持其生成多樣內(nèi)容以指導(dǎo)NeRF訓(xùn)練的能力的同時,對單張圖像進(jìn)行擴(kuò)散模型的微調(diào)。
? 我們引入了一種使用排名信息的尺度不變深度監(jiān)督。這種設(shè)計減輕了對準(zhǔn)確多視角一致深度估計的需求,并擴(kuò)大了我們算法的應(yīng)用范圍。
主要方法
1.從單個2D圖像中生成3D點(diǎn)云:首先,使用一個預(yù)訓(xùn)練的2D圖像到3D點(diǎn)云模型來生成初始點(diǎn)云。然后,使用一個深度感知神經(jīng)輻射場來對點(diǎn)云進(jìn)行細(xì)化和修正。具體地,該神經(jīng)輻射場將每個點(diǎn)的深度值作為輸入,并輸出一個向量場,該向量場將每個點(diǎn)移動到其正確的位置。
2.從3D點(diǎn)云中生成可渲染的3D網(wǎng)格:使用一個基于深度學(xué)習(xí)的方法來將點(diǎn)云轉(zhuǎn)換為可渲染的3D網(wǎng)格。具體地,該方法使用一個編碼器網(wǎng)絡(luò)將3D點(diǎn)云編碼為特征向量,并使用一個解碼器網(wǎng)絡(luò)將特征向量解碼為可渲染的3D網(wǎng)格。
3.從可渲染的3D網(wǎng)格中生成360°視圖:使用一個基于深度學(xué)習(xí)的方法來生成與給定參考圖像相對應(yīng)的具有360°視圖的可信3D對象。具體地,該方法使用一個編碼器網(wǎng)絡(luò)將參考圖像編碼為特征向量,并使用一個解碼器網(wǎng)絡(luò)將特征向量解碼為360°視圖。
4.使用CLIP引導(dǎo)擴(kuò)散先驗(yàn)學(xué)習(xí)概率驅(qū)動3D提升:使用一個基于擴(kuò)散的方法來生成3D對象,并使用CLIP模型來指導(dǎo)擴(kuò)散過程。具體地,該方法使用一個初始的3D對象,并通過多次迭代來擴(kuò)散該對象。在每次迭代中,使用CLIP模型來計算當(dāng)前3D對象與參考圖像之間的相似度,并將相似度作為概率分布來指導(dǎo)擴(kuò)散過程。
5.使用比例不變深度排名損失減輕深度誤差:使用一個比例不變深度排名損失來訓(xùn)練模型,以減輕深度誤差。具體地,該損失函數(shù)將每個像素的深度值與其在圖像中的排名相關(guān)聯(lián),并使用比例不變的方式來計算損失。這種方法可以減輕深度誤差,并提高模型的性能。
主要結(jié)果
審核編輯 :李倩
-
編碼器
+關(guān)注
關(guān)注
45文章
3655瀏覽量
134954 -
網(wǎng)格
+關(guān)注
關(guān)注
0文章
139瀏覽量
16032 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5511瀏覽量
121362
原文標(biāo)題:NeuralLift-360:將野外的2D照片提升為3D物體
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論