對于具有豐富的日常經(jīng)驗的人類來說,我們可以通過單一的圖像推斷出物體的三維形貌,甚至對從未見過的物體也能夠通過單一視角的圖像對其形狀有八九不離十的感官認知,但這對計算機來說卻是一個巨大的挑戰(zhàn)。目前從單一視圖重物體的三維形貌極大地受到了訓(xùn)練數(shù)據(jù)的影響,對于未知物體的重建依然存在著一系列問題。
視覺領(lǐng)域的研究人員認為人類的這種能力來自于對于物體表示的復(fù)雜層級關(guān)系,通過將圖像映射到表面最終得到物體的體積和形狀信息,利用不同形式的表示來處理形狀不同方面的信息。為了有效的解決這一問題,研究人員提出了一種稱為一般性重建(Generalizable Reconstruction, GenRe)的算法,來捕捉與物體類別無關(guān)的形狀先驗特征,并實現(xiàn)了表現(xiàn)良好的單視圖形狀恢復(fù),對于未包含在訓(xùn)練集內(nèi)的物體也具有良好的重建效果。
近年來很多計算機視覺和機器學(xué)習(xí)領(lǐng)域的研究人員探索了從單張二維圖像重建出三維形狀的方法,包括ShapeNet和MarrNet等工作都在這個方向進行了一系列有益的探索,通過學(xué)習(xí)復(fù)雜龐大的數(shù)據(jù)集與其對應(yīng)視圖的映射關(guān)系來實現(xiàn)2D到3D的映射。三維形狀重建問題可以分解為f(2.5D->3D)&f(2D->2.5D)兩個子過程。
但很多現(xiàn)存的方法卻忽略了一個問題,從2D或者2.5D到3D形狀的映射會涉及復(fù)雜但確定的幾何投影過程,如果不為這個映射過程精確建模而簡單地使用神經(jīng)網(wǎng)絡(luò)來近似,會造成過度參數(shù)化/過擬合的現(xiàn)象。同時還會忽略這一投影過程中有價值的歸納偏置(inductive biases)。正是由于這兩個因素造成了目前的算法對于未知分類的重建泛化能力不盡如人意。
在這篇文章中,研究人員提出了一種解耦形狀重建幾何投影的過程,來實現(xiàn)對于未知物體更好的外形重建泛化能力。在MarrNet的基礎(chǔ)上,將先前的f(2.5D-3D)的映射解耦成了兩個過程:現(xiàn)充2.5D數(shù)據(jù)投影到部分的3D模型,再將部分3D模型構(gòu)建出完整的3D模型,此時f(2.5D->3D)=c(2.5D->3D)&p(2.5D->3D),變成了一個部分三維投影問題和三維體素補全問題的組合。但三維的形狀補全問題卻面臨著嚴(yán)重的稀疏性問題,得不到很好的重建效果。
于是研究人員提出了基于球坐標(biāo)(spherical maps)的三維補全。spherical maps是一種在單位球面上由UV坐標(biāo)定義的表示,其中坐標(biāo)點的值表示從這點沿直徑到三維物體表面的最短距離。這種表示結(jié)合了2D和3D的特征:其中球面可以看做是2D圖像的一種形式,那么就可以利用神經(jīng)網(wǎng)絡(luò)圖像修復(fù)的方法來進行補全;同時其中保留的語義信息可以將它重新投影到3D恢復(fù)完整的幾何形狀。這種表示使得我們可以通過可見區(qū)域來補全不可見區(qū)域,作為實現(xiàn)三維重建的中間步驟。此時上面的步驟就可以轉(zhuǎn)換為:f(2.5D->3D)=p(S->3D)c(s->s)p(2.5D->S),即2.5D先投影到S表示下,補全后再由S投影到3D。
綜上所述,將單幅圖像重建為三維形貌的模型總共包含了三部分:
首先利用單幅圖像來預(yù)測深度圖(2D->2.5D),并將深度圖投影到球表示上(2.5D->S);
隨后利用球面修復(fù)網(wǎng)絡(luò)來對其中的數(shù)據(jù)進行補全(s->s),將補全后的數(shù)據(jù)投影到3D體素表示(s->3D);
最后利用體素精調(diào)網(wǎng)絡(luò)來進一步提高體素空間中3D形狀的表示。
這一神經(jīng)網(wǎng)絡(luò)只需要為目標(biāo)的幾何外形建模而無需學(xué)習(xí)復(fù)雜的幾何投影關(guān)系。除了這一因素外,還有以下幾點提高了模型的泛化性:
模塊化設(shè)計使得模型學(xué)習(xí)上一模塊給出的特征,避免了模型記住訓(xùn)練集的形狀。
每個模塊的模型輸入輸出都在同一個域內(nèi),保證了更為有效的映射。
下面將具體介紹各個模塊的具體實現(xiàn)過程。
單視角深度估計器
這一模塊可以從干凈背景的輸入圖片估計出深度圖。深度估計是一個與類別無關(guān)的任務(wù),使用了自編碼器和U-NET的網(wǎng)絡(luò)架構(gòu),從256-256的輸入生成了512-1-1的特征圖,并通過對稱的網(wǎng)絡(luò)預(yù)測出深度圖。
球面修復(fù)網(wǎng)絡(luò)
通過將3D形狀補全問題轉(zhuǎn)化為二維球面的修復(fù)問題來實現(xiàn),這對于新類別物體有很好的泛華性,同時也比體素的方法更為高效。球面修復(fù)網(wǎng)絡(luò)的結(jié)構(gòu)類似深度估計,利用了標(biāo)準(zhǔn)的卷積網(wǎng)絡(luò),但為了適應(yīng)球面周期性的結(jié)構(gòu),在訓(xùn)練目標(biāo)和輸入上加入了周期性的padding。
體素精煉網(wǎng)絡(luò)
在球面修復(fù)后投影到體素空間的三維形狀還存在自遮擋問題,還需要通過精煉網(wǎng)絡(luò)來改善最終輸出的形狀。通過輸入從球面投影而來的體素表示和直接從深度圖投影而來的體素表示,共同生成最終的結(jié)果。
由于遮擋來自于局部的鄰近區(qū)域,網(wǎng)絡(luò)只需要學(xué)習(xí)局部的結(jié)構(gòu)先驗,而這也是與物體類別無關(guān)的過程。這一模塊的輸入包含了兩通道的128-128-128的三維體素,并輸入320D的隱變量,在解碼時每一個解碼層還接入了對應(yīng)編碼層的輸出。
模型表現(xiàn)
通過對三部分模塊進行訓(xùn)練后,研究人員給出了模型對于未知物體的重建表現(xiàn)。首先,利用汽車、椅子和飛機訓(xùn)練的單視圖深度估計器,在訓(xùn)練集未包含的物體類別上精度表現(xiàn)良好。
隨后對于訓(xùn)練集包含和未知的物體,這一算法GenRe也有著良好的表現(xiàn)。可以看到,除了飛機、汽車和椅子外其他都是沒有見過的物體,但依然可以獲得與GT較為接近的結(jié)果。
在真實數(shù)據(jù)上的重建誤差也達到了前沿水平:
最后為了驗證算法的有效性,研究人員利用訓(xùn)練好的模型對非剛體和高度規(guī)則化的幾何體進行了從深度圖到三維外形重建,依然保持了較好的效果。
這篇文章通過將三維形狀補全的工作投影到了二維球面上,使用了二維圖像修復(fù)類似的方法來實現(xiàn)三維圖像補全,提高了從單張圖像恢復(fù)三維形貌的精度,希望這一工作能對相關(guān)領(lǐng)域的研究帶來一些有益的想法。
-
計算機視覺
+關(guān)注
關(guān)注
8文章
1700瀏覽量
46059 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8435瀏覽量
132885 -
二維圖像
+關(guān)注
關(guān)注
0文章
9瀏覽量
7464
原文標(biāo)題:MIT研究人員提出新方法,可從單張圖片實現(xiàn)未知物體的三維外形重建
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論