作者:潘嘯,論文第一作者
0. 筆者前言
可泛化人體重建旨在在多個(gè)人體視頻上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)可泛化的重建先驗(yàn)。在測(cè)試階段,給定新人物的稀疏視角參考圖,在無(wú)需微調(diào)或者訓(xùn)練的情況下,可直接輸出新視角。以往方法大部分使用基于稀疏卷積(SparseConvNet)的人體表征方式,然而,一方面,稀疏卷積有限的感受野導(dǎo)致其對(duì)人體的自遮擋十分敏感,另一方面,其輸入為不斷變化的觀察空間姿勢(shì)下的人體,導(dǎo)致訓(xùn)練和推理階段的姿勢(shì)不匹配問(wèn)題,降低了泛化能力。
不同于此,本文工作TransHuman使用Transformer圍繞SMPL表面構(gòu)建了人體部位之間的全局聯(lián)系,并且將輸入統(tǒng)一在標(biāo)準(zhǔn)姿勢(shì)下,顯著的提升了該表征的泛化能力。在多個(gè)數(shù)據(jù)集上達(dá)到了新SOTA的同時(shí),具有很高的推理效率。
本文專(zhuān)注于可泛化人體重建任務(wù)。為了處理動(dòng)態(tài)人體的運(yùn)動(dòng)和遮擋,之前方法主要采用了基于稀疏卷積的人體表征。然而,該表征方式1)在多變的觀察姿勢(shì)空間進(jìn)行優(yōu)化,導(dǎo)致訓(xùn)練與測(cè)試階段輸入姿勢(shì)不一致,從而降低泛化性; 2)缺少人體部位之間的全局聯(lián)系,從而導(dǎo)致對(duì)人體的遮擋敏感。為了解決這兩個(gè)問(wèn)題,我們提出了一個(gè)新的框架TransHuman。TransHuman在標(biāo)準(zhǔn)姿勢(shì)空間進(jìn)行優(yōu)化, 并且使用Transformer構(gòu)建了人體部位之間的聯(lián)系。具體來(lái)講,TransHuman由三個(gè)部分組成:基于Transformer的人體編碼(TransHE), 可形變局部輻射場(chǎng)(DPaRF), 以及細(xì)粒度整合模塊 (FDI). 首先,TransHE在標(biāo)準(zhǔn)空間使用Transformer處理SMPL;然后,DPaRF將TransHE輸出的每個(gè)Token視為一個(gè)可形變的局部輻射場(chǎng)來(lái)獲得觀察空間下某一查詢(xún)點(diǎn)的特征。最后,F(xiàn)DI進(jìn)一步從參考圖中直接收集細(xì)粒度的信息。本文在ZJU-MoCap及H36M上進(jìn)行大量實(shí)驗(yàn),證明了TransHuman的泛化性顯著優(yōu)于之前方法,并具有較高的推理效率。
4. 算法解析
Pipeline概覽 / 研究背景
TransHuman的pipeline如圖4所示。整個(gè)pipeline可以抽象為:給定空間中一個(gè)查詢(xún)點(diǎn)(Query Point),我們需要從多視角參考圖中提取一個(gè)對(duì)應(yīng)的 條件特征(Condition Feature) 輸入NeRF,從而實(shí)現(xiàn)泛化能力(詳細(xì)可參考PixelNeRF)。而條件特征主要由兩部分組成:表面特征(Appearance Feature)及人體表征(Human Representation)。
表面特征:該特征可由將查詢(xún)點(diǎn)通過(guò)相機(jī)參數(shù)進(jìn)行反向投影后在參考圖中進(jìn)行插值得到,其直接反應(yīng)參考圖中的原始RGB信息,因此屬于細(xì)粒度信息。但由于其缺少人體幾何先驗(yàn)信息,僅使用此特征會(huì)導(dǎo)致人體幾何的崩塌(詳見(jiàn)Paper原文實(shí)驗(yàn)部分);
人體表征:為獲得人體表征,首先通過(guò)現(xiàn)有的SMPL估計(jì)方法,從視頻中擬合出一個(gè)SMPL模版(Fitted SMPL,數(shù)據(jù)集一般自帶)。然后對(duì)于SMPL的每一個(gè)頂點(diǎn),將其反向投影到參考圖得到該頂點(diǎn)對(duì)應(yīng)的CNN Feature,就得到了著色之后的SMPL(Painted SMPL)。從著色之后的SMPL提取出來(lái)的特征便是人體表征。人體表征包含了人的幾何先驗(yàn),因此在pipeline中起著關(guān)鍵作用,也是本文的研究重點(diǎn)。
圖4:Pipeline概覽圖
研究動(dòng)機(jī)
之前的方法主要利用稀疏卷積(SparseConvNet) 來(lái)得到人體表征 ,如圖5上半部分所示。該方法主要有兩個(gè)問(wèn)題:
多變的輸入姿勢(shì)問(wèn)題。 稀疏卷積的輸入為觀察姿勢(shì)下的SMPL,也就是說(shuō)其輸入的姿勢(shì)會(huì)隨著幀數(shù)的變化而變化。這導(dǎo)致了訓(xùn)練和推理階段的輸入姿勢(shì)不一致問(wèn)題(推理階段的人的姿勢(shì)可能是各種各樣的),從而極大的增加了泛化的難度。
局部感受野問(wèn)題。 由于我們所能獲取的參考圖往往是十分稀疏的(本文默認(rèn)采用3個(gè)視角),所以著色之后的SMPL通常包含大量的被遮擋部分。而另一方面,稀疏卷積本質(zhì)是3D卷積,其感受野比較有限,從而導(dǎo)致無(wú)法進(jìn)行人體部位之間的全局的推理。具體舉例來(lái)說(shuō),假設(shè)人的左手是可見(jiàn)的而右手是被遮擋的,如果有全局之間的關(guān)系,那么網(wǎng)絡(luò)理論上可以推斷出右手被遮擋的部分大概是什么樣。基于此直覺(jué),我們認(rèn)為在人體不同部位之間構(gòu)建全局關(guān)系是很重要的。
為了解決以上兩個(gè)問(wèn)題,我們提出了本文關(guān)鍵的兩個(gè)創(chuàng)新點(diǎn)(如圖5下半部分所示),即:
用Transformer在SMPL表面之間構(gòu)建全局關(guān)系,即TransHE部分。
將網(wǎng)絡(luò)輸入先統(tǒng)一在標(biāo)準(zhǔn)空間(比如T-pose的SMPL),然后將輸出通過(guò)SMPL形變的方式轉(zhuǎn)化回觀察姿勢(shì)進(jìn)行特征提取,即DPaRF部分。
圖5:研究動(dòng)機(jī)。SPC-base (Previous) vs. Transformer-based (Ours)。
基于Transformer的人體編碼 (TransHE)
接下來(lái)我們?cè)敿?xì)介紹TransHE的細(xì)節(jié)。
如圖7左下角所示,TransHE模塊的輸入是Painted SMPL (6890 x d1,d1為CNN feature的維度)。一種直接的做法是將6890個(gè)Token輸入Transformer(本文使用ViT-Tiny),然而這種做法:
會(huì)帶來(lái)巨大的計(jì)算開(kāi)銷(xiāo)。
會(huì)引入細(xì)粒度誤差(Fitted SMPL只是人體的粗略模版而不包含衣物等細(xì)節(jié),因此其著色本身也存在一定的誤差)。
基于這兩個(gè)問(wèn)題,我們需要降低輸入Transformer的Token數(shù)量。
一種非常直接的想法是對(duì)Painted SMPL進(jìn)行g(shù)rid voxelization,即,將空間均勻劃分為一個(gè)個(gè)小方塊,在同一個(gè)方塊內(nèi)的頂點(diǎn)取平均算做一個(gè)Token,同時(shí)把方塊中心作為T(mén)oken對(duì)應(yīng)的PE。但由于Painted SMPL是在觀察姿勢(shì)下的,而觀察姿勢(shì)隨著輸入幀的變化而變化,這就導(dǎo)致每次輸入ViT的Token數(shù)量以及PE都在變化,使得優(yōu)化變得十分困難,而且會(huì)將不同語(yǔ)義部分劃分到同一個(gè)Token。圖6舉了一個(gè)人移動(dòng)右手的例子,在這種情況下,grid voxelization對(duì)點(diǎn)的劃分會(huì)隨著姿勢(shì)的變化而變化,并且將左手和右手的頂點(diǎn)劃分在了同一個(gè)Token,這顯然不是我們所希望的。
為了進(jìn)一步解決這個(gè)問(wèn)題,我們提出先對(duì)標(biāo)準(zhǔn)姿勢(shì)SMPL(本文使用T-pose)進(jìn)行K-Means聚類(lèi)(本文默認(rèn)聚300類(lèi))得到一個(gè)分組的字典。然后用該字典對(duì)Painted SMPL進(jìn)行劃分,同一類(lèi)的特征取均值作為T(mén)oken,同時(shí)將標(biāo)準(zhǔn)姿勢(shì)SMPL下的聚類(lèi)中心作為PE輸入ViT。這樣一來(lái),Token數(shù)量和PE便不再受觀察姿勢(shì)的影響,極大的降低了學(xué)習(xí)的難度,如圖6右側(cè)所示。
圖6:簡(jiǎn)單的Grid Voxelization劃分方式(左) vs. 我們的劃分方式(右)。
可形變局部輻射場(chǎng) (DPaRF)
由于我們?cè)赥ransHE模塊將輸入統(tǒng)一在了標(biāo)準(zhǔn)姿勢(shì),而我們最終需要的是觀察姿勢(shì) 下給定查詢(xún)點(diǎn) 對(duì)應(yīng)的特征,因此,我們需要將TransHE的輸出變回到觀察姿勢(shì)。這里我們的思路是,為每個(gè)Token(對(duì)應(yīng)一個(gè)身體部位)維護(hù)一個(gè)局部輻射場(chǎng),且該輻射場(chǎng)的坐標(biāo)系隨著觀察姿勢(shì) 一起旋轉(zhuǎn),如圖7右下角所示。
然后對(duì)于每一個(gè)查詢(xún)點(diǎn), 我們將其分配到距離最近的K個(gè)局部輻射場(chǎng)。對(duì)于每個(gè)局部輻射場(chǎng),我們將Token與該場(chǎng)下的局部坐標(biāo)進(jìn)行拼接得到該場(chǎng)下的人體表征。最終的人體表征 則是這K個(gè)場(chǎng)的所有人體表征的加權(quán)和(根據(jù)距離加權(quán))。
細(xì)粒度整合模塊 (FDI)
通過(guò)TransHE和DPaRF, 我們已經(jīng)得到了給定查詢(xún)點(diǎn)的人體表征,該表征包含了粗粒度的人體幾何先驗(yàn)信息。接下來(lái),和之前的工作類(lèi)似,我們使用一個(gè)Cross-attention模塊,將粗粒度的人體表征 視作Q,細(xì)粒度的表面特征 視為K和V,得到最終的條件特征。
圖7:Pipeline細(xì)節(jié)圖。
5. 實(shí)驗(yàn)結(jié)果
本文在ZJU-MoCap和H36M上進(jìn)行了泛化性實(shí)驗(yàn),結(jié)果如下圖所示。主要分為四個(gè)setting: Pose的泛化,Identity的泛化,只給一張參考圖的泛化,以及跨數(shù)據(jù)集的泛化。在四個(gè)setting上均顯著高于之前方法,達(dá)到了新的SOTA。
同時(shí),作者還給出了在其代碼中直接將TransHE + DPaRF模塊替換成原來(lái)的SPC-based方法,以爭(zhēng)取盡量公平的對(duì)比。結(jié)果如下圖所示,本文方法仍明顯領(lǐng)先。
另外,作者對(duì)本文方法的效率也給出了分析。在使用相同推理時(shí)間的情況下,本文方法性能仍然明顯高于之前的方法,并且推理消耗的內(nèi)存更小。可見(jiàn)本文方法具有比較高的推理效率。
更多詳細(xì)的Ablation以及可視化推薦大家閱讀原文及觀看項(xiàng)目主頁(yè)的視頻DEMO。
6. 總結(jié)
本文為可泛化人體重建領(lǐng)域引入了一種新的基于Transformer的人體表征。該表征在人體部件之間構(gòu)建了全局關(guān)系,并將優(yōu)化統(tǒng)一在了標(biāo)準(zhǔn)姿勢(shì)下。其泛化性能明顯優(yōu)于先前的基于稀疏卷積的表征,而且具有比較高的推理效率,為后續(xù)可泛化人體重建的研究提供了一個(gè)新的更高效的模塊。
審核編輯:黃飛
-
Transformer
+關(guān)注
關(guān)注
0文章
143瀏覽量
6014
原文標(biāo)題:ICCV 2023開(kāi)源 | 基于Transformer的可泛化人體表征來(lái)了!
文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論