豆豆小说阅读网,将夜猫腻小说,魔天记忘语小说

作者：潘嘯，論文第一作者

0. 筆者前言

可泛化人體重建旨在在多個(gè)人體視頻上進(jìn)行預(yù)訓(xùn)練，學(xué)習(xí)可泛化的重建先驗(yàn)。在測(cè)試階段，給定新人物的稀疏視角參考圖，在無(wú)需微調(diào)或者訓(xùn)練的情況下，可直接輸出新視角。以往方法大部分使用基于稀疏卷積（SparseConvNet）的人體表征方式，然而，一方面，稀疏卷積有限的感受野導(dǎo)致其對(duì)人體的自遮擋十分敏感，另一方面，其輸入為不斷變化的觀察空間姿勢(shì)下的人體，導(dǎo)致訓(xùn)練和推理階段的姿勢(shì)不匹配問(wèn)題，降低了泛化能力。

不同于此，本文工作TransHuman使用Transformer圍繞SMPL表面構(gòu)建了人體部位之間的全局聯(lián)系，并且將輸入統(tǒng)一在標(biāo)準(zhǔn)姿勢(shì)下，顯著的提升了該表征的泛化能力。在多個(gè)數(shù)據(jù)集上達(dá)到了新SOTA的同時(shí)，具有很高的推理效率。

本文專(zhuān)注于可泛化人體重建任務(wù)。為了處理動(dòng)態(tài)人體的運(yùn)動(dòng)和遮擋，之前方法主要采用了基于稀疏卷積的人體表征。然而，該表征方式1）在多變的觀察姿勢(shì)空間進(jìn)行優(yōu)化，導(dǎo)致訓(xùn)練與測(cè)試階段輸入姿勢(shì)不一致，從而降低泛化性; 2）缺少人體部位之間的全局聯(lián)系，從而導(dǎo)致對(duì)人體的遮擋敏感。為了解決這兩個(gè)問(wèn)題，我們提出了一個(gè)新的框架TransHuman。TransHuman在標(biāo)準(zhǔn)姿勢(shì)空間進(jìn)行優(yōu)化，并且使用Transformer構(gòu)建了人體部位之間的聯(lián)系。具體來(lái)講，TransHuman由三個(gè)部分組成：基于Transformer的人體編碼(TransHE)，可形變局部輻射場(chǎng)(DPaRF), 以及細(xì)粒度整合模塊 (FDI). 首先，TransHE在標(biāo)準(zhǔn)空間使用Transformer處理SMPL；然后，DPaRF將TransHE輸出的每個(gè)Token視為一個(gè)可形變的局部輻射場(chǎng)來(lái)獲得觀察空間下某一查詢(xún)點(diǎn)的特征。最后，F(xiàn)DI進(jìn)一步從參考圖中直接收集細(xì)粒度的信息。本文在ZJU-MoCap及H36M上進(jìn)行大量實(shí)驗(yàn)，證明了TransHuman的泛化性顯著優(yōu)于之前方法，并具有較高的推理效率。

4. 算法解析

Pipeline概覽 / 研究背景

TransHuman的pipeline如圖4所示。整個(gè)pipeline可以抽象為：給定空間中一個(gè)查詢(xún)點(diǎn)（Query Point），我們需要從多視角參考圖中提取一個(gè)對(duì)應(yīng)的條件特征（Condition Feature）輸入NeRF，從而實(shí)現(xiàn)泛化能力（詳細(xì)可參考PixelNeRF）。而條件特征主要由兩部分組成：表面特征（Appearance Feature）及人體表征（Human Representation）。

表面特征：該特征可由將查詢(xún)點(diǎn)通過(guò)相機(jī)參數(shù)進(jìn)行反向投影后在參考圖中進(jìn)行插值得到，其直接反應(yīng)參考圖中的原始RGB信息，因此屬于細(xì)粒度信息。但由于其缺少人體幾何先驗(yàn)信息，僅使用此特征會(huì)導(dǎo)致人體幾何的崩塌（詳見(jiàn)Paper原文實(shí)驗(yàn)部分）；

人體表征：為獲得人體表征，首先通過(guò)現(xiàn)有的SMPL估計(jì)方法，從視頻中擬合出一個(gè)SMPL模版（Fitted SMPL，數(shù)據(jù)集一般自帶）。然后對(duì)于SMPL的每一個(gè)頂點(diǎn)，將其反向投影到參考圖得到該頂點(diǎn)對(duì)應(yīng)的CNN Feature，就得到了著色之后的SMPL（Painted SMPL）。從著色之后的SMPL提取出來(lái)的特征便是人體表征。人體表征包含了人的幾何先驗(yàn)，因此在pipeline中起著關(guān)鍵作用，也是本文的研究重點(diǎn)。

圖4：Pipeline概覽圖

研究動(dòng)機(jī)

之前的方法主要利用稀疏卷積（SparseConvNet）來(lái)得到人體表征，如圖5上半部分所示。該方法主要有兩個(gè)問(wèn)題：

多變的輸入姿勢(shì)問(wèn)題。稀疏卷積的輸入為觀察姿勢(shì)下的SMPL，也就是說(shuō)其輸入的姿勢(shì)會(huì)隨著幀數(shù)的變化而變化。這導(dǎo)致了訓(xùn)練和推理階段的輸入姿勢(shì)不一致問(wèn)題（推理階段的人的姿勢(shì)可能是各種各樣的），從而極大的增加了泛化的難度。

局部感受野問(wèn)題。由于我們所能獲取的參考圖往往是十分稀疏的（本文默認(rèn)采用3個(gè)視角），所以著色之后的SMPL通常包含大量的被遮擋部分。而另一方面，稀疏卷積本質(zhì)是3D卷積，其感受野比較有限，從而導(dǎo)致無(wú)法進(jìn)行人體部位之間的全局的推理。具體舉例來(lái)說(shuō)，假設(shè)人的左手是可見(jiàn)的而右手是被遮擋的，如果有全局之間的關(guān)系，那么網(wǎng)絡(luò)理論上可以推斷出右手被遮擋的部分大概是什么樣。基于此直覺(jué)，我們認(rèn)為在人體不同部位之間構(gòu)建全局關(guān)系是很重要的。

為了解決以上兩個(gè)問(wèn)題，我們提出了本文關(guān)鍵的兩個(gè)創(chuàng)新點(diǎn)（如圖5下半部分所示），即：

用Transformer在SMPL表面之間構(gòu)建全局關(guān)系，即TransHE部分。

將網(wǎng)絡(luò)輸入先統(tǒng)一在標(biāo)準(zhǔn)空間（比如T-pose的SMPL），然后將輸出通過(guò)SMPL形變的方式轉(zhuǎn)化回觀察姿勢(shì)進(jìn)行特征提取，即DPaRF部分。

圖5：研究動(dòng)機(jī)。SPC-base (Previous) vs. Transformer-based (Ours)。

基于Transformer的人體編碼 (TransHE)

接下來(lái)我們?cè)敿?xì)介紹TransHE的細(xì)節(jié)。

如圖7左下角所示，TransHE模塊的輸入是Painted SMPL (6890 x d1，d1為CNN feature的維度)。一種直接的做法是將6890個(gè)Token輸入Transformer（本文使用ViT-Tiny），然而這種做法：

會(huì)帶來(lái)巨大的計(jì)算開(kāi)銷(xiāo)。

會(huì)引入細(xì)粒度誤差（Fitted SMPL只是人體的粗略模版而不包含衣物等細(xì)節(jié)，因此其著色本身也存在一定的誤差）。

基于這兩個(gè)問(wèn)題，我們需要降低輸入Transformer的Token數(shù)量。

一種非常直接的想法是對(duì)Painted SMPL進(jìn)行g(shù)rid voxelization，即，將空間均勻劃分為一個(gè)個(gè)小方塊，在同一個(gè)方塊內(nèi)的頂點(diǎn)取平均算做一個(gè)Token，同時(shí)把方塊中心作為T(mén)oken對(duì)應(yīng)的PE。但由于Painted SMPL是在觀察姿勢(shì)下的，而觀察姿勢(shì)隨著輸入幀的變化而變化，這就導(dǎo)致每次輸入ViT的Token數(shù)量以及PE都在變化，使得優(yōu)化變得十分困難，而且會(huì)將不同語(yǔ)義部分劃分到同一個(gè)Token。圖6舉了一個(gè)人移動(dòng)右手的例子，在這種情況下，grid voxelization對(duì)點(diǎn)的劃分會(huì)隨著姿勢(shì)的變化而變化，并且將左手和右手的頂點(diǎn)劃分在了同一個(gè)Token，這顯然不是我們所希望的。

為了進(jìn)一步解決這個(gè)問(wèn)題，我們提出先對(duì)標(biāo)準(zhǔn)姿勢(shì)SMPL（本文使用T-pose）進(jìn)行K-Means聚類(lèi)（本文默認(rèn)聚300類(lèi)）得到一個(gè)分組的字典。然后用該字典對(duì)Painted SMPL進(jìn)行劃分，同一類(lèi)的特征取均值作為T(mén)oken，同時(shí)將標(biāo)準(zhǔn)姿勢(shì)SMPL下的聚類(lèi)中心作為PE輸入ViT。這樣一來(lái)，Token數(shù)量和PE便不再受觀察姿勢(shì)的影響，極大的降低了學(xué)習(xí)的難度，如圖6右側(cè)所示。

圖6：簡(jiǎn)單的Grid Voxelization劃分方式（左） vs. 我們的劃分方式（右）。

可形變局部輻射場(chǎng) (DPaRF)

由于我們?cè)赥ransHE模塊將輸入統(tǒng)一在了標(biāo)準(zhǔn)姿勢(shì)，而我們最終需要的是觀察姿勢(shì) 下給定查詢(xún)點(diǎn) 對(duì)應(yīng)的特征，因此，我們需要將TransHE的輸出變回到觀察姿勢(shì)。這里我們的思路是，為每個(gè)Token（對(duì)應(yīng)一個(gè)身體部位）維護(hù)一個(gè)局部輻射場(chǎng)，且該輻射場(chǎng)的坐標(biāo)系隨著觀察姿勢(shì) 一起旋轉(zhuǎn)，如圖7右下角所示。

然后對(duì)于每一個(gè)查詢(xún)點(diǎn)，我們將其分配到距離最近的K個(gè)局部輻射場(chǎng)。對(duì)于每個(gè)局部輻射場(chǎng)，我們將Token與該場(chǎng)下的局部坐標(biāo)進(jìn)行拼接得到該場(chǎng)下的人體表征。最終的人體表征則是這K個(gè)場(chǎng)的所有人體表征的加權(quán)和（根據(jù)距離加權(quán)）。

細(xì)粒度整合模塊 (FDI)

通過(guò)TransHE和DPaRF, 我們已經(jīng)得到了給定查詢(xún)點(diǎn)的人體表征，該表征包含了粗粒度的人體幾何先驗(yàn)信息。接下來(lái)，和之前的工作類(lèi)似，我們使用一個(gè)Cross-attention模塊，將粗粒度的人體表征視作Q，細(xì)粒度的表面特征視為K和V，得到最終的條件特征。

圖7：Pipeline細(xì)節(jié)圖。

5. 實(shí)驗(yàn)結(jié)果

本文在ZJU-MoCap和H36M上進(jìn)行了泛化性實(shí)驗(yàn)，結(jié)果如下圖所示。主要分為四個(gè)setting: Pose的泛化，Identity的泛化，只給一張參考圖的泛化，以及跨數(shù)據(jù)集的泛化。在四個(gè)setting上均顯著高于之前方法，達(dá)到了新的SOTA。

同時(shí)，作者還給出了在其代碼中直接將TransHE + DPaRF模塊替換成原來(lái)的SPC-based方法，以爭(zhēng)取盡量公平的對(duì)比。結(jié)果如下圖所示，本文方法仍明顯領(lǐng)先。

另外，作者對(duì)本文方法的效率也給出了分析。在使用相同推理時(shí)間的情況下，本文方法性能仍然明顯高于之前的方法，并且推理消耗的內(nèi)存更小。可見(jiàn)本文方法具有比較高的推理效率。

更多詳細(xì)的Ablation以及可視化推薦大家閱讀原文及觀看項(xiàng)目主頁(yè)的視頻DEMO。

6. 總結(jié)

本文為可泛化人體重建領(lǐng)域引入了一種新的基于Transformer的人體表征。該表征在人體部件之間構(gòu)建了全局關(guān)系，并將優(yōu)化統(tǒng)一在了標(biāo)準(zhǔn)姿勢(shì)下。其泛化性能明顯優(yōu)于先前的基于稀疏卷積的表征，而且具有比較高的推理效率，為后續(xù)可泛化人體重建的研究提供了一個(gè)新的更高效的模塊。

審核編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

Transformer

Transformer

+關(guān)注

關(guān)注
0

文章
143

瀏覽量
6014

原文標(biāo)題：ICCV 2023開(kāi)源 | 基于Transformer的可泛化人體表征來(lái)了！

文章出處：【微信號(hào)：3D視覺(jué)工坊，微信公眾號(hào)：3D視覺(jué)工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

智能人體心率檢測(cè)裝置的設(shè)計(jì)方案

智能人體心率檢測(cè)裝置的設(shè)計(jì)方案 0 引言　　心率是人體中一個(gè)非常重要的生命信息，而傳統(tǒng)的脈診由于其定性化和主觀性影響了心率測(cè)試的精度，成為中醫(yī)脈診

發(fā)表于 04-20 15:30 ?1805次閱讀

智能<b class='flag-5'>人體</b>心率檢測(cè)裝置的<b class='flag-5'>設(shè)計(jì)方案</b>

如何使用ads1298采集人體表面的表面肌電信號(hào)？

目前正在做一個(gè)項(xiàng)目，使用ads1298采集人體表面的表面肌電信號(hào)。能否請(qǐng)大家提供一個(gè)簡(jiǎn)單的demo參考學(xué)習(xí)？

發(fā)表于 12-20 07:05

眼科超聲波診斷儀的設(shè)計(jì)方案

眼科超聲波診斷儀的設(shè)計(jì)方案在超聲診斷技術(shù)不斷發(fā)展的形勢(shì)下，各類(lèi)專(zhuān)科超聲設(shè)備也得到了很大的發(fā)展。其中眼科A/B超是發(fā)展最迅速的專(zhuān)科超聲設(shè)備之一。眼睛屬于體表小器官，其特點(diǎn)決定了眼科A/B超需要較高

發(fā)表于 11-30 11:40

小區(qū)智能化系統(tǒng)設(shè)計(jì)方案

小區(qū)智能化系統(tǒng)設(shè)計(jì)方案

發(fā)表于 08-18 15:38

笨人的創(chuàng)意，創(chuàng)意智能插座設(shè)計(jì)方案，絕對(duì)可實(shí)現(xiàn)

發(fā)點(diǎn)不太高大上的東東，以下是我精心整理的智能插座設(shè)計(jì)方案，單片機(jī)領(lǐng)域競(jìng)爭(zhēng)是在太厲害，擼主這樣的小蝦米只能從別的找找突破口，比如這個(gè)智能插座吧，別看它小，實(shí)用性可不小，這些方案都是我親自試驗(yàn)過(guò)可以實(shí)現(xiàn)

發(fā)表于 09-07 17:47

品佳：適用于家庭智能照明的無(wú)線控制設(shè)計(jì)方案

高整合度的球泡燈設(shè)計(jì)方案. 另, 當(dāng)客戶(hù)欲設(shè)計(jì)自有智能家庭方案時(shí), 品佳亦可協(xié)助建置恩智浦的完整開(kāi)發(fā)平臺(tái).其主要特色為,? 彈性、可輕松擴(kuò)充而具成本效益的軟件解決方案 ? IP 式高度

發(fā)表于 01-28 17:05

大神求助tps333熱電堆傳感器為主的人體表面溫度檢測(cè)電路

各位大神求助一個(gè)以tps333熱電堆傳感器為主的人體表面溫度檢測(cè)電路，需要什么運(yùn)放，環(huán)境溫度補(bǔ)償電路怎么設(shè)計(jì)，求指教

發(fā)表于 04-08 16:52

ABBYY FineReader 和 ABBYY PDF Transformer+功能比對(duì)

圖像文件和PDF文件轉(zhuǎn)換為可編輯、可搜索格式PDF專(zhuān)業(yè)解決方案應(yīng)用場(chǎng)景將掃描或PDF文件轉(zhuǎn)換為可編輯、可搜索格式豐富、廣泛的功能集合(文本編輯器、版面矯正等)基礎(chǔ)功能數(shù)碼相機(jī) OCR√[/td]紙質(zhì)文件數(shù)字

發(fā)表于 09-01 10:45

如何更改ABBYY PDF Transformer+界面語(yǔ)言

語(yǔ)言相關(guān)內(nèi)容，想要知道關(guān)于ABBYY PDF Transformer+基礎(chǔ)教程的更多內(nèi)容，可參考ABBYY中文教程（abbyychina.com）中心。

發(fā)表于 10-11 16:13

AMEYA360設(shè)計(jì)方案丨人體感應(yīng)燈

人體感應(yīng)燈對(duì)檢測(cè)距離的要求；芯片自帶 940nm 帶通濾波，可以有效濾除掉使用環(huán)境中的其他波段可見(jiàn)光及紅外光；驅(qū)動(dòng)紅外 LED 脈寬僅 25.6μs，驅(qū)動(dòng)電流從 5.6mA-360mA 可配置，9μA 平均電流消耗，可使系統(tǒng)平均功耗降低，滿(mǎn)足系統(tǒng)電池供電要求。方案框圖`

發(fā)表于 05-08 14:38

泛在網(wǎng)是什么？

的普遍共識(shí)。ITU-T 、3GPP、ETSI 等相關(guān)標(biāo)準(zhǔn)化組織都已經(jīng)啟動(dòng)了泛在網(wǎng)相關(guān)的研究，泛在網(wǎng)在全球正在從設(shè)想變成現(xiàn)實(shí)，從局部應(yīng)用變?yōu)橐?guī)模推廣。

發(fā)表于 10-10 09:12

分享一款不錯(cuò)的基于LM358的人體感應(yīng)燈電路設(shè)計(jì)方案

LM358的封裝形式有哪幾種？基于LM358的人體感應(yīng)燈電路設(shè)計(jì)方案

發(fā)表于 04-14 06:34

HarmonyOS的組件化設(shè)計(jì)方案

能力、適配多種終端形態(tài)”，HarmonyOS采用了“組件化”的設(shè)計(jì)方案，實(shí)現(xiàn)根據(jù)設(shè)備的資源能力和業(yè)務(wù)特征靈活裁剪，滿(mǎn)足不同形態(tài)終端設(shè)備對(duì)操作系統(tǒng)的要求。一、為什么采用“組件化”設(shè)計(jì)方案

發(fā)表于 10-13 09:59 ?2273次閱讀

應(yīng)用案例 I 人體及醫(yī)用紅外熱像儀檢測(cè)校準(zhǔn)系統(tǒng)方案

明策科技MTC人體及醫(yī)用紅外熱像儀檢測(cè)校準(zhǔn)系統(tǒng)方案醫(yī)療紅外檢定智能化方案符合GB/T19665-2005電子紅外成像人體表面測(cè)溫儀規(guī)范GB/

發(fā)表于 04-04 10:00 ?1055次閱讀

SHERF：可泛化可驅(qū)動(dòng)人體神經(jīng)輻射場(chǎng)的新方法

人體神經(jīng)輻射場(chǎng)的目標(biāo)是從 2D 人體圖片中恢復(fù)高質(zhì)量的 3D 數(shù)字人并加以驅(qū)動(dòng)，從而避免耗費(fèi)大量人力物力去直接獲取 3D 人體幾何信息。這個(gè)方向的探索對(duì)于一系列應(yīng)用場(chǎng)景，比如虛擬現(xiàn)實(shí)和輔助現(xiàn)實(shí)場(chǎng)景，有著非常大潛在性的影響。

發(fā)表于 08-15 11:46 ?827次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

基于Transformer的可泛化人體表征設(shè)計(jì)方案