根據(jù)給定的稀疏上身追蹤信號(頭和雙手)來實現(xiàn)全身追蹤,亦即頭顯追蹤的頭部運動,以及控制器追蹤的雙手運動
目前大多數(shù)基于VR一體機(jī)的Avatar系統(tǒng)都沒有下半身,一個重要的原因是,盡管設(shè)備能夠通過內(nèi)向外追蹤實現(xiàn)頭部和雙手的動捕,而這又使得估計手臂和胸部的位置相對容易,但系統(tǒng)難以判斷你的腿、腳或臀部位置,所以今天的Avatar一直都是缺失下半截。
所以,行業(yè)一直在探索各種解決方案。例如,Meta早前的一份研究就提出了基于AI的純頭顯全身Avatar動捕方案,無需任何光學(xué)標(biāo)記。
在另一篇論文中,Meta的研究人員又提出了另一種為Avatar長出雙腿的方法AGRoL。據(jù)介紹,這是一種全新的條件擴(kuò)散模型,專門用于根據(jù)給定的稀疏上身追蹤信號(頭和雙手)來實現(xiàn)全身追蹤,亦即頭顯追蹤的頭部運動,以及控制器追蹤的雙手運動。所述模型使用了一個簡單的MLP架構(gòu)和一種新的運動數(shù)據(jù)調(diào)節(jié)方案,從而能夠準(zhǔn)確流暢預(yù)測全身運動,尤其是具有挑戰(zhàn)性的下半身運動。
人類是AR/VR應(yīng)用的主要參與者。所以,能夠追蹤全身運動是所述應(yīng)用的一大需求。常見的方法只能準(zhǔn)確地追蹤上身,而全身追蹤可以解鎖引人入勝的體驗,增加用戶的臨場感。但在典型的AR/VR設(shè)置中,缺乏對完整人體的強(qiáng)烈追蹤信號,只有頭和手通過嵌入頭顯和控制器中的慣性測量單元傳感器進(jìn)行追蹤。對于理想情況,我們希望使用大多數(shù)頭顯提供的標(biāo)準(zhǔn)三輸入(頭和雙手)來實現(xiàn)高保真全身追蹤。
考慮到頭和手的位置和方向信息,預(yù)測全身姿勢,尤其是下半身,其本質(zhì)是一個欠約束的問題。為了解決這一挑戰(zhàn),一系列的方法依賴于生成性模型。在這個領(lǐng)域,擴(kuò)散模型在圖像和視頻生成中顯示出令人印象深刻的結(jié)果,特別是對于條件生成。這促使Meta使用擴(kuò)散模型來生成基于稀疏追蹤信號的全身姿態(tài)。
當(dāng)然,在這項任務(wù)中使用擴(kuò)散模型并非易事。具有擴(kuò)散模型的條件生成方法廣泛用于跨模態(tài)條件生成。遺憾的是,考慮到數(shù)據(jù)表示的差異,例如人體關(guān)節(jié)特征與圖像,所述方法不能直接應(yīng)用于運動合成任務(wù)。
在名為《Avatars Grow Legs: Generating Smooth Human Motion from Sparse Tracking Inputs with Diffusion Model》的論文中,Meta提出了一種全新的擴(kuò)散架構(gòu)Avatars Grow Legs(AGRoL),并專門針對條件運動合成任務(wù)而設(shè)計。
這項研究使用了基于MLP的架構(gòu),團(tuán)隊發(fā)現(xiàn)精心設(shè)計的MLP網(wǎng)絡(luò)已經(jīng)可以實現(xiàn)與最先進(jìn)方法相當(dāng)?shù)男阅?。然而,MLP網(wǎng)絡(luò)的預(yù)測運動可能包含抖動偽影。
為了解決這個問題,并從稀疏的追蹤信號中生成平滑的真實全身運動,研究人員設(shè)計了一個由MLP架構(gòu)賦能的輕量級擴(kuò)散模型。
擴(kuò)散模型需要在訓(xùn)練和推理期間將時間步長嵌入注入網(wǎng)絡(luò),而他們發(fā)現(xiàn)這個MLP架構(gòu)對輸入中的位置嵌入不敏感。所以,團(tuán)隊進(jìn)一步提出了一種新的策略,以在擴(kuò)散過程中有效地注入時間步長嵌入。利用所提出的策略,模型可以顯著減輕抖動問題,并進(jìn)一步提高性能及其對追蹤信號丟失的魯棒性。正如在大型運動捕捉數(shù)據(jù)集AMASS的實驗證明,AGRoL在全身運動預(yù)測能力方面優(yōu)于現(xiàn)有技術(shù)的全身運動。
Meta的目標(biāo)是預(yù)測給定稀疏追蹤信號的全身運動,即頭顯和雙手控制器的方向和平移。給定N個觀察到的關(guān)節(jié)特征序列:
團(tuán)隊希望預(yù)測N個幀的全身姿態(tài):
其中C和S表示輸入/輸出關(guān)節(jié)特征的維度。
研究人員采用SMPL模型來表示人體姿勢,并且僅使用SMPL模型的前22個關(guān)節(jié),而忽略手上的關(guān)節(jié)。因此,y 1:N表示骨盆的全局方向和每個關(guān)節(jié)的相對旋轉(zhuǎn)。
基于MLP的網(wǎng)絡(luò)
網(wǎng)絡(luò)僅由4種在深度學(xué)習(xí)時代廣泛使用的組件組成:全連接層(LN)、SiLU激活層、1D卷積層(內(nèi)核大小為1)和層歸一化。注意,1D卷積層同時可以視為在不同維度操作的全連接層。所述網(wǎng)絡(luò)架構(gòu)的細(xì)節(jié)如下圖所示。
MLP網(wǎng)絡(luò)的每個block包含一個卷積層和一個全連接層,分別負(fù)責(zé)時間和空間信息合并。研究人員使用skip-connection作為層的預(yù)規(guī)范化。首先,使用線性層將輸入數(shù)據(jù)p 1:N投影到更高維度的latent space。網(wǎng)絡(luò)的最后一層從latent space投射到全身的輸出空間,其比例為y 1:N。
擴(kuò)散模型
擴(kuò)散模型是一種生成性模型,它學(xué)習(xí)反轉(zhuǎn)由馬爾可夫鏈添加的隨機(jī)高斯噪點,以便從噪點中恢復(fù)期望的數(shù)據(jù)樣本。
在擴(kuò)散模型中,時間步長t的嵌入通常作為額外的輸入饋送到網(wǎng)絡(luò)。添加時間步長嵌入的常見方法是將其與輸入連接,類似于transformer-based method中使用的位置嵌入。然而,由于Meta的網(wǎng)絡(luò)使用MLP,研究人員發(fā)現(xiàn)模型對時間步長嵌入的值不太敏感,這阻礙了去噪過程的學(xué)習(xí),并導(dǎo)致具有嚴(yán)重抖動問題的運動預(yù)測。
為了解決這個問題,研究人員提出了一種新的策略,在MLP網(wǎng)絡(luò)的每個block之前重復(fù)注入時間步長嵌入。管道的細(xì)節(jié)下圖所示。
時間步嵌入投影為通過全連接層和SiLU激活層匹配輸入特征維度,然后,預(yù)測每個block的時間步嵌入的比例和移位因子,直接將獲得的特征添加到輸入中間激活。團(tuán)隊指出,所提出的策略可以在很大程度上減輕抖動問題,并實現(xiàn)平滑運動的合成。
研究人員在AMASS數(shù)據(jù)集訓(xùn)練和評估模型,采用SMPL人體模型作為人體姿態(tài)表示,并訓(xùn)練模型來預(yù)測根關(guān)節(jié)的全局方向和其他關(guān)節(jié)的相對旋轉(zhuǎn)。
如表1和表2所示,Meta的MLP網(wǎng)絡(luò)完全可以超越大多數(shù)以前的方法,并與最先進(jìn)的方法取得可比的結(jié)果,這表明了所述網(wǎng)絡(luò)的有效性。在擴(kuò)散過程的幫助下,AGRoL模型進(jìn)一步提高了MLP網(wǎng)絡(luò)的性能,并超越了所有以前的方法。
另外,所提出的AGRoL模型顯著減少了抖動誤差,這意味著與其他模型相比,生成性運動更加平滑。
上圖是AGRoL(下方)和AvatarPoser(上方)對AMASS數(shù)據(jù)集測試序列的定性比較。圖中可視化了預(yù)測的骨骼和人體網(wǎng)格。綠色的骨架表示使用Meta方法預(yù)測的運動。紅色的骨架則表示使用AvatarPoser預(yù)測的運動。藍(lán)色的骨骼表示ground truth運動。如圖所示,與AvatarPoser的預(yù)測運動相比,Meta的預(yù)測運動更準(zhǔn)確。
上圖可視化了預(yù)測運動的軌跡。左邊的圖像顯示了帶有藍(lán)色骨架的ground truth運動。中間圖像顯示了帶有綠色骨架的AGRoL預(yù)測運動。右邊圖像顯示了AvatarPoser預(yù)測運動(紅色骨骼)。
圖中的淺紫色矢量表示每個關(guān)節(jié)的速度矢量。通過可視化運動軌跡,可以從圖中更好地查看抖動問題和雙腳滑動問題。平滑運動傾向于具有規(guī)則的姿勢軌跡,每個關(guān)節(jié)的速度向量穩(wěn)定地變化。姿勢軌跡的密度將隨著行走速度而變化,當(dāng)人減速時,軌跡將變得更密集。
相關(guān)論文:
Avatars Grow Legs: Generating Smooth Human Motion from Sparse Tracking Inputs with Diffusion Model
總的來說,AGRoL是一種專門為基于稀疏IMU追蹤信號的全身運動合成而設(shè)計的條件擴(kuò)散模型。AGRoL是一種簡單而高效的MLP擴(kuò)散模型。為了實現(xiàn)漸進(jìn)去噪并產(chǎn)生平滑的運動序列,研究人員提出了一種分block注入方案,在神經(jīng)網(wǎng)絡(luò)的每個中間block之前添加擴(kuò)散時間步長嵌入。通過這種時間步嵌入策略,AGRoL在全身運動合成任務(wù)中實現(xiàn)了最先進(jìn)的性能,而不會出現(xiàn)其他運動預(yù)測方法中常用的任何額外損失。
研究表明,基于輕量級擴(kuò)散的模型AGRoL可以生成真實的平滑運動,同時實現(xiàn)實時推理速度,使其適合在線應(yīng)用。與現(xiàn)有方法相比,它對追蹤信號丟失更為魯棒。
編輯:黃飛
?
評論
查看更多