CVPR 2023:把人放在他們的位置,把人自然地插到圖像里
1. 論文信息
題目:Putting People in Their Place: Affordance-Aware Human Insertion into Scenes
作者:Sumith Kulal, Tim Brooks, Alex Aiken, Jiajun Wu, Jimei Yang, Jingwan Lu, Alexei A. Efros, Krishna Kumar Singh
鏈接:https://arxiv.org/abs/2304.14406
代碼:https://sumith1896.github.io/affordance-insertion/
2. 引言
一百年前,雅各布·馮·厄克爾指出了感知環境(umwelt)在生物生活中的關鍵、甚至決定性作用。他認為,生物只能感知到它可以影響或被影響的環境部分。從某種意義上說,我們對世界的感知取決于我們能夠執行的相互作用類型。相關的功能性視覺理解思想(給定場景對代理人提供了哪些動作?)在1930年代由格式塔心理學家討論過,后來由J.J.吉布森描述為“可供性”。雖然這個方向激發了視覺和心理學研究的許多努力,但是對可供性感知的全面計算模型仍然難以捉摸。這樣的計算模型的價值對未來的視覺和機器人研究是不可否認的。
可供性:Affordance,指一個物理對象與人之間的關系。無論是動物還是人類,甚至是機器和機器人,他們之間發生的任何交互作用??晒┬缘捏w現,由物品的品質,和與之交互的主體的能力共同決定。
過去十年,對基于數據驅動的可供性感知的計算模型重新產生了興趣。早期的研究采用了中介方法,通過推斷或使用中間語義或3D信息來輔助可供性感知。一些難以預測的可供性例子包括涉及物體之間復雜交互或需要更高層次推理和對場景上下文的理解。例如,預測一把椅子是否可以用來站立可能相對簡單,但是預測一把椅子是否可以用來到達高架子、避開障礙物或單腿平衡可能更加困難。同樣地,預測一扇門是否可以被打開可能相對容易,但是預測一扇門是否可以在特定情境下用作盾牌或路障可能更加具有挑戰性。通常,預測涉及物體的新穎或創造性使用或需要深入理解場景上下文的可供性可能特別具有挑戰性。而近期的方法則更加關注直接感知可供性,更符合吉布森的框架。然而,這些方法受到數據集特定要求的嚴格限制,降低了它們的普適性。
為了促進更普遍的設置,我們從最近大規模生成模型的進展中汲取靈感,例如文本到圖像系統。這些模型的樣本展示了令人印象深刻的物體-場景組合性。然而,這些組合是隱式的,可供性僅限于通常在靜態圖像中捕捉并由說明文字描述的內容。我們通過將人“放入畫面”并在人類活動的視頻上進行訓練,將可供性預測任務明確化。
我們將問題表述為條件修補任務。給定一個遮罩的場景圖像和一個參考人物,我們學習在遮罩區域內正確地填充人物和可供性。在訓練時,我們從視頻剪輯中借用兩個隨機幀,遮罩一個幀,并嘗試使用第二幀中的人作為條件進行修補。這迫使模型學習給定上下文下可能的場景可供性以及實現連貫圖像所需的重新姿態和協調。在推理時,可以使用不同的場景和人物圖像組合提示模型。我們在一個包含240萬個人類在各種場景中移動的視頻剪輯數據集上訓練了一個大規模模型。
除了條件任務外,我們的模型可以在推理時以不同的方式進行提示。如圖中的最后一行所示,當沒有人物時,我們的模型可以產生逼真的虛構人物。同樣地,當沒有場景時,它也可以產生逼真的虛構場景。還可以執行部分人物完成任務,如更改姿勢或交換衣服。我們展示了訓練視頻對于預測可供性的重要性。
3. 方法
3.1. Diffusion Models介紹
Diffusion Models是一種生成模型,使用擴散過程來建模數據的概率分布,從而可以生成逼真的圖像樣本。Diffusion Models使用反向Diffusion Process來建模數據的概率分布,其中反向Diffusion Process是一個從數據點的隨機狀態開始,向初始狀態擴散的過程。在訓練過程中,Diffusion Models使用Score Matching方法來估計反向Diffusion Process的條件概率密度函數。在生成過程中,Diffusion Models通過隨機初始化一個數據點的狀態,然后使用反向Diffusion Process逆推回初始狀態,從而生成一張新的圖像樣本。Diffusion Models可以通過調整Diffusion Process中的擴散系數來控制生成圖像的多樣性和清晰度。其中,Diffusion Process的隨機微分方程和反向Diffusion Process的隨機微分方程如下:
3.2. 任務設定
我們模型的輸入包含一個遮罩的場景圖像和一個參考人物,輸出圖像包含在場景上重新調整姿勢的參考人物。
受到Humans in Context (HiC)的啟發,我們生成了一個大規模的人在場景中移動的視頻數據集,并使用視頻幀作為完全自監督的訓練數據。我們將問題表述為條件生成問題。在訓練時,我們從視頻中提取兩個包含同一人的隨機幀。我們將第一個幀中的人物遮罩并用作輸入場景,然后從第二個幀中裁剪并居中人物作為參考人物條件。我們訓練一個條件潛在擴散模型,同時以遮罩的場景圖像和參考人物圖像為條件。這鼓勵模型在自監督的方式下推斷正確的姿勢,hallucinate的人物-場景交互,并將重新姿勢的人物無縫地融入場景中。在測試時,模型可以支持多個應用程序,插入不同的參考人物、無參考hallucinate的人物和hallucinate的場景。我們通過在訓練過程中隨機刪除條件信號來實現這一點。我們在實驗部分評估了人物條件生成、人物hallucinate和場景hallucinate的質量。
hallucinate:幻覺是指人們的感官(視覺、聽覺、嗅覺、觸覺和味覺)出現虛假的感知,看起來是真實的,但實際上并不存在。
3.3. 模型訓練
本文介紹了一個基于自監督訓練的人物-場景交互生成模型。為了訓練模型,作者生成了一個包含240萬個人在場景中移動的視頻剪輯的數據集,使用了HiC的預處理流程,并使用Keypoint R-CNN和OpenPose進行人物檢測和關鍵點檢測。作者使用Mask R-CNN檢測人物掩碼,以在輸入場景圖像中遮蔽人物并裁剪出參考人物。作者還設計了一種遮蔽和數據增強策略,以支持不同粒度級別的人物插入,并通過Dropout和DDIM樣本來提高生成質量。作者的實驗結果表明,所提出的方法可以成功地生成高質量的人物-場景交互圖像。
4. 實驗
本表格展示了進行了幾項消融實驗,以分析不同因素對所提出方法性能的影響。
第一組實驗比較了使用不同類型的輸入數據和數據增強策略的方法性能。結果顯示,使用視頻作為輸入數據且不進行數據增強會在FID(越小越好)和PCKh(越大越好)指標方面獲得最佳性能。這表明使用視頻作為輸入數據可以提供更多的時間信息和上下文,使模型可以從中學習,而數據增強可以進一步提高性能。第二組實驗研究了不同圖像編碼器對所提出方法性能的影響。結果顯示,使用帶有8倍KL散度損失的VAE的性能不如使用不帶KL散度損失的圖像編碼器。這表明對于所提出的方法,使用更簡單的圖像編碼器更為有效。最后一組實驗分析了模型規模和預訓練對所提出方法性能的影響。結果顯示,增加模型規模并從預訓練的檢查點進行微調會在FID和PCKh指標方面獲得更好的性能。這表明增加模型容量并使用預訓練可以幫助提高所提出方法的性能。
本節主要介紹了針對人物幻覺和場景幻覺任務的實驗評估。在人物幻覺任務中,作者將條件人物去除后進行評估,并與Stable Diffusion和DALL-E 2進行比較。作者通過傳遞空條件人物對其模型進行評估,并使用Stable Diffusion進行定量評估。在定性評估中,作者生成了具有相同提示的Stable Diffusion和DALL-E 2結果。實驗結果表明,作者的方法可以成功地幻覺出與輸入場景相一致的多樣化人物,并且其性能優于基線方法。在場景幻覺任務中,作者評估了受限和非受限兩種場景幻覺情況,并與Stable Diffusion和DALL-E 2進行比較。實驗結果表明,作者的方法比基線方法更能夠維持輸入參考人物的位置和姿態,并且在綜合大量圖像的場景幻覺任務中表現更好。作者還分析了條件因素對模型性能的影響,并對其進行了消融實驗??偟膩碚f,實驗結果表明,作者的方法在人物幻覺和場景幻覺任務中表現出色,并且相比基線方法具有更好的性能和生成效果。同時,作者還分析了模型性能的不同影響因素,并提出了可用于改進性能的策略。
5. 討論
本文提出的方法具有以下優點和廣闊的應用前景:
數據集限制:為了訓練模型,作者使用了一個包含240萬個人在場景中移動的視頻剪輯的數據集,這些視頻剪輯來自于互聯網,可能存在版權和隱私問題。此外,數據集中的場景和人物的多樣性也有限,這可能影響了模型在生成真實世界的多樣化人物和場景時的表現。
參考人物的選擇:為了生成人物-場景交互圖像,模型需要一個參考人物來指導生成。在本文中,作者使用了一些啟發式規則來選擇參考人物,如選擇中央人物或群體中的人物。但這種啟發式規則可能不能很好地適應不同的場景和應用場景,可能需要更精細的選擇方法來提高模型的生成效果。
訓練和推理時間:由于所提出的方法使用了大規模的神經網絡模型,并需要在大量的數據上進行訓練,因此訓練時間和計算資源需求較高。在推理時,生成一張高質量的圖像也需要一定的時間和計算資源。這可能限制了該方法在實際應用中的可擴展性和實用性。
生成結果的控制性較差:本文中所提出的方法是無條件生成人物-場景交互圖像,即無法直接控制生成圖像中的人物和場景屬性。盡管在一定程度上可以通過選擇參考人物來指導生成,但仍然存在控制性較差的問題。在某些應用場景,需要更精細的生成控制來滿足特定的需求,這可能需要其他方法的支持。
但是本文提出的方法在人物-場景交互圖像生成任務中表現出了良好的性能和效果,但也存在一些缺點:
數據集:為了訓練模型,作者使用了一個包含240萬個人在場景中移動的視頻剪輯的數據集,這些視頻剪輯來自于互聯網,可能存在版權和隱私問題。此外,數據集中的場景和人物的多樣性也有限,這可能影響了模型在生成真實世界的多樣化人物和場景時的表現。
參考人物的選擇:為了生成人物-場景交互圖像,模型需要一個參考人物來指導生成。在本文中,作者使用了一些啟發式規則來選擇參考人物,如選擇中央人物或群體中的人物。但這種啟發式規則可能不能很好地適應不同的場景和應用場景,可能需要更精細的選擇方法來提高模型的生成效果。
訓練和推理時間:由于所提出的方法使用了大規模的神經網絡模型,并需要在大量的數據上進行訓練,因此訓練時間和計算資源需求較高。在推理時,生成一張高質量的圖像也需要一定的時間和計算資源。這可能限制了該方法在實際應用中的可擴展性和實用性。
生成結果的控制性較差:本文中所提出的方法是無條件生成人物-場景交互圖像,即無法直接控制生成圖像中的人物和場景屬性。盡管在一定程度上可以通過選擇參考人物來指導生成,但仍然存在控制性較差的問題。在某些應用場景,需要更精細的生成控制來滿足特定的需求,這可能需要其他方法的支持。
同時作者指出 EfficientViT 的一個局限性是,盡管它具有很高的推理速度,但由于引入了額外的 FFN,在模型大小方面與最先進的高效 CNN相比略微更大。此外,模型是基于構建高效視覺 Transformer 的指導方針手動設計的。在未來的工作中,可以有興趣減小模型大小,并結合自動搜索技術進一步提高模型的容量和效率。
6. 結論
在這項工作中,我們提出了一項新的任務,即感知可供性的人類插入場景,我們通過使用視頻數據以自我監督的方式學習條件擴散模型來解決它。我們展示了各種定性結果來證明我們方法的有效性。我們還進行了詳細的消融研究,以分析各種設計選擇的影響。我們希望這項工作能激勵其他研究人員追求這個新的研究方向
-
模型
+關注
關注
1文章
3261瀏覽量
48914 -
數據集
+關注
關注
4文章
1208瀏覽量
24737
原文標題:CVPR 2023:把人放在他們的位置,把人自然地插到圖像里
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論