在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

CVPR 2023:把人放在他們的位置,把人自然地插到圖像里

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-06-09 16:52 ? 次閱讀

CVPR 2023:把人放在他們的位置,把人自然地插到圖像里

1. 論文信息

題目:Putting People in Their Place: Affordance-Aware Human Insertion into Scenes

作者:Sumith Kulal, Tim Brooks, Alex Aiken, Jiajun Wu, Jimei Yang, Jingwan Lu, Alexei A. Efros, Krishna Kumar Singh

鏈接:https://arxiv.org/abs/2304.14406

代碼:https://sumith1896.github.io/affordance-insertion/

2. 引言

dbf6c9ce-0658-11ee-962d-dac502259ad0.png

一百年前,雅各布·馮·厄克爾指出了感知環境(umwelt)在生物生活中的關鍵、甚至決定性作用。他認為,生物只能感知到它可以影響或被影響的環境部分。從某種意義上說,我們對世界的感知取決于我們能夠執行的相互作用類型。相關的功能性視覺理解思想(給定場景對代理人提供了哪些動作?)在1930年代由格式塔心理學家討論過,后來由J.J.吉布森描述為“可供性”。雖然這個方向激發了視覺和心理學研究的許多努力,但是對可供性感知的全面計算模型仍然難以捉摸。這樣的計算模型的價值對未來的視覺和機器人研究是不可否認的。

可供性:Affordance,指一個物理對象與人之間的關系。無論是動物還是人類,甚至是機器和機器人,他們之間發生的任何交互作用??晒┬缘捏w現,由物品的品質,和與之交互的主體的能力共同決定。

過去十年,對基于數據驅動的可供性感知的計算模型重新產生了興趣。早期的研究采用了中介方法,通過推斷或使用中間語義或3D信息來輔助可供性感知。一些難以預測的可供性例子包括涉及物體之間復雜交互或需要更高層次推理和對場景上下文的理解。例如,預測一把椅子是否可以用來站立可能相對簡單,但是預測一把椅子是否可以用來到達高架子、避開障礙物或單腿平衡可能更加困難。同樣地,預測一扇門是否可以被打開可能相對容易,但是預測一扇門是否可以在特定情境下用作盾牌或路障可能更加具有挑戰性。通常,預測涉及物體的新穎或創造性使用或需要深入理解場景上下文的可供性可能特別具有挑戰性。而近期的方法則更加關注直接感知可供性,更符合吉布森的框架。然而,這些方法受到數據集特定要求的嚴格限制,降低了它們的普適性。

為了促進更普遍的設置,我們從最近大規模生成模型的進展中汲取靈感,例如文本到圖像系統。這些模型的樣本展示了令人印象深刻的物體-場景組合性。然而,這些組合是隱式的,可供性僅限于通常在靜態圖像中捕捉并由說明文字描述的內容。我們通過將人“放入畫面”并在人類活動的視頻上進行訓練,將可供性預測任務明確化。

我們將問題表述為條件修補任務。給定一個遮罩的場景圖像和一個參考人物,我們學習在遮罩區域內正確地填充人物和可供性。在訓練時,我們從視頻剪輯中借用兩個隨機幀,遮罩一個幀,并嘗試使用第二幀中的人作為條件進行修補。這迫使模型學習給定上下文下可能的場景可供性以及實現連貫圖像所需的重新姿態和協調。在推理時,可以使用不同的場景和人物圖像組合提示模型。我們在一個包含240萬個人類在各種場景中移動的視頻剪輯數據集上訓練了一個大規模模型。

除了條件任務外,我們的模型可以在推理時以不同的方式進行提示。如圖中的最后一行所示,當沒有人物時,我們的模型可以產生逼真的虛構人物。同樣地,當沒有場景時,它也可以產生逼真的虛構場景。還可以執行部分人物完成任務,如更改姿勢或交換衣服。我們展示了訓練視頻對于預測可供性的重要性。

3. 方法

dc8c0c32-0658-11ee-962d-dac502259ad0.png

3.1. Diffusion Models介紹

Diffusion Models是一種生成模型,使用擴散過程來建模數據的概率分布,從而可以生成逼真的圖像樣本。Diffusion Models使用反向Diffusion Process來建模數據的概率分布,其中反向Diffusion Process是一個從數據點的隨機狀態開始,向初始狀態擴散的過程。在訓練過程中,Diffusion Models使用Score Matching方法來估計反向Diffusion Process的條件概率密度函數。在生成過程中,Diffusion Models通過隨機初始化一個數據點的狀態,然后使用反向Diffusion Process逆推回初始狀態,從而生成一張新的圖像樣本。Diffusion Models可以通過調整Diffusion Process中的擴散系數來控制生成圖像的多樣性和清晰度。其中,Diffusion Process的隨機微分方程和反向Diffusion Process的隨機微分方程如下:

3.2. 任務設定

dce1ab56-0658-11ee-962d-dac502259ad0.png

我們模型的輸入包含一個遮罩的場景圖像和一個參考人物,輸出圖像包含在場景上重新調整姿勢的參考人物。

受到Humans in Context (HiC)的啟發,我們生成了一個大規模的人在場景中移動的視頻數據集,并使用視頻幀作為完全自監督的訓練數據。我們將問題表述為條件生成問題。在訓練時,我們從視頻中提取兩個包含同一人的隨機幀。我們將第一個幀中的人物遮罩并用作輸入場景,然后從第二個幀中裁剪并居中人物作為參考人物條件。我們訓練一個條件潛在擴散模型,同時以遮罩的場景圖像和參考人物圖像為條件。這鼓勵模型在自監督的方式下推斷正確的姿勢,hallucinate的人物-場景交互,并將重新姿勢的人物無縫地融入場景中。在測試時,模型可以支持多個應用程序,插入不同的參考人物、無參考hallucinate的人物和hallucinate的場景。我們通過在訓練過程中隨機刪除條件信號來實現這一點。我們在實驗部分評估了人物條件生成、人物hallucinate和場景hallucinate的質量。

hallucinate:幻覺是指人們的感官(視覺、聽覺、嗅覺、觸覺和味覺)出現虛假的感知,看起來是真實的,但實際上并不存在。

3.3. 模型訓練

本文介紹了一個基于自監督訓練的人物-場景交互生成模型。為了訓練模型,作者生成了一個包含240萬個人在場景中移動的視頻剪輯的數據集,使用了HiC的預處理流程,并使用Keypoint R-CNN和OpenPose進行人物檢測和關鍵點檢測。作者使用Mask R-CNN檢測人物掩碼,以在輸入場景圖像中遮蔽人物并裁剪出參考人物。作者還設計了一種遮蔽和數據增強策略,以支持不同粒度級別的人物插入,并通過Dropout和DDIM樣本來提高生成質量。作者的實驗結果表明,所提出的方法可以成功地生成高質量的人物-場景交互圖像。

4. 實驗

本表格展示了進行了幾項消融實驗,以分析不同因素對所提出方法性能的影響。

dd496598-0658-11ee-962d-dac502259ad0.png

第一組實驗比較了使用不同類型的輸入數據和數據增強策略的方法性能。結果顯示,使用視頻作為輸入數據且不進行數據增強會在FID(越小越好)和PCKh(越大越好)指標方面獲得最佳性能。這表明使用視頻作為輸入數據可以提供更多的時間信息和上下文,使模型可以從中學習,而數據增強可以進一步提高性能。第二組實驗研究了不同圖像編碼器對所提出方法性能的影響。結果顯示,使用帶有8倍KL散度損失的VAE的性能不如使用不帶KL散度損失的圖像編碼器。這表明對于所提出的方法,使用更簡單的圖像編碼器更為有效。最后一組實驗分析了模型規模和預訓練對所提出方法性能的影響。結果顯示,增加模型規模并從預訓練的檢查點進行微調會在FID和PCKh指標方面獲得更好的性能。這表明增加模型容量并使用預訓練可以幫助提高所提出方法的性能。

dd7ad59c-0658-11ee-962d-dac502259ad0.png

本節主要介紹了針對人物幻覺和場景幻覺任務的實驗評估。在人物幻覺任務中,作者將條件人物去除后進行評估,并與Stable Diffusion和DALL-E 2進行比較。作者通過傳遞空條件人物對其模型進行評估,并使用Stable Diffusion進行定量評估。在定性評估中,作者生成了具有相同提示的Stable Diffusion和DALL-E 2結果。實驗結果表明,作者的方法可以成功地幻覺出與輸入場景相一致的多樣化人物,并且其性能優于基線方法。在場景幻覺任務中,作者評估了受限和非受限兩種場景幻覺情況,并與Stable Diffusion和DALL-E 2進行比較。實驗結果表明,作者的方法比基線方法更能夠維持輸入參考人物的位置和姿態,并且在綜合大量圖像的場景幻覺任務中表現更好。作者還分析了條件因素對模型性能的影響,并對其進行了消融實驗??偟膩碚f,實驗結果表明,作者的方法在人物幻覺和場景幻覺任務中表現出色,并且相比基線方法具有更好的性能和生成效果。同時,作者還分析了模型性能的不同影響因素,并提出了可用于改進性能的策略。

5. 討論

本文提出的方法具有以下優點和廣闊的應用前景:

數據集限制:為了訓練模型,作者使用了一個包含240萬個人在場景中移動的視頻剪輯的數據集,這些視頻剪輯來自于互聯網,可能存在版權和隱私問題。此外,數據集中的場景和人物的多樣性也有限,這可能影響了模型在生成真實世界的多樣化人物和場景時的表現。

參考人物的選擇:為了生成人物-場景交互圖像,模型需要一個參考人物來指導生成。在本文中,作者使用了一些啟發式規則來選擇參考人物,如選擇中央人物或群體中的人物。但這種啟發式規則可能不能很好地適應不同的場景和應用場景,可能需要更精細的選擇方法來提高模型的生成效果。

訓練和推理時間:由于所提出的方法使用了大規模的神經網絡模型,并需要在大量的數據上進行訓練,因此訓練時間和計算資源需求較高。在推理時,生成一張高質量的圖像也需要一定的時間和計算資源。這可能限制了該方法在實際應用中的可擴展性和實用性。

生成結果的控制性較差:本文中所提出的方法是無條件生成人物-場景交互圖像,即無法直接控制生成圖像中的人物和場景屬性。盡管在一定程度上可以通過選擇參考人物來指導生成,但仍然存在控制性較差的問題。在某些應用場景,需要更精細的生成控制來滿足特定的需求,這可能需要其他方法的支持。

dd7ad59c-0658-11ee-962d-dac502259ad0.png

但是本文提出的方法在人物-場景交互圖像生成任務中表現出了良好的性能和效果,但也存在一些缺點:

數據集:為了訓練模型,作者使用了一個包含240萬個人在場景中移動的視頻剪輯的數據集,這些視頻剪輯來自于互聯網,可能存在版權和隱私問題。此外,數據集中的場景和人物的多樣性也有限,這可能影響了模型在生成真實世界的多樣化人物和場景時的表現。

參考人物的選擇:為了生成人物-場景交互圖像,模型需要一個參考人物來指導生成。在本文中,作者使用了一些啟發式規則來選擇參考人物,如選擇中央人物或群體中的人物。但這種啟發式規則可能不能很好地適應不同的場景和應用場景,可能需要更精細的選擇方法來提高模型的生成效果。

訓練和推理時間:由于所提出的方法使用了大規模的神經網絡模型,并需要在大量的數據上進行訓練,因此訓練時間和計算資源需求較高。在推理時,生成一張高質量的圖像也需要一定的時間和計算資源。這可能限制了該方法在實際應用中的可擴展性和實用性。

生成結果的控制性較差:本文中所提出的方法是無條件生成人物-場景交互圖像,即無法直接控制生成圖像中的人物和場景屬性。盡管在一定程度上可以通過選擇參考人物來指導生成,但仍然存在控制性較差的問題。在某些應用場景,需要更精細的生成控制來滿足特定的需求,這可能需要其他方法的支持。

同時作者指出 EfficientViT 的一個局限性是,盡管它具有很高的推理速度,但由于引入了額外的 FFN,在模型大小方面與最先進的高效 CNN相比略微更大。此外,模型是基于構建高效視覺 Transformer 的指導方針手動設計的。在未來的工作中,可以有興趣減小模型大小,并結合自動搜索技術進一步提高模型的容量和效率。

6. 結論

在這項工作中,我們提出了一項新的任務,即感知可供性的人類插入場景,我們通過使用視頻數據以自我監督的方式學習條件擴散模型來解決它。我們展示了各種定性結果來證明我們方法的有效性。我們還進行了詳細的消融研究,以分析各種設計選擇的影響。我們希望這項工作能激勵其他研究人員追求這個新的研究方向

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3261

    瀏覽量

    48914
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24737

原文標題:CVPR 2023:把人放在他們的位置,把人自然地插到圖像里

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【「具身智能機器系統」閱讀體驗】+兩本互為支持的書

    環境融為一體進行交互響應。之所以這二者視為姊妹篇,是因為他們存在著緊密的聯系,又互為依托相互支持和補充,是一種類似于上下游的關系,是一體的兩個方面,故將兩書放在一起來閱讀大有打通任督二脈之感,實為暢快
    發表于 01-01 15:50

    本人新手請問問各位高人protel 在pcb鼠標放在零點的....啥

    本人新手請問問各位高人protel 在pcb鼠標放在零點的快捷鍵是啥???
    發表于 11-05 23:42

    labview中 while循環多層的條件結構,應該延時放在哪?

    while循環多層的條件結構,應該延時放在哪?
    發表于 01-18 14:57

    機器視覺——機器的“眼睛”

    響應市場要求,加強在國際市場的競爭能力。 視覺是人類獲取信息最重要的來源。看到一幅圖像,馬上能夠理解圖像的內容和含義。然而,機器視覺并非易事?,F有的機器人主要還是以壓力傳感器、位置
    發表于 01-23 15:02

    labview調用matlab時,怎么matlab的圖像顯示到labview呀?

    labview調用matlab時,怎么matlab的圖像顯示到labview呀,原諒我是個新手,不太懂,求大神賜教
    發表于 06-11 21:29

    【DNA Kit申請】智能送餐機器

    申請理由:我們是在校大學生EDA興趣團隊,正在設計制作智能機器項目。每天都要吃飯,餐廳是他們每天必經場所,在他們心中從來沒有過的新鮮感,目前在中國餐廳基本沒有人使用智能機器
    發表于 09-29 09:56

    請問基于mcfw的視頻圖像處理加一些自己的視頻圖像處理的算法,應該放在什么位置?

    的算法,應該放在什么位置?我現在將自己的算法加在demo_vcap_venc_vdec_vdis_bits_rdwr.c的VcapVencVdecVdis_ipcBitsProcessFullBufs
    發表于 07-27 07:43

    如何AI(智能)移植到手機或機器上?

    `1. 前言在本文,我提出了<兩段式>移植策略。在AI領域,第一階段的移植,就是AI模型移植到非常普及的Android手機放在
    發表于 11-25 11:37

    如何AI(智能)移植到手機或機器上?

    `1.前言 在本文,我提出了<兩段式>移植策略。在AI領域,第一階段的移植,就是AI模型移植到非常普及的Android手機,放在
    發表于 12-14 11:03

    為什么國內的企業都服務器放在香港機房

    ,為什么這些企業服務器放在香港呢?1. 地理位置香港的機房,離中國neidi非常近,地位位置優勢比較明顯,選一個近的機房就有很大的優勢。畢竟離的遠,中間傳輸的節點就比較多,那樣出現故
    發表于 12-30 14:07

    樹莓派的TF卡直接插到電腦上有何后果

    千萬不要直接樹莓派的TF卡直接插到電腦上,腦會提示要格式化磁盤。提示了也千萬不要點,格式化了就得重裝樹莓派系統了。血淚教訓??!方法一 U盤/硬盤拷貝有一說一,千萬別把想著這個樹莓派的TF卡
    發表于 01-13 06:08

    機器是什么?

    的環境中。據說每個關節都給機器一個自由度。圖3: 機器用電池作為驅動器的圖像開車驅動器是“發動機”,驅動鏈接(連接之間的部分)到他們想要的位置
    發表于 03-31 10:31

    互聯網機器變成人,但機器不可能超越人類

    馬云認為過去30年互聯網變成機器,未來30年互聯網機器變成人,但最終應該讓機器更像機器,讓人類更像人類。技術進步的趨勢不可阻擋,但機器跟人不同,它沒有靈魂,沒有信仰,沒有價值觀,所以人類可以控制機器。
    的頭像 發表于 12-05 16:53 ?5738次閱讀

    格蘭仕花2000多萬買來的日本機器拆開 自行改裝

    黃釗華立下軍令狀后,格蘭仕花了2000多萬買來的日本機器拆開了,一個零件一個零件擺開,然后再組裝起來。后來,開始根據自己的需求改造這個進口貨。他們改了日本機器的動力裝置,讓機器
    的頭像 發表于 05-24 17:03 ?3639次閱讀

    自然人、非自然人分布式項目并網流程區別

    自然人、非自然人在分布式項目申請并網流程上有所不同,提交的材料也不一樣;小固兩者在跑流程上的不同之處列出來,分享給那些準備跑流程的光伏從業者或者對并網申請流程感興趣的光伏愛好者。一、自然人
    的頭像 發表于 08-02 12:14 ?5207次閱讀
    主站蜘蛛池模板: 爱草视频| 欧美在线成人午夜影视| 老汉影视永久免费视频| 毛片区| 久久99免费| 俺也去第四色| 天天爽夜夜爽视频| 免费欧美黄色片| 在线观看视频网站| 亚洲一区在线免费观看| 国产婷婷| 四虎影院久久| 日本免费黄色大片| 久久h| 亚洲偷自偷白图片| 精品亚洲国产国拍| 中文字幕视频一区| 伊人久久综合成人网小说| 特黄色片| 久久精品国产亚洲综合色| 成人精品一区二区三区电影| 天天爽夜夜爽人人爽一区二区| 免费国产小视频| 免费黄色大片视频| 不卡视频免费在线观看| 色图视频| 国产精品免费视频拍拍拍| 天天夜天天干| 五月天激情丁香| 激情综合网色播五月| 四虎现在的网址入口| 久久青青成人亚洲精品| 真实子伦视频不卡| 狠狠久| 欧洲精品不卡1卡2卡三卡四卡| 婷婷午夜天| 国内精品久久久久久影院老狼| 天天摸天天干天天操| www.午夜色| 五月婷婷婷| 精品乩伦视频|