現代機器人技術在運動類任務上的表現已經很驚艷,比如搬運重物、雪地行走等,但對于人和目標的交互式任務,比如餐桌擺盤、裝飾房間等多半還無能為力。近日,斯坦福大學研究人員就試圖通過大型視頻集來識別、表示和生成人與物體間的真實交互。
近幾年來,虛擬現實(VR)和機器人平臺技術已經取得了巨大進步。這些平臺現在可以讓我們體驗更加身臨其境的虛擬世界,讓機器人幫我們完成具有挑戰性的運動類任務,例如在雪中行走,搬運重物等。那么,我們能否很快就能擁有可以會擺放餐桌、會做菜的機器人了呢?
很遺憾,這個目標現在離我們還有點遠。
在日常生活中人與物體發生相互作用的一些例子
為什么?要弄清這個問題,需要從日常人類生活中的相互作用的多樣性說起。我們幾乎無時無刻不在進行活動,這些活動中包括簡單的動作,比如吃水果,或更復雜一些的,比如做飯。這些活動中都會發生人和周圍事物的相互作用,這個過程是多步的,會受到物理學、人類目標,日常習慣和生物力學的支配。
為了開發更具動態性的虛擬世界和更智能的機器人,我們需要教機器捕獲,理解和復制這些交互行為。我們可以以大型視頻集(如YouTube,Netflix,Facebook)的形式,廣泛提供了解這些交互所需的信息。
本文將描述從視頻中學習人與對象的多級交互活動所采取的一些初級步驟。主要討論生成適用于VR/ AR技術的人與對象交互動畫,研究如何使機器人能巧妙地對用戶行為和交互作出反應。
問題和挑戰
我們將研究重點放在人類進行的各種交互活動的子集上,常見的如家用桌上或辦公室中的人與物體的交互,比如用手拿取桌子上的目標。下圖中類似的桌面交互活動占到我們日常行為中的很大一部分,但由于手-物體的配置空間很大,因此這些交互活動的模式和特征難以捕獲。
上圖是我們收集的視頻中的一些桌面交互活動實例。我們收集了75個視頻(20個驗證視頻)。
我們的目標是通過學習大型視頻集來識別、表示和生成這些真實的交互。這必須要解決具有挑戰性的基于視覺的識別任務,產生與當前和過去的環境狀態一致、時間空間一致的多步交互。這些交互還應符合基本物理定律(比如不能穿透物體),人類習慣(比如不能端著帶杯柄的咖啡杯),并受到人體生物力學特征的限制(比如夠不到太遠的物體)。
人類活動的空間及其支持的相互作用存在無數可能。與對象的交互會導致連續的時空上的轉換,使交互模式難以形式化。不過,這些復雜的相互作用可以按照順序進行建模,即總結出從給定狀態到后續狀態的變化概率。
為了在這個順序模型中進行參數化表示,我們引入了一個稱為動作劃分(action plot)的表示,負責表示由手完成的、導致場景中的狀態發生改變的一系列動作。每個動作定義交互中的唯一階段,并表示為動作元組,每個動作元組由動作標簽、持續時間、參與對象、結束狀態和位置組成。這種離散化處理方式更加突出了人與物體相互作用的組合性質,同時抽象出時空變換的復雜度。
從視頻中識別人與物體的交互
學習生成包含多步驟交互行為的動作劃分,捕捉現實世界中人和物體交互行為的物理約束和因果關系。我們的目標是從人類場景交互的視頻集合中進行自動學習,因為這是一種快速,廉價、多功能的設置。為了完全表示動作劃分,需要首先獲取有關對象的實例、類別和位置,然后確定手的位置,最后進行動作檢測和分割,這些信息都要從視頻中提取,難度很大。
我們通過自動化的pipeline,利用計算機視覺領域的最新進展,在動作劃分任務上實現了最高的精度。
對象和實例跟蹤:動作劃分中的一個重要組成部分是對象類別、實例、位置和狀態。我們使用基于更快的R-CNN架構的物體檢測器來在每幀圖像中找到候選邊界框和標簽和對象位置,通過時間濾波減少檢測抖動。為了推斷對象的狀態,在每個邊界框的內容上訓練分類器。
手部檢測:由于大多數交互涉及手部,因此圖像處理目的是推斷出手在操縱哪些物體,以及手部遮擋時的物體位置。我們使用完全卷積神經網絡(FCN)架構來檢測手部動作。該網絡使用來自GTEA數據集中的手工掩模的數據進行訓練,并根據我們視頻集的子集進行微調。通過手部檢測和物體的運動方式,可以推斷出手的實時狀態(是空閑,還是被占用),這是一個重要的信息。
動作劃分:要為每個視頻幀生成動作標簽,我們需要識別所涉及的動作以及它們的開始和結束時間(即動作分段)。我們采用兩階段方法:(1)為每幀圖像提取有意義的圖像特征,(2)利用提取的特征對每幀的動作標簽進行分類,并對動作進行分段劃分。為了增加動作劃分的魯棒性,使用LSTM網絡來暫時聚合信息。詳細信請參閱論文。
使用遞歸神經網絡生成
利用上文中描述的動作劃分表示可以對復雜的時空交互進行緊湊編碼,第2部分中的識別系統可以利用視頻創建動作劃分。現在的目標是使用視頻集合中提取的動作圖來學習生成新的交互。為了使問題易于處理,我們將動作元組中的時變和時不變參數進行解耦處理,更具體地說,是使用多對多RNN來建模,并利用與時間無關的高斯混合模型。
時間依賴性動作分割RNN:從自然語言處理中的類似序列問題中汲取靈感,使用狀態保持遞歸神經網絡(RNN)來模擬交互事件中與時間相關的參數。
動作分割RNN會學習并預測包括動作標簽、活動對象,對象狀態和持續時間組成的下一狀態。每個時間步長上的輸入會首先嵌入到指定大小的向量中。
與時間無關的物體位置模型:人和物體之間的許多相互作用需要通過建模,生成新的合理物體運動。物體的分布存在強烈的先驗性特征。比如在杯子周圍存在打開的瓶子是很常見的,但在筆記本電腦周圍就很少見。由于這些先驗性特征對時間因素的依賴性不高,我們可以利用高斯混合模型(GMM)對視頻集合進行學習,并進行建模。
與時間無關的對象位置模型的學習和建模。此圖為從視頻集合中學習的可能對象位置的熱圖。
結果與應用實例
動畫合成:我們的方法可以學習單個動作的前后因果依賴性,所以可用于生成在訓練期間未見過的新的動作圖像,并將這些動作圖渲染成逼真的動畫,如下圖所示。利用這一點可以產生虛擬/增強現實領域的新應用,向人們傳授新技能(比如沖咖啡)。
機器人仿真和運動規劃:可以在智能和反應環境中啟用應用,改善老年人和殘疾人的生活。我們開發了帶差動驅動器的機器杯。杯子的動作由實時識別、表示和生成pipeline驅動。杯子可以實時捕獲交互并編碼為動作圖像,預測可能的未來狀態。機器人使用這些預測來做出適當的反應。
下圖中的“召喚杯”顯示出用手抓杯子的過程。智能杯子會朝人手的方向移動,以防用戶伸手夠不到。但是,如果檢測到用戶的手中之前已經拿了一本書,智能杯就不會移動,因為我們的方法隱式學會了“一次只讓手拿住一個物體”的物理約束。
“召喚杯”表現出了手、智能杯子和瓶子之間更復雜相互作用的實例。當手去移動裝滿的瓶子時,智能杯自動定位以便手將瓶中的水倒進杯里。但是,當檢測到瓶子是空的時,智能杯不會做出反應。只有掌握復雜的人和對象之間的交互特征,才能實現這種語義規劃。
討論與未來方向
本研究是識別、表示和生成合理的動態人與對象交互過程的第一步。我們提出了一種方法,通過識別視頻中的交互過程,使用動作劃分緊湊地表示出這些交互,并生成新的交互,從而自動學習視頻集合中的交互。雖然我們已經取得了很大的成果,但仍有一些明顯的局限性。
我們用以進行動作劃分的RNN無法捕獲的長時間范圍內的活動。目前的應用也僅限于桌上的交互式任務。在未來,我們計劃將研究范圍擴展至長期的交互活動上,并改善我們生成的交互的合理性。
我們的方法為學習生成人與對象的交互活動提供了堅實的基礎。但是要想創建更具沉浸感和動態的虛擬現實,還需要進行廣泛的研究,將來我們也許可以構建會做晚餐、會洗碗的機器人。
本研究的論文將于2019年 Eurographics會議上發表。
-
機器人
+關注
關注
211文章
28476瀏覽量
207414 -
虛擬現實
+關注
關注
15文章
2287瀏覽量
95426 -
AR技術
+關注
關注
4文章
251瀏覽量
17302
原文標題:斯坦福黑科技打造新型交互機器人:看視頻一學就會!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論