作者:Jiaming Sun,Zihao Wang,Siyu Zhang,Xingyi He, Hongcheng Zhao,Guofeng Zhang, Xiaowei Zhou
摘要
我們提出了一種名為OnePose的物體姿態(tài)估計的新方法。與現(xiàn)有的實例級或類別級方法不同,OnePose不依賴于CAD模型,可以處理任意類別的物體,而不需要進行針對實例或類別的網(wǎng)絡(luò)訓(xùn)練。OnePose借鑒了視覺定位的思路,只需要對物體進行簡單的RGB視頻掃描,就可以建立一個物體的稀疏SfM模型。然后,這個模型被注冊到具有通用特征匹配網(wǎng)絡(luò)的新查詢圖像上。為了緩解現(xiàn)有視覺定位方法的緩慢運行時間,我們提出了一個新的圖注意網(wǎng)絡(luò),該網(wǎng)絡(luò)直接將查詢圖像中的二維興趣點與SfM模型中的三維點進行匹配,從而實現(xiàn)高效和穩(wěn)健的姿勢估計。結(jié)合基于特征的姿勢跟蹤器,OnePose能夠穩(wěn)定地檢測并實時跟蹤日常家用物品的6D姿勢。我們還收集了一個大規(guī)模的數(shù)據(jù)集,其中包括150個物體的450個序列。
一、介紹
物體姿勢估計在增強現(xiàn)實(AR)中發(fā)揮著重要作用。AR中物體姿態(tài)估計的最終目標是將任意物體作為AR效果的 “虛擬錨”,這就要求我們有能力估計日常生活中周圍物體的姿態(tài)。大多數(shù)既定的物體姿勢估計工作假定物體的CAD模型是先驗的。由于高質(zhì)量的日常物體的CAD模型往往是不可獲取的,因此對AR場景下的物體姿態(tài)估計的研究需要新的問題設(shè)置。
為了不依賴實例級的CAD模型,最近許多方法都在研究類別級的姿態(tài)估計。通過在同一類別的不同實例上訓(xùn)練網(wǎng)絡(luò),網(wǎng)絡(luò)可以學(xué)習(xí)物體外觀和形狀的類別級表征,從而能夠歸納到同一類別的新實例。然而,這種方法需要大量的同一類別的訓(xùn)練樣本,而這些樣本可能很難獲得和注釋。此外,當新的實例具有明顯不同的外觀或形狀時,類別級方法的泛化能力也得不到保證。更重要的是,在許多現(xiàn)實世界的應(yīng)用中,例如移動AR,當需要處理的物體類別數(shù)量巨大時,為每個類別訓(xùn)練和部署一個網(wǎng)絡(luò)是負擔不起的。
為了減輕對CAD模型或特定類別訓(xùn)練的需求,我們回到了物體姿勢估計的 “舊 ”問題,但用一種新的基于學(xué)習(xí)的方法翻新了整個管道。類似于視覺定位的任務(wù),即在給定場景的SfM地圖的情況下估計未知的相機姿勢,物體姿勢估計長期以來一直是在基于定位的環(huán)境下制定的。與實例或類別級別的方法不同,這種設(shè)置假定給定了物體的視頻序列,并且可以從該序列中重建稀疏點云模型。然后,估計物體的姿勢等同于相對于重建的點云模型定位攝像機的姿勢。在測試時,從查詢圖像中提取二維局部特征,并與SfM模型中的點相匹配,以獲得二維到三維的對應(yīng)關(guān)系,由此可以通過PnP解決物體的姿勢問題。與通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)實例或特定類別的表征不同,這個傳統(tǒng)的管道利用了一個明確的物體三維模型,該模型可以針對新的實例即時建立,這為任意物體帶來了更好的泛化能力,同時使系統(tǒng)更容易解釋。
在本文中,我們將這一問題設(shè)置稱為one-shot物體姿勢估計,其目標是能夠估計任意類別的物體的6D姿勢,只需給定一些物體的姿勢注釋圖像進行訓(xùn)練。雖然這個問題與視覺定位類似,但直接移植現(xiàn)有的視覺定位方法并不能解決這個問題?,F(xiàn)代視覺定位pipeline通過首先在查詢圖像和檢索到的數(shù)據(jù)庫圖像之間進行二維二維匹配來產(chǎn)生二維三維對應(yīng)關(guān)系。為了確保定位的高成功率,與多個圖像檢索候選者的匹配是必要的,因此,2D-2D匹配可能很昂貴,特別是對于基于學(xué)習(xí)的匹配器。因此,現(xiàn)有的視覺定位方法的運行時間往往是幾秒鐘,不能滿足實時跟蹤移動物體的要求。
基于上述原因,我們建議直接在查詢圖像和SfM點云之間進行2D-3D匹配。我們的關(guān)鍵想法是使用圖注意網(wǎng)絡(luò)(GATs)來聚合對應(yīng)于同一三維SfM點(即一個特征軌跡)的二維特征,形成一個三維特征。聚合后的三維特征隨后與查詢圖像中的二維特征進行自我和交叉注意層的匹配。與自我注意和交叉注意層一起,GATs可以捕捉到地面真實的2D-3D對應(yīng)關(guān)系中所表現(xiàn)出的全局考慮和上下文相關(guān)的匹配先驗,使匹配更加準確和穩(wěn)健。
為了評估所提出的方法,我們收集了一個大規(guī)模的數(shù)據(jù)集,用于one-shot姿勢估計設(shè)置,其中包含150個物體的450個序列。與之前的實例級方法PVNet和類別級方法Objectron相比,OnePose無需對驗證集中的任何物體實例或類別進行訓(xùn)練就能達到更好的精度,而在GPU上處理一幀只需要58毫秒。據(jù)我們所知,當與基于特征的姿勢跟蹤器相結(jié)合時,OnePose是第一個基于學(xué)習(xí)的方法,可以穩(wěn)定地實時檢測和跟蹤日常家用物品的姿勢(參考項目頁面)。
貢獻:
革新物體姿勢估計的視覺定位管道,無需CAD模型或額外的網(wǎng)絡(luò)訓(xùn)練即可處理新的物體。
用于穩(wěn)健的2D-3D特征匹配的圖注意網(wǎng)絡(luò)的新結(jié)構(gòu)。
一個大規(guī)模的物體數(shù)據(jù)集,用于帶有姿態(tài)注釋的一次性物體姿態(tài)估計。
二、相關(guān)工作
基于CAD模型的物體姿態(tài)估計:目前最先進的物體6DoF姿態(tài)估計方法可以大致分為回歸和關(guān)鍵點技術(shù)。第一類方法直接將姿勢參數(shù)與每個感興趣區(qū)域(RoI)的特征進行回歸。相反,后一類方法首先通過回歸或投票找到圖像像素和三維物體坐標之間的對應(yīng)關(guān)系,然后用透視點(PnP)計算姿勢。這些方法需要高保真紋理的三維模型來產(chǎn)生輔助的合成訓(xùn)練數(shù)據(jù),并用于姿勢的改進,以達到訓(xùn)練實例的高精確度。
與上述為每個實例訓(xùn)練單一網(wǎng)絡(luò)的方法不同,NOCS提議在圖像上的像素和每個類別內(nèi)共享的歸一化物體坐標(NOCS)之間建立對應(yīng)關(guān)系。有了這個類別級的形狀先驗,NOCS可以在測試時消除對CAD模型的依賴。后來的一些工作遵循利用類別級先驗的趨勢,通過NOCS表示進一步恢復(fù)物體的更準確的形狀。這一工作思路的局限性在于,一些實例的形狀和外觀可能會有很大的不同,即使它們屬于同一類別,因此訓(xùn)練過的網(wǎng)絡(luò)對這些實例的概括能力是值得懷疑的。此外,在訓(xùn)練過程中仍然需要準確的CAD模型來生成地面真實的NOCS地圖,并且需要為不同的類別訓(xùn)練不同的網(wǎng)絡(luò)。我們提出的方法在訓(xùn)練和測試時都不需要CAD模型,而且是不分類別的。
無CAD模型的物體姿態(tài)估計:最近,有一些嘗試是為了在訓(xùn)練和測試時實現(xiàn)無CAD模型的物體6D姿勢估計。神經(jīng)對象擬合和LatentFusion都是通過合成分析的方法來解決這個問題的,其中可區(qū)分的合成圖像與目標圖像進行比較,為物體姿勢優(yōu)化產(chǎn)生梯度。神經(jīng)對象擬合提出用完全合成數(shù)據(jù)訓(xùn)練的Variational Auto Encoder(VAE)來編碼類別級別的外觀先驗,而LatentFusion為每個未見過的物體用擺好的RGB-D圖像建立了一個基于三維潛空間的物體表示。然而,這些方法的效率和準確性受到圖像合成網(wǎng)絡(luò)的高度限制,不適合AR應(yīng)用。RLLG采取了不同的方法,從圖像像素到物體坐標學(xué)習(xí)對應(yīng)關(guān)系,而不需要CAD模型。盡管RLLG可以達到與同行相當?shù)木?,但它只在實例層面工作,需要高度精確的實例掩碼來分割前景像素。
最近,Objectron提出了一種數(shù)據(jù)驅(qū)動的方法,通過大量的注釋訓(xùn)練數(shù)據(jù)來學(xué)習(xí)回歸每個類別的投影盒角的像素坐標。這種方法成本很高,而且只限于幾個類別,因為所學(xué)的模型是針對類別的。此外,它只能獲得沒有尺度的姿勢,因為它使用單視角的圖像作為輸入。相反,我們的方法可以在映射階段利用視覺-慣性運動學(xué)來恢復(fù)度量尺度,從而能夠在測試時恢復(fù)度量6D姿勢。
基于特征匹配的姿勢估計:基于特征匹配的視覺定位pipeline已經(jīng)被研究了很久。傳統(tǒng)上,解決定位問題的方法是在輸入的RGB圖像和來自SfM的3D模型之間尋找2D-3D的對應(yīng)關(guān)系,并使用手工制作的局部特征,如SIFT和ORB。
最近,基于學(xué)習(xí)的局部特征檢測、描述和匹配超越了這些手工制作的方法,并取代了定位管道中的傳統(tǒng)對應(yīng)方法。值得注意的是,層次化定位(HLoc)提供了一個完整的工具箱,用于運行SfM與COLMAP以及特征提取和匹配與SuperGlue。我們的方法在使用自關(guān)注層和交叉關(guān)注層進行特征匹配方面受到SuperGlue的啟發(fā)。然而,SuperGlue只關(guān)注圖像之間的二維-二維匹配,沒有考慮SfM圖的圖形結(jié)構(gòu)。我們的方法使用圖注意網(wǎng)絡(luò)來處理對應(yīng)三維SfM點(即特征軌跡)的二維特征,這在二維三維匹配過程中保留了SfM的圖結(jié)構(gòu)。
許多傳統(tǒng)的物體識別和姿勢估計方法也與視覺定位類似,都是基于特征的管道。這些方法首先通過從各視圖中的匹配關(guān)鍵點重建稀疏點云來建立物體模型,并通過給定的查詢圖像用稀疏點云模型進行定位。一些方法[28, 45]提出用類似于同步定位和映射(SLAM)的框架在線建立點云模型。值得注意的是,BundleTrack提出了一個沒有實例或類別級模型的在線姿態(tài)跟蹤管道,這與我們的方法很相似。然而,它使用的是2D-2D特征匹配,而不是像我們這樣的2D-3D。為了恢復(fù)三維信息,它還需要深度圖作為輸入,這可能會限制它在AR中的應(yīng)用。
三、本文方法
圖2展示了提出方法的簡介。在第1節(jié)介紹的One-shot物體姿態(tài)估計的設(shè)置中,用移動設(shè)備(如iPhone或iPad)對物體周圍進行視頻掃描??紤]到視頻掃描和測試圖像序列{Iq},One-shot物體姿態(tài)估計的目標是估計物體的姿態(tài){ξq}∈SE(3)定義在攝像機坐標系中,其中q是視頻中的關(guān)鍵幀索引。
3.1. 序言
數(shù)據(jù)采集和注釋:在數(shù)據(jù)采集過程中,假設(shè)物體被設(shè)置在一個平面上,并且在采集過程中保持靜態(tài)。為了定義物體的典型姿勢,在AR中對物體的邊界框B進行了注釋,攝像機的姿勢{ξi}∈SE(3)由ARKit或ARCore等非自身AR工具箱跟蹤,i是幀索引。捕捉界面如圖4所示。B是由中心位置、尺寸和圍繞Z軸的旋轉(zhuǎn)(偏航角)組成的參數(shù)。在數(shù)據(jù)捕獲和注釋之后,OnePose的管道可以被分成離線映射階段和在線定位階段。
恢復(fù)運動結(jié)構(gòu):在映射階段,給定一組從視頻掃描中提取的圖像{I},我們使用恢復(fù)運動結(jié)構(gòu)(SfM)來重建物體的稀疏點云{Pj},其中j是點索引。由于B是有注釋的,{Pj}可以在物體坐標系中被定義。圖2中可以看到對象{Gj}的所有對應(yīng)圖的可視化。具體來說,首先從每個圖像中提取二維關(guān)鍵點和描述符,并在圖像之間進行匹配,以產(chǎn)生二維-二維對應(yīng)關(guān)系。每個重建的點Pj都對應(yīng)于一組匹配的二維關(guān)鍵點和描述符∈Rd,其中k是關(guān)鍵點。其中k是關(guān)鍵點索引,d是描述符的維度。對應(yīng)圖{Gj},也被稱為特征軌跡,由的關(guān)鍵點索引形成,如圖2所示。
通過視覺定位進行姿勢估計:在定位階段,一連串的查詢圖像{Iq}被實時捕獲。相對于{Pj},對查詢圖像的相機姿勢進行定位,產(chǎn)生在相機坐標中定義的物體姿勢{ξq}。
對于每個Iq輸入圖像,二維關(guān)鍵點和描述符{F2Dq }∈Rd被提取出來用于匹配?!蔙d被提取出來并用于匹配。在現(xiàn)代的視覺定位pipeline中,一個圖像檢索網(wǎng)絡(luò)被用來提取圖像級別的全局特征,這些特征可以被用來從SfM數(shù)據(jù)庫中檢索出候選圖像,用于2D-2D匹配。增加要匹配的圖像對的數(shù)量將大大降低定位的速度,特別是對于基于學(xué)習(xí)的匹配器,如SuperGlue或LoFTR。減少檢索的圖像數(shù)量會導(dǎo)致低的定位成功率,因此必須在運行時間和姿態(tài)估計精度之間做出權(quán)衡。
為了解決這個問題,我們建議直接在查詢圖像和SfM點云之間進行2D-3D匹配。直接的2D-3D匹配避免了對圖像檢索模塊的需求,因此可以在快速的同時保持定位的準確性。在下一節(jié)中,我們將描述如何獲得M3D的2D-3D對應(yīng)關(guān)系。
3.2. OnePose
我們建議使用[40]中的圖注意層來實現(xiàn)自適應(yīng)聚合。我們將其命名為聚合-注意力層。聚合-注意層對每個單獨的Gj進行操作。對于每個Gj,將權(quán)重矩陣表示為W∈Rd×d,聚集-注意力層定義為:
sim計算注意系數(shù), 衡量描述符在聚合操作中的重要性。
受[32, 36]的啟發(fā),我們在聚合-注意力層之后進一步使用自注意力層和交叉注意力層來處理和轉(zhuǎn)換聚合的三維描述符和查詢的二維描述符。一組聚集-注意層、自注意層和交叉注意層構(gòu)成了一個注意組。
在選擇了置信度閾值θ之后,C3D變成了一個置換矩陣M3D,它代表了2D-3D的匹配預(yù)測。有了M3D,物體在相機坐標中的姿態(tài)ξq可以通過RANSAC的PnP算法計算出來。
監(jiān)督:監(jiān)督信號Mgt 3D可以直接從訓(xùn)練集的SfM圖中過濾的2D-3D對應(yīng)關(guān)系中獲得。損失函數(shù)L是由雙SoftMax返回的置信度分數(shù)C3D的focal loss。
基于特征的在線姿勢跟蹤:上述姿勢估計模塊只接受稀疏的關(guān)鍵幀圖像作為輸入。為了在AR應(yīng)用中獲得穩(wěn)定的物體姿態(tài),我們進一步為OnePose配備了基于特征的姿態(tài)跟蹤模塊,該模塊處理測試序列中的每一幀。與SLAM系統(tǒng)類似,姿勢跟蹤模塊在線重建3D地圖并維護其自身的關(guān)鍵幀池。在每個時間點,跟蹤采用緊密耦合的方法,依靠預(yù)先建立的SfM地圖和在線建立的三維地圖來尋找二維三維對應(yīng)關(guān)系并解決六維姿勢問題。由于姿勢跟蹤模塊在在線構(gòu)建的地圖中保留了測試序列的二維和三維信息,它可以比基于單幀的姿勢估計模塊更加穩(wěn)定。姿勢估計模塊有助于在跟蹤模塊失敗時進行恢復(fù)和重新初始化。我們在補充材料中提供了關(guān)于姿勢跟蹤模塊的更多細節(jié)。
關(guān)于One-shot設(shè)定的附注:除了不使用CAD模型或額外的網(wǎng)絡(luò)訓(xùn)練外,OnePose的單次拍攝設(shè)置與現(xiàn)有的實例或類別級姿態(tài)估計方法相比有很多優(yōu)勢。在映射階段,OnePose將物體的簡單視頻掃描作為輸入,并建立物體幾何形狀的特定實例三維表示。與CAD模型在實例級方法中的作用類似,物體的三維幾何形狀對于恢復(fù)具有度量尺度的物體姿勢至關(guān)重要。在定位階段,OnePose中學(xué)習(xí)到的局部特征匹配可以處理視角、光照和尺度的巨大變化,使該系統(tǒng)與類別級方法相比更加穩(wěn)定和穩(wěn)健。基于局部特征的管道還允許姿勢估計模塊與基于特征的跟蹤模塊自然耦合,以實現(xiàn)高效和穩(wěn)定的姿勢跟蹤。
3.3. OnePose Dataset
由于沒有現(xiàn)成的大規(guī)模數(shù)據(jù)集可以滿足One-shot姿態(tài)估計的設(shè)定,我們收集了一個數(shù)據(jù)集,其中包括同一物體在不同位置的多次視頻掃描。OnePose數(shù)據(jù)集包含150個物體的450多個視頻序列。對于每個物體,都提供了多個視頻記錄,伴隨著攝像機的姿勢和三維邊界框的注釋。這些序列是在不同的背景環(huán)境下收集的,每個序列的平均記錄長度為30秒,涵蓋物體的所有視圖。該數(shù)據(jù)集被隨機分為訓(xùn)練集和驗證集。對于驗證集中的每個物體,我們指定一個映射序列用于建立SfM地圖,并使用一個測試序列進行評估。
為了減少數(shù)據(jù)注釋的人工勞動,我們提出了一種半自動的方法來同時收集和注釋AR中的數(shù)據(jù)。具體來說,如圖4所示,一個可調(diào)整的三維邊界框被渲染到AR中的圖像上。唯一的手工工作是調(diào)整三維邊界框的旋轉(zhuǎn)和粗糙尺寸。圖4中顯示了數(shù)據(jù)采集界面和后處理過程的可視化情況。
后處理的目的是減少ARKit對每個序列的姿勢漂移誤差,并確保各序列的姿勢注釋一致。為了實現(xiàn)這一目標,我們首先將序列與注釋的邊界盒對齊,并使用COLMAP進行捆綁調(diào)整(BA)。在BA中使用的特征匹配是用SuperGlue提取的。由于序列之間的背景不同,我們只在所有可匹配的圖像對之間的前景(即在二維物體邊界框內(nèi))提取匹配。關(guān)于我們的數(shù)據(jù)收集和處理管道的更多細節(jié),請參考我們的補充材料。
四、實驗
在這一節(jié)中,我們首先介紹了我們選擇的基線方法和評估標準,以及在我們提出的OnePose數(shù)據(jù)集上的評估指標,然后在第4.2節(jié)中介紹了我們方法的實施細節(jié)。實驗結(jié)果和消融研究分別在第4.3節(jié)和第4.4節(jié)詳述。
4.1. 實驗設(shè)置和基線
基線:我們將我們的方法與以下三類基線方法進行比較。1)在基于局部特征匹配的姿勢估計方面,視覺定位方法與我們提出的方法最為相關(guān)。具體來說,我們用不同的關(guān)鍵點描述符(SIFT和SuperPoint)以及匹配器(Nearest Neighbour、SuperGlue[32])將我們的方法與HLoc[31]進行比較。2)實例級方法PVNet。3) 類別級方法Objectron]。據(jù)我們所知,Objectron是唯一一個以RGB圖像為輸入的類別級物體姿態(tài)估計方法。
評估方法:在所有的實驗中,我們用所提出的方法進行每一幀的姿勢估計,而不使用姿勢跟蹤模塊,以進行公平的比較。對于我們的視覺定位基線和提議的方法,我們使用相同的視頻掃描來建立定位的SfM圖。請注意,用于大尺度場景的原始圖像檢索模塊不能很好地泛化到物體上,因此我們從數(shù)據(jù)庫圖像中平等地抽出一個間隔相等的五張圖像子集作為檢索圖像進行特征匹配。為了訓(xùn)練我們的實例級基線PVNet,我們使用3D盒角而不是CAD模型中抽樣的語義點作為投票的關(guān)鍵點,并進一步提供輔助的掩碼監(jiān)督,這是訓(xùn)練PVNet所不可或缺的。由于類別級基線Objectron的數(shù)據(jù)要求很高,我們直接使用作者提供的模型,這些模型是在原始Objectron數(shù)據(jù)集上訓(xùn)練的。
衡量標準:對于評估指標,我們不能直接采用常用的ADD指標和2D投影指標,因為在我們的環(huán)境中沒有CAD模型。
另一個常用的評估物體姿勢質(zhì)量的指標是中提出的5cm-5deg指標,如果誤差低于5cm和5°,就認為預(yù)測的姿勢是正確的。我們根據(jù)類似的定義,將標準進一步縮小到1cm-1deg和3cm-3deg,為增強現(xiàn)實應(yīng)用中的姿勢估計設(shè)定更嚴格的指標。我們以40厘米和25厘米為閾值,將物體按其直徑分為三部分。當與實例級基線和類別級基線進行比較時,我們遵循原始論文中使用的指標。
4.2. 實施細節(jié)
在映射階段,為了保持快速的映射速度,我們重用{ξi}并使用三角法來重建點云,而不需要通過捆綁調(diào)整來進一步優(yōu)化相機的位置。在定位階段,我們假設(shè)物體的二維邊界框是已知的,在實踐中可以很容易地從一個現(xiàn)成的二維物體檢測器(如YOLOv5[3])中獲得。為了減少姿勢估計中可能出現(xiàn)的不匹配,在映射過程中只保留注釋的三維邊界框內(nèi)的三維點,在定位過程中只保留檢測的二維邊界框內(nèi)的二維特征。
4.3. 評價結(jié)果
與視覺定位基線的比較:我們將我們的方法與具有不同特征提取器和匹配器的視覺定位基線進行比較,結(jié)果見表1。HLoc(SPP+SPG)是帶有基于學(xué)習(xí)的特征提取器(SuperPoint)和匹配器(SuperGlue)的基線,在所有三個變體中,它與我們的方法最相似。與HLoc(SPP+SPG)相比,我們的方法性能相當或略好,而HLoc(SPP+SPG)的運行時間是我們方法的十倍。我們相信,這種改進來自于我們的方法能夠有選擇地從多個圖像中聚合上下文,這得益于我們的GATs設(shè)計,而不是只關(guān)注被匹配的兩個圖像。
與實例級基線PVNet的比較:所提出的方法與PVNet[26]在OnePose數(shù)據(jù)集的選定對象上進行了5cm-5deg的比較,結(jié)果如表2所示。為了獲得用于訓(xùn)練PVNet的分割掩碼,我們需要額外應(yīng)用密集的三維重建,并渲染重建的網(wǎng)格以獲得數(shù)據(jù)序列上的掩碼。這個過程很耗時,而且由于三維重建的質(zhì)量問題,大大限制了我們對物體的選擇。我們的方法實現(xiàn)了比PVNet高得多的精度,這表明了我們方法的優(yōu)越性。PVNet依賴于記憶從圖像斑塊到特定物體關(guān)鍵點的映射。如果不對密集覆蓋所有可能視圖的大規(guī)模合成圖像(用CAD模型渲染)進行預(yù)訓(xùn)練,PVNet的性能將急劇下降。
相反,我們的方法能夠利用學(xué)到的局部特征,這些特征相對來說是視點不變的,因此在保持精度的同時,可以推廣到未見過的視圖。
與類別級基線Objectron的比較:我們將我們的方法與Objectron在鞋類和杯類的所有物體上用原論文中使用的指標進行比較,結(jié)果見表。3. 對于二維投影的平均像素誤差,Objectron在我們的數(shù)據(jù)集上的結(jié)果與Objectron數(shù)據(jù)集上兩個類別的報告結(jié)果相差甚遠。這是因為Objectron數(shù)據(jù)集和我們的數(shù)據(jù)集之間的地面真實注釋存在偏差。為了進行公平的比較,我們進一步對Objectron的預(yù)測結(jié)果進行了縮放和中心對齊操作,以緩解這一差距,并在表3中分別提供了Objectron(S)和Objectron(S+C)的結(jié)果。
盡管Objectron的性能確實得到了提升,并且與原始論文中報告的結(jié)果相當,但我們的方法卻以很大的幅度超過了它。我們的方法在方位角誤差和仰角誤差的平均精度上明顯優(yōu)于Objectron,特別是對于杯子類的物體,其形狀和外觀在不同的實例之間可能有很大的差異。這些實驗說明了類別級方法對新物體實例的概括能力是有限的。
運行時間分析:我們在表1中報告了我們的視覺定位基線和我們的方法的運行時間。1. 運行時間包括使用SuperPoint對查詢圖像進行特征提取,以及不使用2D檢測和PnP的2D-3D匹配過程。我們的方法比HLoc(SPP+SPG)的運行時間快10倍。所有的實驗都在NVIDIA TITAN RTX GPU上進行。
五、結(jié)論
在本文中,我們提出了OnePose用于一次性物體姿態(tài)估計。與現(xiàn)有的實例級或類別級方法不同,OnePose不依賴于CAD模型,可以處理任意類別的物體,而不需要進行針對實例或類別的網(wǎng)絡(luò)訓(xùn)練。與基于定位的基線方法、實例級基線方法PVNet和類別級基線方法Objectron相比,OnePose實現(xiàn)了更好的姿勢估計精度和更快的推理速度。我們還認為,我們對基于定位的設(shè)置的重新審視(即單次物體姿態(tài)估計)對AR來說更實用,對社區(qū)也更有價值。
局限性:我們的方法的局限性來自于依賴局部特征匹配的姿勢估計的性質(zhì)。我們的方法在應(yīng)用于無紋理物體時可能會失敗。盡管我們的方法通過注意力機制得到了加強,但我們的方法仍然難以處理視頻掃描和測試序列中的圖像之間的極端尺度變化。
本審核編輯:郭婷
-
3D
+關(guān)注
關(guān)注
9文章
2878瀏覽量
107548 -
CAD
+關(guān)注
關(guān)注
17文章
1092瀏覽量
72505
原文標題:OnePose: 無CAD模型的one-shot物體姿態(tài)估計(CVPR 2022)
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論