0. 引言
歸功于大規(guī)模視覺語言模型,名詞指代表達理解模型已經(jīng)取得了巨大的進展。然而,在像智能服務(wù)機器人這樣的現(xiàn)實交互中,系統(tǒng)輸入通常較為隱晦(比如舒服得坐下這樣的動作),現(xiàn)代視覺語言模型設(shè)計是否能有效地理解動詞所指仍然有待探索。
1. 論文信息
2. 摘要
目前的指代表達理解算法可以有效地檢測或分割名詞所指的對象,但如何理解動詞指代仍然是一個有待探索的問題。因此,我們研究了具有挑戰(zhàn)性的面向任務(wù)的檢測問題,該問題旨在找到最好地由動詞所指示動作的對象,如舒適地坐在上面。為了更好地為機器人交互等下游應(yīng)用服務(wù),我們將問題擴展到面向任務(wù)的實例分割。這項任務(wù)的一個獨特要求是在可能的備選方案中選擇首選候選方案。因此,我們求助于transformer體系結(jié)構(gòu),它自然地對成對查詢關(guān)系進行建模,這構(gòu)建了TOIST方法。為了利用預(yù)先訓(xùn)練的名詞指代表達理解模型,以及我們可以在訓(xùn)練期間訪問特權(quán)名詞基礎(chǔ)事實的事實,提出了一種新的名詞-代詞提取框架。名詞原型以無監(jiān)督的方式生成,并且上下文代詞特征被訓(xùn)練來選擇原型。因此,網(wǎng)絡(luò)在推理過程中保持名詞不可知。我們在面向任務(wù)的大規(guī)模數(shù)據(jù)集COCO-Tasks上進行測試并實現(xiàn)比最佳報告結(jié)果高出10.9%。提出的名詞代詞提取可以將mAPbox和mAPmask分別提高2.8%和3.8%。
3. 算法分析
3.1 任務(wù)描述
TOIST這篇文章目的是解決面向任務(wù)的檢測問題,那么什么是面向任務(wù)呢?如圖1右上角所示,當(dāng)輸入為“涂抹黃油”時,系統(tǒng)會輸出叉子的檢測框,因為叉子可用于涂抹黃油。當(dāng)然這只是COCO-Tasks提出的目標(biāo)檢測問題,TOIST還借助現(xiàn)有的COCO掩碼將問題擴展到實例分割問題,以此來實現(xiàn)更精細的定位。例如當(dāng)輸入為“舒服得坐著”時,系統(tǒng)會分割出沙發(fā)。因此,TOIST提出的面向任務(wù)的實例分割方案(圖1底部)可以很好得在點云分割和三維重建等領(lǐng)域發(fā)揮作用,對于下游機器人的交互應(yīng)用具有重要意義。 圖1 左上:名詞指代表達理解,右上:面向任務(wù)的檢測,下部:面向任務(wù)的實例分割。 當(dāng)然了,面向任務(wù)的檢測/分割方法的一個有趣且具有挑戰(zhàn)性的特征是內(nèi)在歧義。例如,在圖1的右上圖中,比薩餅皮也可以用來涂抹黃油。如果我們手邊既沒有叉子也沒有比薩餅皮,仍然可以用盤子涂抹黃油。以及如圖1底部所示。當(dāng)我們考慮要踩的物體時,椅子是更好的選擇,因為沙發(fā)很軟,桌子移動起來很重。當(dāng)需要舒適地坐著時,沙發(fā)顯然是最好的選擇。換句話說,提供動詞的對象是不明確的,算法需要對偏好進行建模。
3.2 算法原理
近年來Transformer大火,TOIST的作者認為注意力機制可以很好得對候選對象之間的相對偏好進行建模,因此設(shè)計了一種面向任務(wù)的實例分割Transformer。 眾所周知,訓(xùn)練Transformer需要大量數(shù)據(jù),而大規(guī)模的具有相對偏好的動詞參考數(shù)據(jù)非常少見。因此作者從另一個角度出發(fā),探索了在名詞指代表達理解模型中重用知識的可能性,即使用代詞如某物作為代理,并從聚類生成的名詞嵌入原型中提取知識。 具體來說,TOIST首先使用特權(quán)名詞訓(xùn)練具有動詞-名詞輸入的TOIST模型(例如,踩在圖1底部的底部面板的椅子上)。但是在推理過程中,不能訪問名詞椅子,因此用動詞代詞輸入(例如,踩在某物上)訓(xùn)練第二個TOIST模型,并從第一個TOIST模型中提取知識。因此,第二TOIST模型在推理期間保持名詞不可知,并且比直接用動詞-代詞輸入訓(xùn)練模型獲得更好的性能。這個框架被稱為名詞-代詞提煉。總體來說,將特權(quán)名詞信息提取為代詞特征的想法非常新穎! 如圖2所示為TOIST網(wǎng)絡(luò)的具體架構(gòu),TOIST包含三個主要組成部分:多模態(tài)編碼器(棕色)用于提取標(biāo)記化特征,Transformer編碼器(綠色)用于聚合兩個模態(tài)的特征,Transformer解碼器(藍色)用于預(yù)測具有注意力的最合適對象,其中cluster loss和soft binary target loss分別用于提取特權(quán)名詞知識和偏好知識。 圖2 TOIST網(wǎng)絡(luò)架構(gòu)和名詞-代詞提煉框架 概括起來,TOIST這篇文章有以下四個方面的貢獻: (1) 第一次將面向任務(wù)的檢測任務(wù)升級為面向任務(wù)的實例分割,這個新的解決方法對機器人交互應(yīng)用有實用價值。 (2) 不同于現(xiàn)有的兩階段模型(先檢測對象然后排序),TOIST提出了第一個基于Transformer的方法來進行面向任務(wù)的檢測/分割。它只有一個階段,并且自然地在對象查詢上用自注意力來模擬相對偏好。 (3) 為了利用名詞指代表達理解模型中的特權(quán)信息,TOIST提出了一個新的名詞-代詞提取框架。它在mAP box和mAP mask分別提升了+2.8%和+3.8%。 (4) 在COCO-Tasks數(shù)據(jù)集上取得了SOTA結(jié)果,比mAP box的最佳結(jié)果高出10.9%。
3.3 名詞代詞提煉
TOIST有兩種輸入形式,作者發(fā)現(xiàn)由于目標(biāo)名稱(名詞)的特權(quán)信息,使用動名詞輸入的TOIST在mAP box和mAP mask上的表現(xiàn)提升了11.8 %和12.0 %,結(jié)果如表1所示。作者還進行了另外兩個預(yù)實驗:將動詞-名詞模型中的代詞特征lpron或ltr直接替換為動詞-名詞模型中對應(yīng)的名詞特征lnoun或ltr,這種替換直接提高了性能。但是在推理過程中,基本真值對象的名詞是不可用的,作者認為一個合理的名詞-名詞蒸餾框架可以在不違反名詞不可知性約束的前提下利用動詞-名詞模型的豐富知識。 表1 與文本相關(guān)的幾種不同設(shè)置下的定量結(jié)果 在圖2所示的網(wǎng)絡(luò)框架中,兩個TOIST模型被同時訓(xùn)練。教師(圖2頂部)和學(xué)生(圖2底部)分別將動詞-名詞和動詞-代詞描述作為輸入,并使用具有記憶庫和聚類提取方法來提取從名詞到代詞的優(yōu)先的以對象為中心的知識(圖2左中)。作者還使用一個軟二進制目標(biāo)損失來提取偏好知識(圖2中右),其中Gpred是用于計算偏好得分Spred的對數(shù)。此外,由于一個任務(wù)可以由許多不同類別的對象承擔(dān),因此作者建立了一個文本特征記憶庫來存儲名詞特征,通過它可以選擇一個原型來代替代詞特征和提取知識,作者稱這個過程為聚類蒸餾。
4. 實驗
TOIST模型在COCO-Tasks數(shù)據(jù)集上進行實驗,這應(yīng)該是唯一涉及實例級偏好的數(shù)據(jù)集。COCO-Tasks數(shù)據(jù)集包含14個任務(wù)。對于每個任務(wù),有3600個訓(xùn)練圖像和900個測試圖像。在每個圖像中,首選對象(一個或多個)的框被用作檢測的基礎(chǔ)事實標(biāo)簽。基于現(xiàn)有的COCO掩碼,作者將數(shù)據(jù)集擴展到實例分割版本。
4.1 與SOTA方法的比較
表2顯示,在COCO-Tasks上,帶有名詞-代詞蒸餾的TOIST取得了最好結(jié)果。TOIST提出的一階段方法達到了41.3%的mAP box和35.2% mAP mask,比之前最好的結(jié)果(Yolo+GGNN和Mask-RCNN+GGNN)分別提高了8.1%和2.8%。名詞-代詞蒸餾將TOIST的性能進一步提升至44.1% (+10.9%)的mAP box和39.0% (+6.6%)的mAP mask。 表2 在擴展的COCO-Tasks數(shù)據(jù)集上,TOIST與SOTA基線的比較。
4.2 影響因素
圖3(a)驗證了自注意力機制能夠自然地建模偏好的能力,其中兩個普通的TOIST模型分別訓(xùn)練,其中一個不包含自注意力。需要注意的是,移除自注意力不會影響參數(shù)的數(shù)量。作者認為,對于具有自注意力的TOIST,隨著偏好分數(shù)的來源變得更加深入,性能逐漸提升:從29.6% mAP box和25.0% mAP mask提升到41.3%和35.2%。TOIST解碼器中的自注意力建模了對象候選之間的成對相對偏好。隨著解碼器的深入,對象候選之間的偏好關(guān)系逐漸被自注意力提取出來。在表3 (b)中,與基線相比,帶有軟二元目標(biāo)損失的偏好蒸餾獲得了2.1% mAP box和2.8% mAP mask的提升。 圖3 (a)自注意力和(b)集群數(shù)量影響的實驗 表3展示了使用聚類損失和用聚類中心(名詞原型)替換代詞特征的效果。在(c)和(e)中,單獨使用兩個成分比基準(zhǔn)(a)分別增加了0.7% mAP box、1.9% mAP mask和0.7% mAP box、1.8% mAP mask。在(g)中性能提升1.0% mAP box和2.3% mAP mask。這些結(jié)果表明,聚類蒸餾方法可以提高學(xué)生的TOIST和增強動詞指稱表達式的理解。 表3 針對聚類的消融實驗 在圖4中,作者可視化了預(yù)測結(jié)果(通過0.9的偏好閾值過濾)和代詞標(biāo)記的注意力圖。在第一行中,當(dāng)沒有聚類蒸餾時,TOIST錯誤地偏好花朵而不是杯子,注意圖也證實了這一點。但是聚類蒸餾的TOIST正確地選擇了杯子,而對花的注意力被削弱了。這表明聚類蒸餾使學(xué)生TOIST能夠減少動詞-代詞指稱表達式的歧義。在第二行中,刀的邊界框由兩個模型正確檢測。然而,在沒有蒸餾的情況下,在盒子內(nèi)的勺子和叉子上預(yù)測額外的實例面具。相反,隨著蒸餾,TOIST預(yù)測的面具集中在刀上,注意力更集中在它上面。這表明,在集群蒸餾的情況下,TOIST可以更好地將任務(wù)研磨到對象框內(nèi)的像素。同時,即使盒子是正確的,預(yù)測的掩模也可能是不準(zhǔn)確的,這一事實使得機器人在執(zhí)行特定任務(wù)時準(zhǔn)確地抓住優(yōu)選的物體具有挑戰(zhàn)性。這證明了將面向任務(wù)的對象檢測擴展到實例分割的重要性。 圖4 代詞標(biāo)記的預(yù)測結(jié)果和注意力圖的可視化
4.3 消融研究和定性結(jié)果
表4顯示了不同代詞輸入下的TOIST結(jié)果。在普通TOIST和帶有蒸餾的TOIST中,使用某物、它或它們會導(dǎo)致類似的結(jié)果。而一個毫無意義的字符串a(chǎn)bcd產(chǎn)生較少的改進,證明了魯棒性。 表4 針對代詞輸入的消融實驗 表5顯示了不同任務(wù)數(shù)的消融研究,其中第一行對應(yīng)于沒有蒸餾的純TOIST,其他行顯示了不同數(shù)目下蒸餾的結(jié)果。總體而言,較小的n會帶來更好的性能,這是因為不同任務(wù)之間的交互更少而降低了問題的復(fù)雜性,這使得通過名詞-代詞蒸餾更容易提高模型理解動詞的能力。 表5 面向任務(wù)的目標(biāo)檢測任務(wù)數(shù)消融實驗
5. 結(jié)論
在2022 NeurIPS論文“Centroid Distance Keypoint Detector for Colored Point Clouds”中,作者基于Transformer研究了面向任務(wù)的實例分割問題。TOIST在COCO-Tasks數(shù)據(jù)集上取得了SOTA結(jié)果,雖然沒有更大數(shù)據(jù)集上的評估,但這對于許多機器人交互應(yīng)用來說已經(jīng)足夠。
-
機器人
+關(guān)注
關(guān)注
211文章
28566瀏覽量
207716 -
模型
+關(guān)注
關(guān)注
1文章
3279瀏覽量
48976 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24752
原文標(biāo)題:NIPS2022開源!TOIST:通過蒸餾實現(xiàn)面向任務(wù)的實例分割Transformer
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論