在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

TOIST借助COCO掩碼將問題擴展到實例分割問題實現(xiàn)更精細的定位

3D視覺工坊 ? 來源:3D視覺工坊 ? 作者:3D視覺工坊 ? 2022-10-27 10:20 ? 次閱讀

0. 引言

歸功于大規(guī)模視覺語言模型,名詞指代表達理解模型已經(jīng)取得了巨大的進展。然而,在像智能服務(wù)機器人這樣的現(xiàn)實交互中,系統(tǒng)輸入通常較為隱晦(比如舒服得坐下這樣的動作),現(xiàn)代視覺語言模型設(shè)計是否能有效地理解動詞所指仍然有待探索。

1. 論文信息

2. 摘要

目前的指代表達理解算法可以有效地檢測或分割名詞所指的對象,但如何理解動詞指代仍然是一個有待探索的問題。因此,我們研究了具有挑戰(zhàn)性的面向任務(wù)的檢測問題,該問題旨在找到最好地由動詞所指示動作的對象,如舒適地坐在上面。為了更好地為機器人交互等下游應(yīng)用服務(wù),我們將問題擴展到面向任務(wù)的實例分割。這項任務(wù)的一個獨特要求是在可能的備選方案中選擇首選候選方案。因此,我們求助于transformer體系結(jié)構(gòu),它自然地對成對查詢關(guān)系進行建模,這構(gòu)建了TOIST方法。為了利用預(yù)先訓(xùn)練的名詞指代表達理解模型,以及我們可以在訓(xùn)練期間訪問特權(quán)名詞基礎(chǔ)事實的事實,提出了一種新的名詞-代詞提取框架。名詞原型以無監(jiān)督的方式生成,并且上下文代詞特征被訓(xùn)練來選擇原型。因此,網(wǎng)絡(luò)在推理過程中保持名詞不可知。我們在面向任務(wù)的大規(guī)模數(shù)據(jù)集COCO-Tasks上進行測試并實現(xiàn)比最佳報告結(jié)果高出10.9%。提出的名詞代詞提取可以將mAPbox和mAPmask分別提高2.8%和3.8%。

3. 算法分析

3.1 任務(wù)描述

TOIST這篇文章目的是解決面向任務(wù)的檢測問題,那么什么是面向任務(wù)呢?如圖1右上角所示,當(dāng)輸入為“涂抹黃油”時,系統(tǒng)會輸出叉子的檢測框,因為叉子可用于涂抹黃油。當(dāng)然這只是COCO-Tasks提出的目標(biāo)檢測問題,TOIST還借助現(xiàn)有的COCO掩碼將問題擴展到實例分割問題,以此來實現(xiàn)更精細的定位。例如當(dāng)輸入為“舒服得坐著”時,系統(tǒng)會分割出沙發(fā)。因此,TOIST提出的面向任務(wù)的實例分割方案(圖1底部)可以很好得在點云分割和三維重建等領(lǐng)域發(fā)揮作用,對于下游機器人的交互應(yīng)用具有重要意義。 82fc8faa-5584-11ed-a3b6-dac502259ad0.png 圖1 左上:名詞指代表達理解,右上:面向任務(wù)的檢測,下部:面向任務(wù)的實例分割。 當(dāng)然了,面向任務(wù)的檢測/分割方法的一個有趣且具有挑戰(zhàn)性的特征是內(nèi)在歧義。例如,在圖1的右上圖中,比薩餅皮也可以用來涂抹黃油。如果我們手邊既沒有叉子也沒有比薩餅皮,仍然可以用盤子涂抹黃油。以及如圖1底部所示。當(dāng)我們考慮要踩的物體時,椅子是更好的選擇,因為沙發(fā)很軟,桌子移動起來很重。當(dāng)需要舒適地坐著時,沙發(fā)顯然是最好的選擇。換句話說,提供動詞的對象是不明確的,算法需要對偏好進行建模。

3.2 算法原理

近年來Transformer大火,TOIST的作者認為注意力機制可以很好得對候選對象之間的相對偏好進行建模,因此設(shè)計了一種面向任務(wù)的實例分割Transformer。 眾所周知,訓(xùn)練Transformer需要大量數(shù)據(jù),而大規(guī)模的具有相對偏好的動詞參考數(shù)據(jù)非常少見。因此作者從另一個角度出發(fā),探索了在名詞指代表達理解模型中重用知識的可能性,即使用代詞如某物作為代理,并從聚類生成的名詞嵌入原型中提取知識。 具體來說,TOIST首先使用特權(quán)名詞訓(xùn)練具有動詞-名詞輸入的TOIST模型(例如,踩在圖1底部的底部面板的椅子上)。但是在推理過程中,不能訪問名詞椅子,因此用動詞代詞輸入(例如,踩在某物上)訓(xùn)練第二個TOIST模型,并從第一個TOIST模型中提取知識。因此,第二TOIST模型在推理期間保持名詞不可知,并且比直接用動詞-代詞輸入訓(xùn)練模型獲得更好的性能。這個框架被稱為名詞-代詞提煉。總體來說,將特權(quán)名詞信息提取為代詞特征的想法非常新穎! 如圖2所示為TOIST網(wǎng)絡(luò)的具體架構(gòu),TOIST包含三個主要組成部分:多模態(tài)編碼器(棕色)用于提取標(biāo)記化特征,Transformer編碼器(綠色)用于聚合兩個模態(tài)的特征,Transformer解碼器(藍色)用于預(yù)測具有注意力的最合適對象,其中cluster loss和soft binary target loss分別用于提取特權(quán)名詞知識和偏好知識。 83404100-5584-11ed-a3b6-dac502259ad0.png 圖2 TOIST網(wǎng)絡(luò)架構(gòu)和名詞-代詞提煉框架 概括起來,TOIST這篇文章有以下四個方面的貢獻: (1) 第一次將面向任務(wù)的檢測任務(wù)升級為面向任務(wù)的實例分割,這個新的解決方法對機器人交互應(yīng)用有實用價值。 (2) 不同于現(xiàn)有的兩階段模型(先檢測對象然后排序),TOIST提出了第一個基于Transformer的方法來進行面向任務(wù)的檢測/分割。它只有一個階段,并且自然地在對象查詢上用自注意力來模擬相對偏好。 (3) 為了利用名詞指代表達理解模型中的特權(quán)信息,TOIST提出了一個新的名詞-代詞提取框架。它在mAP box和mAP mask分別提升了+2.8%和+3.8%。 (4) 在COCO-Tasks數(shù)據(jù)集上取得了SOTA結(jié)果,比mAP box的最佳結(jié)果高出10.9%。

3.3 名詞代詞提煉

TOIST有兩種輸入形式,作者發(fā)現(xiàn)由于目標(biāo)名稱(名詞)的特權(quán)信息,使用動名詞輸入的TOIST在mAP box和mAP mask上的表現(xiàn)提升了11.8 %和12.0 %,結(jié)果如表1所示。作者還進行了另外兩個預(yù)實驗:將動詞-名詞模型中的代詞特征lpron或ltr直接替換為動詞-名詞模型中對應(yīng)的名詞特征lnoun或ltr,這種替換直接提高了性能。但是在推理過程中,基本真值對象的名詞是不可用的,作者認為一個合理的名詞-名詞蒸餾框架可以在不違反名詞不可知性約束的前提下利用動詞-名詞模型的豐富知識。 表1 與文本相關(guān)的幾種不同設(shè)置下的定量結(jié)果 837205be-5584-11ed-a3b6-dac502259ad0.png 在圖2所示的網(wǎng)絡(luò)框架中,兩個TOIST模型被同時訓(xùn)練。教師(圖2頂部)和學(xué)生(圖2底部)分別將動詞-名詞和動詞-代詞描述作為輸入,并使用具有記憶庫和聚類提取方法來提取從名詞到代詞的優(yōu)先的以對象為中心的知識(圖2左中)。作者還使用一個軟二進制目標(biāo)損失來提取偏好知識(圖2中右),其中Gpred是用于計算偏好得分Spred的對數(shù)。此外,由于一個任務(wù)可以由許多不同類別的對象承擔(dān),因此作者建立了一個文本特征記憶庫來存儲名詞特征,通過它可以選擇一個原型來代替代詞特征和提取知識,作者稱這個過程為聚類蒸餾。

4. 實驗

TOIST模型在COCO-Tasks數(shù)據(jù)集上進行實驗,這應(yīng)該是唯一涉及實例級偏好的數(shù)據(jù)集。COCO-Tasks數(shù)據(jù)集包含14個任務(wù)。對于每個任務(wù),有3600個訓(xùn)練圖像和900個測試圖像。在每個圖像中,首選對象(一個或多個)的框被用作檢測的基礎(chǔ)事實標(biāo)簽。基于現(xiàn)有的COCO掩碼,作者將數(shù)據(jù)集擴展到實例分割版本。

4.1 與SOTA方法的比較

表2顯示,在COCO-Tasks上,帶有名詞-代詞蒸餾的TOIST取得了最好結(jié)果。TOIST提出的一階段方法達到了41.3%的mAP box和35.2% mAP mask,比之前最好的結(jié)果(Yolo+GGNN和Mask-RCNN+GGNN)分別提高了8.1%和2.8%。名詞-代詞蒸餾將TOIST的性能進一步提升至44.1% (+10.9%)的mAP box和39.0% (+6.6%)的mAP mask。 表2 在擴展的COCO-Tasks數(shù)據(jù)集上,TOIST與SOTA基線的比較。 8397772c-5584-11ed-a3b6-dac502259ad0.png

4.2 影響因素

圖3(a)驗證了自注意力機制能夠自然地建模偏好的能力,其中兩個普通的TOIST模型分別訓(xùn)練,其中一個不包含自注意力。需要注意的是,移除自注意力不會影響參數(shù)的數(shù)量。作者認為,對于具有自注意力的TOIST,隨著偏好分數(shù)的來源變得更加深入,性能逐漸提升:從29.6% mAP box和25.0% mAP mask提升到41.3%和35.2%。TOIST解碼器中的自注意力建模了對象候選之間的成對相對偏好。隨著解碼器的深入,對象候選之間的偏好關(guān)系逐漸被自注意力提取出來。在表3 (b)中,與基線相比,帶有軟二元目標(biāo)損失的偏好蒸餾獲得了2.1% mAP box和2.8% mAP mask的提升。 83bf8c76-5584-11ed-a3b6-dac502259ad0.png圖3 (a)自注意力和(b)集群數(shù)量影響的實驗 表3展示了使用聚類損失和用聚類中心(名詞原型)替換代詞特征的效果。在(c)和(e)中,單獨使用兩個成分比基準(zhǔn)(a)分別增加了0.7% mAP box、1.9% mAP mask和0.7% mAP box、1.8% mAP mask。在(g)中性能提升1.0% mAP box和2.3% mAP mask。這些結(jié)果表明,聚類蒸餾方法可以提高學(xué)生的TOIST和增強動詞指稱表達式的理解。 表3 針對聚類的消融實驗 83cdf964-5584-11ed-a3b6-dac502259ad0.png 在圖4中,作者可視化了預(yù)測結(jié)果(通過0.9的偏好閾值過濾)和代詞標(biāo)記的注意力圖。在第一行中,當(dāng)沒有聚類蒸餾時,TOIST錯誤地偏好花朵而不是杯子,注意圖也證實了這一點。但是聚類蒸餾的TOIST正確地選擇了杯子,而對花的注意力被削弱了。這表明聚類蒸餾使學(xué)生TOIST能夠減少動詞-代詞指稱表達式的歧義。在第二行中,刀的邊界框由兩個模型正確檢測。然而,在沒有蒸餾的情況下,在盒子內(nèi)的勺子和叉子上預(yù)測額外的實例面具。相反,隨著蒸餾,TOIST預(yù)測的面具集中在刀上,注意力更集中在它上面。這表明,在集群蒸餾的情況下,TOIST可以更好地將任務(wù)研磨到對象框內(nèi)的像素。同時,即使盒子是正確的,預(yù)測的掩模也可能是不準(zhǔn)確的,這一事實使得機器人在執(zhí)行特定任務(wù)時準(zhǔn)確地抓住優(yōu)選的物體具有挑戰(zhàn)性。這證明了將面向任務(wù)的對象檢測擴展到實例分割的重要性。 83f6b944-5584-11ed-a3b6-dac502259ad0.png 圖4 代詞標(biāo)記的預(yù)測結(jié)果和注意力圖的可視化

4.3 消融研究和定性結(jié)果

表4顯示了不同代詞輸入下的TOIST結(jié)果。在普通TOIST和帶有蒸餾的TOIST中,使用某物、它或它們會導(dǎo)致類似的結(jié)果。而一個毫無意義的字符串a(chǎn)bcd產(chǎn)生較少的改進,證明了魯棒性。 表4 針對代詞輸入的消融實驗 84114cc8-5584-11ed-a3b6-dac502259ad0.png 表5顯示了不同任務(wù)數(shù)的消融研究,其中第一行對應(yīng)于沒有蒸餾的純TOIST,其他行顯示了不同數(shù)目下蒸餾的結(jié)果。總體而言,較小的n會帶來更好的性能,這是因為不同任務(wù)之間的交互更少而降低了問題的復(fù)雜性,這使得通過名詞-代詞蒸餾更容易提高模型理解動詞的能力。 表5 面向任務(wù)的目標(biāo)檢測任務(wù)數(shù)消融實驗 84276724-5584-11ed-a3b6-dac502259ad0.png

5. 結(jié)論

在2022 NeurIPS論文“Centroid Distance Keypoint Detector for Colored Point Clouds”中,作者基于Transformer研究了面向任務(wù)的實例分割問題。TOIST在COCO-Tasks數(shù)據(jù)集上取得了SOTA結(jié)果,雖然沒有更大數(shù)據(jù)集上的評估,但這對于許多機器人交互應(yīng)用來說已經(jīng)足夠。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    211

    文章

    28566

    瀏覽量

    207716
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3279

    瀏覽量

    48976
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24752

原文標(biāo)題:NIPS2022開源!TOIST:通過蒸餾實現(xiàn)面向任務(wù)的實例分割Transformer

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    如何范圍從萬FFFF擴展到FRQQUPWM=44100

    到揚聲器。我的問題是,任務(wù)只從0x000x02d3。如何范圍從萬FFFF擴展到FRQQUPWM=44100? 以上來自于百度翻譯 以下為原文 I plan to play an
    發(fā)表于 04-01 12:54

    如何利用BTA06-600CBT131的負載能力120W擴展到200W以上?

    如何利用BTA06-600CBT131的負載能力120W擴展到200W以上?如圖所示一理療燈調(diào)溫定時器(8腳IC型號不詳),原設(shè)計負載能力只有120瓦,想利用手頭的BTA06-600C將該定時器 的負載能力提高250W左右。
    發(fā)表于 01-16 01:51

    可以ESP Basic擴展到ESP32嗎?

    ,這些庫肯定會讓他建立很多偉大的項目并學(xué)習(xí)大量關(guān)于 MCU 和 IOT 的問題,你打算 ESP Basic 擴展到 ESP32 嗎 ?
    發(fā)表于 05-10 07:55

    用兩個條形信號驅(qū)動器10個單元擴展到100個單元

    用兩個條形信號驅(qū)動器10個單元擴展到100個單元
    發(fā)表于 02-25 22:00 ?747次閱讀
    用兩個條形信號驅(qū)動器<b class='flag-5'>將</b>10個單元<b class='flag-5'>擴展到</b>100個單元

    AMD稱其融聚渠道計劃擴展到行業(yè)與OEM渠道

    AMD稱其融聚渠道計劃擴展到行業(yè)與OEM渠道 AMD針對融聚合作伙伴計劃推出一系列新政策,諸如更好的在線培訓(xùn)工具、增強的激勵計劃、全新的聯(lián)合營銷計劃等。
    發(fā)表于 03-05 10:11 ?562次閱讀

    蘋果iPhone 的保修范圍擴展到全球

    蘋果 iPhone 的保修范圍擴展到全球,這無論對于國行還是海外版 iPhone 的用戶而言,顯然都是件大好事。加上在概述中,蘋果對國行版 iPhone 的“海外服務(wù)”標(biāo)注為“有”,就更加“佐證”了新聞“iPhone 可全球聯(lián)保”的說法。
    的頭像 發(fā)表于 06-13 11:24 ?3786次閱讀

    三星借助MicroLED技術(shù)可擴展到292英寸,顯示屏與周圍環(huán)境無縫融合!

    三星在InfoComm 2019展上推出新品“The Wall Luxury” Micro LED電視,該電視從最小73英寸開始,借助MicroLED技術(shù)可擴展到292英寸。
    的頭像 發(fā)表于 06-18 16:01 ?3221次閱讀

    蘋果可能正在尋求蘋果地圖的范圍擴展到其iDevices之外

    自蘋果公司一直尋求擴展到網(wǎng)絡(luò)領(lǐng)域以與Google Maps競爭以來,已經(jīng)有很長時間了。JavaScript專家無疑幫助蘋果夢想盡快實現(xiàn)
    的頭像 發(fā)表于 10-27 15:06 ?1688次閱讀

    AN-1529:使用AD9215高頻VGA10位65 MSPS ADC的動態(tài)范圍擴展到100 dB以上

    AN-1529:使用AD9215高頻VGA10位65 MSPS ADC的動態(tài)范圍擴展到100 dB以上
    發(fā)表于 04-29 20:42 ?6次下載
    AN-1529:使用AD9215高頻VGA<b class='flag-5'>將</b>10位65 MSPS ADC的動態(tài)范圍<b class='flag-5'>擴展到</b>100 dB以上

    用于實例分割的Mask R-CNN框架

    是應(yīng)用于每個 RoI 的小型 FCN,以像素像素的方式預(yù)測分割掩碼。鑒于 Faster R-CNN 框架,Mask R-CNN 易于實現(xiàn)和訓(xùn)練,這有助于廣泛的靈活架構(gòu)設(shè)計。此外,
    的頭像 發(fā)表于 04-13 10:40 ?2684次閱讀

    5G安全地擴展到戰(zhàn)場空間

      如果保持不變,5G服務(wù)必須限制在戰(zhàn)場的后邊緣。然而,可以5G帶到戰(zhàn)場中心的另一種選擇是增強或擴展核心5G網(wǎng)絡(luò)以獲得運營優(yōu)勢,從而可以在不犧牲商業(yè)平臺優(yōu)勢的情況下進一步擴展到戰(zhàn)場空間。
    的頭像 發(fā)表于 11-15 15:16 ?1745次閱讀

    基于通用的模型PADing解決三大分割任務(wù)

    數(shù)據(jù)需要消耗巨大的時間以及人力成本。為處理上述難題,零樣本學(xué)習(xí)(Zero-Shot Learning,ZSL)被提出用于分類沒有訓(xùn)練樣本的新對象,并擴展到分割任務(wù)中,例如零樣本語義分割(Zero-Shot Semantic Se
    的頭像 發(fā)表于 06-26 10:39 ?557次閱讀
    基于通用的模型PADing解決三大<b class='flag-5'>分割</b>任務(wù)

    基于SAM設(shè)計的自動化遙感圖像實例分割方法

    RSPrompter的目標(biāo)是學(xué)習(xí)如何為SAM生成prompt輸入,使其能夠自動獲取語義實例掩碼。相比之下,原始的SAM需要額外手動制作prompt,并且是一種類別無關(guān)的分割方法。
    發(fā)表于 07-04 10:45 ?979次閱讀
    基于SAM設(shè)計的自動化遙感圖像<b class='flag-5'>實例</b><b class='flag-5'>分割</b>方法

    通過應(yīng)用頻率TPS92210的調(diào)光范圍擴展到通用AC范圍

    電子發(fā)燒友網(wǎng)站提供《通過應(yīng)用頻率TPS92210的調(diào)光范圍擴展到通用AC范圍.pdf》資料免費下載
    發(fā)表于 10-09 09:38 ?0次下載
    通過應(yīng)用頻率<b class='flag-5'>將</b>TPS92210的調(diào)光范圍<b class='flag-5'>擴展到</b>通用AC范圍

    使用外部基準(zhǔn)電壓源VOUT擴展到1.2 V以下

    電子發(fā)燒友網(wǎng)站提供《使用外部基準(zhǔn)電壓源VOUT擴展到1.2 V以下.pdf》資料免費下載
    發(fā)表于 10-11 09:19 ?0次下載
    使用外部基準(zhǔn)電壓源<b class='flag-5'>將</b>VOUT<b class='flag-5'>擴展到</b>1.2 V以下
    主站蜘蛛池模板: 欧美色欧美亚洲高清在线观看| 日本人zzzwww| 日本视频一区二区| 精品欧美一区二区三区| 免费色网址| 久草免费新视频| 国产精品久久久久久久久| 色视频网站在线| 色视频一区二区三区| 日本aaaaa毛片动漫| 456成人| 天天槽任我槽免费| 久久午夜神器| 99涩涩| 色偷偷亚洲综合网亚洲| 在线观看你懂得| 狠狠色噜噜狠狠狠狠98| 黄色网 在线播放| 久久99精品久久久久久秒播 | 4438x全国免费| 高颜值美女啪啪| 无毒三级| 免费国产成高清人在线视频| 国产普通话一二三道| 黄色美女网址| 99婷婷| 久久国内视频| 68日本xxxxxxxxx18能看的| 国产内地激情精品毛片在线一| 午夜老司机永久免费看片| 亚洲综合精品香蕉久久网97| 色丁香在线| 国产资源免费观看| 国产欧美高清| 天天综合网天天综合色不卡| 成年女人色费视频免费| 狠狠干狠狠干狠狠干| 中文字幕在线观看一区二区 | 高清一本之道加勒比在线| 成人国产亚洲欧美成人综合网| 亚洲福利视频一区二区三区|