斗破苍穹续集,古风名字,玄幻小说完本

本文簡要介紹發(fā)表在NeurIPS 2022上關(guān)于小樣本語義分割的論文《Intermediate Prototype Mining Transformer for Few-Shot Semantic Segmentation》。該論文針對現(xiàn)有研究中忽視查詢和支持圖像之間因類內(nèi)多樣性而帶來的類別信息的差距，而強(qiáng)行將支持圖片的類別信息遷移到查詢圖片中帶來的分割效率低下的問題，引入了一個中間原型，用于從支持中挖掘確定性類別信息和從查詢中挖掘自適應(yīng)類別知識，并因此設(shè)計了一個中間原型挖掘Transformer。文章在每一層中實(shí)現(xiàn)將支持和查詢特征中的類型信息到中間原型的傳播，然后利用該中間原型來激活查詢特征圖。借助Transformer迭代的特性，使得中間原型和查詢特征都可以逐步改進(jìn)。相關(guān)代碼已開源在：

https://github.com/LIUYUANWEI98/IPMT

一、研究背景

目前在計算機(jī)視覺取得的巨大進(jìn)展在很大程度上依賴于大量帶標(biāo)注的數(shù)據(jù)，然而收集這些數(shù)據(jù)是一項耗時耗力的工作。為了解決這個問題，通過小樣本學(xué)習(xí)來學(xué)習(xí)一個模型，并將該模型可以推廣到只有少數(shù)標(biāo)注圖像的新類別。這種設(shè)置也更接近人類的學(xué)習(xí)習(xí)慣，即可以從稀缺標(biāo)注的示例中學(xué)習(xí)知識并快速識別新類別。

本文專注于小樣本學(xué)習(xí)在語義分割上的應(yīng)用，即小樣本語義分割。該任務(wù)旨在用一些帶標(biāo)注的支持樣本來分割查詢圖像中的目標(biāo)物體。然而，目前的研究方法都嚴(yán)重依賴從支持集中提取的類別信息。盡管支持樣本能提供確定性的類別信息指導(dǎo)，但大家都忽略了查詢和支持樣本之間可能存在固有的類內(nèi)多樣性。

在圖1中，展示了一些支持樣本原型和查詢圖像原型的分布。從圖中可以觀察到，對于與查詢圖像相似的支持圖像（在右側(cè)標(biāo)記為“相似支持圖像”），它們的原型在特征空間中與查詢原型接近，在這種情況下匹配網(wǎng)絡(luò)可以很好地工作。然而，對于與查詢相比在姿勢和外觀上具有較大差異的支持圖像（在左側(cè)標(biāo)記為“多樣化支持圖像”），支持和查詢原型之間的距離會很遠(yuǎn)。在這種情況下，如果將支持原型中的類別信息強(qiáng)行遷移到查詢中，則不可避免地會引入較大的類別信息偏差。

圖1 支持樣本原型與查詢圖像原型分布圖

因此，本文在通過引入一個中間原型來緩解這個問題，該原型可以通過作者提出的中間原型挖掘Transformer彌補(bǔ)查詢和支持圖像之間的類別信息差距。每層Transformer由兩個步驟組成，即中間原型挖掘和查詢激活。在中間原型挖掘中，通過結(jié)合來自支持圖像的確定性類別信息和來自查詢圖像的自適應(yīng)類別知識來學(xué)習(xí)中間原型。然后，使用學(xué)習(xí)到的原型在查詢特征激活模塊中激活查詢特征圖。此外，中間原型挖掘Transformer以迭代方式使用，以逐步提高學(xué)習(xí)原型和激活查詢功能的質(zhì)量。

二、方法原理簡述

圖2 方法總框圖

支持圖像和查詢圖像輸入到主干網(wǎng)絡(luò)分別提取除支持特征和查詢特征。查詢特征在原型激活（PA）模塊中經(jīng)過簡單的利用支持圖像原型進(jìn)行激活后，分割成一個初始預(yù)測掩碼，并將該掩碼和激活后的查詢特征作為中間原型挖掘Transformer層的一個輸入。同時，將支持特征、支持圖片掩碼和隨機(jī)初始化的一個中間原型也做為第一層中間原型挖掘Transformer的輸入。在中間原型挖掘Transformer層中，首先進(jìn)行掩碼注意力操作。具體來說，計算中間原型與查詢或支持特征之間的相似度矩陣，并利用下式僅保留前景區(qū)域的特征相似度矩陣：

處理后的相似度矩陣作為權(quán)重，分別捕獲查詢或支持特征中的類別信息并形成新的原型。

查詢特征新原型、支持特征新原型和原中間原型結(jié)合在一起形成新的中間原型，完成對中間原型的挖掘。

而后，新的中間原型在查詢特征激活模塊中對查詢特征中的類別目標(biāo)予以激活。

為了便于學(xué)習(xí)中間原型中的自適應(yīng)類別信息，作者使用它在支持和查詢圖像上生成兩個分割掩碼，并計算兩個分割損失。

并設(shè)計雙工分割損失（DSL）：

由于一個中間原型挖掘Transformer層可以更新中間原型、查詢特征圖和查詢分割掩碼，因此，作者通過迭代執(zhí)行這個過程，得到越來越好的中間原型和查詢特征，最終使分割結(jié)果得到有效提升。假設(shè)有L 層，那么對于每一層有：

上式中具體過程又可以分解為以下環(huán)節(jié)：

三、實(shí)驗(yàn)結(jié)果及可視化

圖3 作者提出方法的結(jié)果的可視化與比較

在圖3中，作者可視化了文章中方法和僅使用支持圖像的小樣本語義分割方法[1]的一些預(yù)測結(jié)果。可以看出，與第 2 行中僅使用支持信息的結(jié)果相比，第3行中的結(jié)果展現(xiàn)出作者的方法可以有效地緩解由固有的類內(nèi)多樣性引起的分割錯誤。

表4 與先前工作在PASCAL-5i[2]數(shù)據(jù)集上的效果比較

從表4中可以發(fā)現(xiàn)，作者的方法大大超過了所有其他方法，并取得了新的最先進(jìn)的結(jié)果。在使用 ResNet-50 作為主干網(wǎng)絡(luò)時，在 1-shot 設(shè)置下與之前的最佳結(jié)果相比，作者將 mIoU 得分提高了 2.6。此外，在使用 ResNet-101作為主干網(wǎng)絡(luò)時，作者方法實(shí)現(xiàn)了 1.8 mIoU（1-shot）和 2.2 mIoU（5-shot ）的提升。

表5 各模塊消融實(shí)驗(yàn)

表5中指出，當(dāng)僅使用 IPM 會導(dǎo)致 5.3 mIoU 的性能下降。然而，當(dāng)添加 DSL 時，模型的性能在baseline上實(shí)現(xiàn)了 4.1 mIoU 的提升。作者認(rèn)為這種現(xiàn)象是合理的，因?yàn)闊o法保證 IPM 中的可學(xué)習(xí)原型將在沒有 DSL 的情況下學(xué)習(xí)中間類別知識。同時，使用 QA 激活查詢特征圖可以進(jìn)一步將模型性能提高 2.5 mIoU。這些結(jié)果清楚地驗(yàn)證了作者提出的 QA 和 DSL 的有效性。

表6 中間原型Transformer有效性的消融研究

在表6中，作者對比了僅使用support或者query提供類別信息時，和是否使用迭代方式提取信息時的模型的性能情況。可以看出，借助中間原型以迭代的方式從support和query中都獲取類型信息所取得的效果更為出色，也驗(yàn)證了作者提出方法的有效性。

圖7 支持原型和中間原型分別的可視化比較

如圖7所示，作者將原本的支持原型可視化為橘色，學(xué)習(xí)到的中間原型可視化為藍(lán)色，查詢圖像原型可視化為粉色。可以看到，在特征空間中，中間原型比支持原型更接近查詢原型，因此驗(yàn)證了作者的方法有效地緩解了類內(nèi)多樣性問題并彌補(bǔ)了查詢和支持圖像之間的類別信息差距。

四、總結(jié)及結(jié)論

在文章中，作者關(guān)注到查詢和支持之間的類內(nèi)多樣性，并引入中間原型來彌補(bǔ)它們之間的類別信息差距。核心思想是通過設(shè)計的中間原型挖掘Transformer并采取迭代的方式使用中間原型來聚合來自于支持圖像的確定性類型信息和查詢圖像的自適應(yīng)的類別信息。令人驚訝的是，盡管它很簡單，但作者的方法在兩個小樣本語義分割基準(zhǔn)數(shù)據(jù)集上大大優(yōu)于以前的最新結(jié)果。為此，作者希望這項工作能夠激發(fā)未來的研究能夠更多地關(guān)注小樣本語義分割的類內(nèi)多樣性問題。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

模塊

模塊

+關(guān)注

關(guān)注
7

文章
2728

瀏覽量
47615
圖像

圖像

+關(guān)注

關(guān)注
2

文章
1088

瀏覽量
40515
計算機(jī)視覺

計算機(jī)視覺

+關(guān)注

關(guān)注
8

文章
1699

瀏覽量
46052

原文標(biāo)題：?NeurIPS 2022 | IPMT：用于小樣本語義分割的中間原型挖掘Transformer

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

SparseViT：以非語義為中心、參數(shù)高效的稀疏化視覺Transformer

（IML）都遵循“語義分割主干網(wǎng)絡(luò)”與“精心制作的手工制作非語義特征提取”相結(jié)合的設(shè)計，這種方法嚴(yán)重限制了模型在未知場景的偽影提取能力。論文標(biāo)題： Can We Get Rid

發(fā)表于 01-15 09:30 ?69次閱讀

SparseViT：以非<b class='flag-5'>語義</b>為中心、參數(shù)高效的稀疏化視覺<b class='flag-5'>Transformer</b>

transformer專用ASIC芯片Sohu說明

2022年，我們打賭說transformer會統(tǒng)治世界。我們花了兩年時間打造Sohu，這是世界上第一個用于transformer（ChatGPT中的“T”）的專用芯片。將transform

發(fā)表于 01-06 09:13 ?172次閱讀

手冊上新 |迅為RK3568開發(fā)板NPU例程測試

測試 6.1 deeplabv3語義分割 6.2 lite_transformer 6.3 LPRNet車牌識別 6.4 mobilenet圖像分類 6.5 PPOCR-Rec文字識別 6.6

發(fā)表于 10-23 14:06

語義分割25種損失函數(shù)綜述和展望

本綜述提供了對25種用于圖像分割的損失函數(shù)的全面且統(tǒng)一的回顧。我們提供了一種新穎的分類法，并詳細(xì)審查了這些損失函數(shù)如何在圖像分割中被定制和利用，強(qiáng)調(diào)了它們的重要特征和應(yīng)用，并進(jìn)行了系統(tǒng)的分類。摘要

發(fā)表于 10-22 08:04 ?722次閱讀

手冊上新 |迅為RK3568開發(fā)板NPU例程測試

測試 6.1 deeplabv3語義分割 6.2 lite_transformer 6.3 LPRNet車牌識別 6.4 mobilenet圖像分類 6.5 PPOCR-Rec文字識別 6.6

發(fā)表于 08-12 11:03

圖像語義分割的實(shí)用性是什么

圖像語義分割是一種重要的計算機(jī)視覺任務(wù)，它旨在將圖像中的每個像素分配到相應(yīng)的語義類別中。這項技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用，如自動駕駛、醫(yī)學(xué)圖像分析、機(jī)器人導(dǎo)航等。一、圖像語義

發(fā)表于 07-17 09:56 ?481次閱讀

圖像分割和語義分割的區(qū)別與聯(lián)系

圖像分割和語義分割是計算機(jī)視覺領(lǐng)域中兩個重要的概念，它們在圖像處理和分析中發(fā)揮著關(guān)鍵作用。 1. 圖像分割簡介圖像分割是將圖像劃分為多個區(qū)

發(fā)表于 07-17 09:55 ?1086次閱讀

迅為RK3568手冊上新 | RK3568開發(fā)板NPU例程測試

deeplabv3語義分割 6.2 lite_transformer 6.3 LPRNet車牌識別 6.4 mobilenet圖像分類 6.5 PPOCR-Rec文字識別 6.6 PPOCR-Det

發(fā)表于 07-12 14:44

Transformer語言模型簡介與實(shí)現(xiàn)過程

在自然語言處理（NLP）領(lǐng)域，Transformer模型以其卓越的性能和廣泛的應(yīng)用前景，成為了近年來最引人注目的技術(shù)之一。Transformer模型由谷歌在2017年提出，并首次應(yīng)用于神經(jīng)機(jī)器翻譯

發(fā)表于 07-10 11:48 ?1968次閱讀

圖像分割與語義分割中的CNN模型綜述

圖像分割與語義分割是計算機(jī)視覺領(lǐng)域的重要任務(wù)，旨在將圖像劃分為多個具有特定語義含義的區(qū)域或?qū)ο蟆＞矸e神經(jīng)網(wǎng)絡(luò)（CNN）作為深度學(xué)習(xí)的一種核心模型，在圖像

發(fā)表于 07-09 11:51 ?1059次閱讀

中間繼電器主要用于信號傳遞和放大的原因

中間繼電器（Middle Relay）是一種電氣設(shè)備，主要用于在電氣控制系統(tǒng)中傳遞和放大信號。它具有結(jié)構(gòu)簡單、性能穩(wěn)定、可靠性高、使用方便等特點(diǎn)，廣泛應(yīng)用于各種工業(yè)自動化、電力系統(tǒng)、通信系統(tǒng)等領(lǐng)域

發(fā)表于 06-24 11:37 ?1012次閱讀

中間繼電器的型號怎么表示

中間繼電器是一種電氣控制元件，用于接收輸入信號并將其轉(zhuǎn)換為輸出信號，以控制其他電氣設(shè)備。它廣泛應(yīng)用于工業(yè)自動化、電力系統(tǒng)、通信設(shè)備等領(lǐng)域。本文將詳細(xì)介紹中間繼電器的型號表示方法，包括

發(fā)表于 06-24 11:33 ?2158次閱讀

【大語言模型：原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

就無法修改，因此難以靈活應(yīng)用于下游文本的挖掘中。詞嵌入表示：將每個詞映射為一個低維稠密的實(shí)值向量。不同的是，基于預(yù)訓(xùn)練的詞嵌入表示先在語料庫中利用某種語言模型進(jìn)行預(yù)訓(xùn)練，然后將其應(yīng)用到下游任務(wù)中，詞

發(fā)表于 05-05 12:17

中間繼電器的應(yīng)用中間繼電器在使用中的注意事項

中間繼電器(intermediate relay)：它用于在控制電路中傳遞中間信號。中間繼電器的結(jié)構(gòu)和原理與交流接觸器基本相同

發(fā)表于 02-28 10:26 ?1340次閱讀

助力移動機(jī)器人下游任務(wù)！Mobile-Seed用于聯(lián)合語義分割和邊界檢測

精確、快速地劃定清晰的邊界和魯棒的語義對于許多下游機(jī)器人任務(wù)至關(guān)重要，例如機(jī)器人抓取和操作、實(shí)時語義建圖以及在邊緣計算單元上執(zhí)行的在線傳感器校準(zhǔn)。

發(fā)表于 02-20 10:30 ?962次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

IPMT：用于小樣本語義分割的中間原型挖掘Transformer

評論

SparseViT：以非語義為中心、參數(shù)高效的稀疏化視覺Transformer

transformer專用ASIC芯片Sohu說明

手冊上新 |迅為RK3568開發(fā)板NPU例程測試

語義分割25種損失函數(shù)綜述和展望

手冊上新 |迅為RK3568開發(fā)板NPU例程測試

圖像語義分割的實(shí)用性是什么

圖像分割和語義分割的區(qū)別與聯(lián)系

迅為RK3568手冊上新 | RK3568開發(fā)板NPU例程測試

Transformer語言模型簡介與實(shí)現(xiàn)過程

圖像分割與語義分割中的CNN模型綜述

中間繼電器主要用于信號傳遞和放大的原因

中間繼電器的型號怎么表示

【大語言模型：原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

中間繼電器的應(yīng)用中間繼電器在使用中的注意事項

助力移動機(jī)器人下游任務(wù)！Mobile-Seed用于聯(lián)合語義分割和邊界檢測