在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

SegRefiner:通過擴散模型實現高精度圖像分割

CVer ? 來源:CVer ? 2023-12-28 11:24 ? 次閱讀

背景介紹

盡管圖像分割在過去得到了廣泛研究和快速發展,但獲得細節上非常準確的分割 mask 始終十分具有挑戰性。因為達成高精度的分割既需要高級語義信息,也需要細粒度的紋理信息,這將導致較大的計算復雜性和內存使用。而對于分辨率達到2K甚至更高的圖像,這一挑戰尤為突出。

由于直接預測高質量分割 mask 具有挑戰性,因此一些研究開始集中于 refine 已有分割模型輸出的粗糙 mask。為了實現高精度的圖像分割,來自北京交大、南洋理工、字節跳動等的研究者們引入了一種基于擴散模型Diffusion去逐步提高mask質量的方法。

現有方法

Model-Specific

一類常見的 Refinement 方法是 Model-Specific 的,其通過在已有分割模型中引入一些新模塊,從而為預測 Mask 補充了更多額外信息,從而增強了已有模型對于細節的感知能力。這一類方法中代表性的工作有 PointRend,RefineMask,MaskTransfiner等。然而,這些方法是基于特定模型的改進,因此不能直接用于 refine 其他分割模型輸出的粗糙 mask。

Model-Agnostic

另一類 Refinement 方法是 Model-Agnostic 的,其只使用原始圖像和粗糙mask作為輸入信息,如 BPR,SegFix,CascadePSP,CRM 等。由于這類方法在 Refinement 過程中未使用已有模型的中間特征,因此不依賴于特定分割模型,可以用于不同分割模型的 Refinement。然而,盡管這類方法能夠有效地提升分割準確度,但由于粗糙 mask 中存在多種多樣的錯誤預測(如下圖所示),導致模型無法穩定地修正粗糙 mask 中的全部預測錯誤。

5d17f98c-a3ad-11ee-8b88-92fbcf53809c.png

實現目標

相比于 Model-Specific 的方法,Model-Agnostic 的方法能夠直接應用于不同分割模型的 Refinement,從而有著更高的實用價值。更進一步地,由于不同分割任務(語義分割,實例分割等)的結果都可以被表示為一系列 binary mask,具有相同的表征形式,在同一個模型中統一實現不同分割任務的 Refinement 同樣是可能的。因此,我們希望實現能夠應用于不同分割模型和分割任務的通用 Refinement 模型。

如前所述,已有分割模型產生的錯誤預測是多種多樣的,而想要通過一個通用模型一次性地更正這些多樣性的錯誤十分困難。面對這一問題,在圖像生成任務中取得巨大成功的擴散概率模型給予了我們啟發:擴散概率模型的迭代策略使得模型可以在每一個時間步中僅僅消除一部分噪聲,并通過多步迭代來不斷接近真實圖像的分布。這大大降低了一次性擬合出目標數據分布的難度,從而賦予了擴散模型生成高質量圖像的能力。

直觀地,如果將擴散概率模型的策略遷移到 Refinement 任務中,可以使得模型在進行 Refinement 時每一步僅關注一些“最明顯的錯誤”,這將降低一次性修正所有錯誤預測的難度,并可以通過不斷迭代來逐漸接近精細分割結果,從而使得模型能夠應對更具挑戰性的實例并持續糾正錯誤,產生精確分割結果。

在這一想法下,我們提出了一個新的視角:將粗糙 mask 視作 ground truth 的帶噪版本,并通過一個去噪擴散過程來實現粗糙 mask 的 Refinement,從而將 Refinement 任務表示為一個以圖像為條件,目標為精細 mask 的數據生成過程。

算法方案

擴散概率模型是一種由前向和反向過程表示的生成模型,其中前向過程通過不斷加入高斯噪聲得到不同程度的帶噪圖像,并訓練模型預測噪聲;而反向過程則從純高斯噪聲開始逐步迭代去噪,最終采樣出圖像。而將擴散概率模型遷移到 Refinement 任務中,數據形式的不同帶來了以下兩個問題:

(1) 由于自然圖像往往被視作高維高斯變量,將圖像生成的過程建模為一系列高斯過程是十分自然的,因此已有的擴散概率模型大多基于高斯假設建立;而我們的目標數據是 binary mask,通過高斯過程擬合這樣一個離散變量的分布并不合理。

(2) 作為一種分割 Refinement 方法,我們的核心思想是將粗糙 mask 視為帶有噪聲的 ground truth,并通過消除這種噪聲來恢復高質量的分割結果。這意味著我們擴散過程的結尾應當收斂到確定性的粗糙 mask(而非純噪聲),這也與已有的擴散概率模型不同。

針對上述問題,我們建立了如下圖所示的基于“隨機狀態轉移”的離散擴散過程。其中,前向過程將 ground truth 轉換為“不同粗糙程度”的 mask,并用于訓練;而反向過程用于模型推理,SegRefiner 從給出的粗糙 mask 開始,通過逐步迭代修正粗糙 mask 中的錯誤預測區域。以下將詳細介紹前向和反向過程。

5d1d19da-a3ad-11ee-8b88-92fbcf53809c.png

前向過程

前向過程的目標是將 ground truth 提供的精細 mask 逐步消融為粗糙的 mask,記前向過程每一步的變量為 5d344984-a3ad-11ee-8b88-92fbcf53809c.jpg,則前向過程應當滿足:

(1) 5d37e6b6-a3ad-11ee-8b88-92fbcf53809c.jpg為 ground truth

(2) 5d42c806-a3ad-11ee-8b88-92fbcf53809c.jpg為粗糙 mask

(3) 5d462528-a3ad-11ee-8b88-92fbcf53809c.jpg介于5d37e6b6-a3ad-11ee-8b88-92fbcf53809c.jpg5d42c806-a3ad-11ee-8b88-92fbcf53809c.jpg之間,隨 t 增大逐漸向粗糙 mask 演變 ? ?

基于這些限制條件,我們用隨機狀態轉移來表述前向過程:假設變量5d462528-a3ad-11ee-8b88-92fbcf53809c.jpg中的每一個像素都有兩種可能的狀態:精細和粗糙,處于精細狀態的像素值與5d37e6b6-a3ad-11ee-8b88-92fbcf53809c.jpg保持一致,處于粗糙狀態的像素則取 5d42c806-a3ad-11ee-8b88-92fbcf53809c.jpg的值(即使二者一致)。我們提出了一個“轉移采樣”模塊來進行這一過程,如上圖右側所示。在每一個時間步,其以當前 mask 5d462528-a3ad-11ee-8b88-92fbcf53809c.jpg,粗糙 mask 5d42c806-a3ad-11ee-8b88-92fbcf53809c.jpg以及狀態轉移概率作為輸入。

在前向過程中,狀態轉移概率描述了當前 mask 5d462528-a3ad-11ee-8b88-92fbcf53809c.jpg中每個像素轉移到5d42c806-a3ad-11ee-8b88-92fbcf53809c.jpg中的狀態的概率。根據狀態轉移概率進行采樣,可以得到后一個時間步 5d8a53ec-a3ad-11ee-8b88-92fbcf53809c.jpg 每個像素的狀態,從而確定其取值。這一模塊確定了一個“單向”過程,即只會發生“轉移到目標狀態”的情況。這一單向性質確保了前向過程會收斂到5d42c806-a3ad-11ee-8b88-92fbcf53809c.jpg(盡管每一步都是完全隨機的),從而滿足了上述限制 條件(2),(3)。

通過重參數技巧,我們引入了一個二元隨機變量5d91e1f2-a3ad-11ee-8b88-92fbcf53809c.jpg來描述上述過程:我們將 5da324da-a3ad-11ee-8b88-92fbcf53809c.jpg表示為一個 one-hot 向量,用來表示中間掩模 5d462528-a3ad-11ee-8b88-92fbcf53809c.jpg中像素 5dab027c-a3ad-11ee-8b88-92fbcf53809c.jpg的狀態,同時設置 5dae7812-a3ad-11ee-8b88-92fbcf53809c.jpg5db898f6-a3ad-11ee-8b88-92fbcf53809c.jpg來表示精細狀態和粗糙狀態。因此,前向過程可以被表示為:

5dbc6c56-a3ad-11ee-8b88-92fbcf53809c.png

其中 5dbfd530-a3ad-11ee-8b88-92fbcf53809c.jpg為超參數,而 5dc3620e-a3ad-11ee-8b88-92fbcf53809c.jpg對應了上述的狀態轉移概率,5dcdefbc-a3ad-11ee-8b88-92fbcf53809c.jpg是狀態轉移矩陣。則前向過程的邊緣分布可以表示為:

5dd1ea36-a3ad-11ee-8b88-92fbcf53809c.png

其中 5dd5714c-a3ad-11ee-8b88-92fbcf53809c.jpg。從而我們可以直接獲取任何中間時間步 5dd8c31a-a3ad-11ee-8b88-92fbcf53809c.jpg的 mask 5d462528-a3ad-11ee-8b88-92fbcf53809c.jpg并用于訓練,而無需逐步采樣 5de2dddc-a3ad-11ee-8b88-92fbcf53809c.jpg

反向過程

反向擴散過程用于模型推理,目標是將粗糙 mask 5d42c806-a3ad-11ee-8b88-92fbcf53809c.jpg逐漸修正為精細 mask 5d37e6b6-a3ad-11ee-8b88-92fbcf53809c.jpg。由于此時精細 mask 5d37e6b6-a3ad-11ee-8b88-92fbcf53809c.jpg和狀態轉移概率未知,類似 DDPM 的做法,我們訓練一個神經網絡 5df5bca4-a3ad-11ee-8b88-92fbcf53809c.jpg,來預測精細 mask 5df92e98-a3ad-11ee-8b88-92fbcf53809c.jpg,表示為:

5dfcab4a-a3ad-11ee-8b88-92fbcf53809c.png

其中 5e09b2b8-a3ad-11ee-8b88-92fbcf53809c.jpg是相應的圖像。5e0cf810-a3ad-11ee-8b88-92fbcf53809c.jpg5e10a1cc-a3ad-11ee-8b88-92fbcf53809c.jpg分別表示預測的精細 mask 和其置信度分數。這里5e10a1cc-a3ad-11ee-8b88-92fbcf53809c.jpg表示了網絡對于5df92e98-a3ad-11ee-8b88-92fbcf53809c.jpg預測準確與否的置信度,故同樣可以被視作5df92e98-a3ad-11ee-8b88-92fbcf53809c.jpg中每個像素處于“精細狀態”的概率。為了獲得反向狀態轉移概率,根據前向過程的設定和貝葉斯定理,延續 DDPM 的做法,我們可以由前向過程的后驗概率和預測的5e10a1cc-a3ad-11ee-8b88-92fbcf53809c.jpg得到反向過程的概率分布,為:? ?

5e2ee920-a3ad-11ee-8b88-92fbcf53809c.png

其中 5e419d0e-a3ad-11ee-8b88-92fbcf53809c.jpg為反向過程的狀態轉移概率。給定粗糙 mask 5d42c806-a3ad-11ee-8b88-92fbcf53809c.jpg以及相應的圖像5e09b2b8-a3ad-11ee-8b88-92fbcf53809c.jpg,我們首先將所有像素初始化為粗糙狀態 5e4bd31e-a3ad-11ee-8b88-92fbcf53809c.jpg,然后通過不斷迭代地狀態轉移,逐漸修正 5d42c806-a3ad-11ee-8b88-92fbcf53809c.jpg中預測值。下圖為一個推理過程的可視化展示。

5e5d6f70-a3ad-11ee-8b88-92fbcf53809c.png

模型結構

任意滿足 5e624504-a3ad-11ee-8b88-92fbcf53809c.jpg形式的網絡均可滿足我們的要求,這里我們延續了之前工作的做法,采用 U-Net 作為我們的去噪網絡,將其輸入通道數修改為4(圖像和 5d462528-a3ad-11ee-8b88-92fbcf53809c.jpg在通道維度上串聯),并輸出1通道的改進掩模。

算法評估

由于 Refinement 任務的核心是獲取細節精確的分割結果,在實驗中我們選取了三個代表性的高質量分割數據集,分別對應Semantic Segmentation,Instance Segmentation 和 Dichotomous Image Segmentation。

Semantic Segmentation

如表1所示,我們在 BIG 數據集上將提出的 SegRefiner 與四種已有方法:SegFix,CascadePSP,CRM 以及 MGMatting 進行了對比。其中前三個為語義分割的 Refinement 方法,而 MGMatting 使用圖像和 mask 進行 Matting 任務,也可以用于 Refinement 任務。結果表明,我們提出的 SegRefiner 在 refine 四個不同語義分割模型的粗糙 mask 時,都在 IoU 和 mBA 兩項指標上獲得了明顯提升,且超越了之前的方法。

5e70695e-a3ad-11ee-8b88-92fbcf53809c.png ? ?

Instance Segmentation

實例分割中,我們選擇了之前的工作廣泛使用的 COCO 數據集進行測試,并使用了 LVIS 數據集的標注。與原始 COCO 標注相比,LVIS 標注提供了更高質量和更詳細的結構,這使得 LVIS 標注更適合評估改進模型的性能。

首先,在表2中,我們將提出的SegRefiner與兩種 Model-Agnostic 的實例分割 Refinement 方法 BPR 和 SegFix 進行了比較。結果表明我們的 SegRefiner 在性能上明顯優于這兩種方法。

5e743d40-a3ad-11ee-8b88-92fbcf53809c.png

然后在表3中,我們將 SegRefiner 應用于其他7種實例分割模型。我們的方法在不同準確度水平的模型上都取得了顯著的增強效果。值得注意的是,當應用于三種 Model-Specific 的實例分割 Refinement 模型(包括PointRend、RefineMask 和 Mask TransFiner)時,SegRefiner 依然能穩定提升它們的性能,這說明 SegRefiner 具有更強大的細節感知能力。

5e780dc6-a3ad-11ee-8b88-92fbcf53809c.png

Dichotomous Image Segmentation

Dichotomous Image Segmentation 是一個較新提出的任務,如下圖所示,其數據集包含大量具有復雜細節結構的對象,因此十分適合評估我們 SegRefiner 對細節的感知能力。

5e7c5b42-a3ad-11ee-8b88-92fbcf53809c.png

在本實驗中,我們將 SegRefiner 應用于6種分割模型,結果如表4所示。可以看到,我們的SegRefiner在 IoU 和 mBA 兩項指標上都明顯提升了每個分割模型的準確度。

5e9880d8-a3ad-11ee-8b88-92fbcf53809c.png

可視化展示

5e9ce010-a3ad-11ee-8b88-92fbcf53809c.png

5ea1a910-a3ad-11ee-8b88-92fbcf53809c.png







審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4771

    瀏覽量

    100766
  • CRM
    CRM
    +關注

    關注

    1

    文章

    145

    瀏覽量

    21128
  • 圖像分割
    +關注

    關注

    4

    文章

    182

    瀏覽量

    18000
  • 高斯噪聲
    +關注

    關注

    0

    文章

    11

    瀏覽量

    8362

原文標題:NeruIPS 2023 | SegRefiner:通過擴散模型實現高精度圖像分割

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于擴散模型圖像生成過程

    近年來,擴散模型在文本到圖像生成方面取得了巨大的成功,實現了更高圖像生成質量,提高了推理性能,也可以激發擴展創作靈感。 不過僅憑文本來控制
    的頭像 發表于 07-17 11:00 ?2735次閱讀
    基于<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>的<b class='flag-5'>圖像</b>生成過程

    如何在PyTorch中使用擴散模型生成圖像

    除了頂尖的圖像質量,擴散模型還帶來了許多其他好處,包括不需要對抗性訓練。對抗訓練的困難是有據可查的。在訓練效率的話題上,擴散模型還具有可伸縮
    發表于 11-22 15:51 ?508次閱讀
    如何在PyTorch中使用<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>生成<b class='flag-5'>圖像</b>

    基于GAC模型實現交互式圖像分割的改進算法

    基于GAC模型實現交互式圖像分割的改進算法提出了一種改進的交互式圖像分割算法。采用全變分去噪
    發表于 09-19 09:19

    使用全卷積網絡模型實現圖像分割

    OpenCv-C++-深度神經網絡(DNN)模塊-使用FCN模型實現圖像分割
    發表于 05-28 07:33

    基于多級混合模型圖像分割方法

    本文研究了典型的基于區域的圖像分割方法主動形狀模型(Active Shape Model, ASM)和基于邊緣的圖像分割snake 算法,分
    發表于 07-08 09:58 ?20次下載

    圖像分割—基于圖的圖像分割

    圖像分割—基于圖的圖像分割圖像分割—基于圖的圖像
    發表于 11-19 16:17 ?0次下載

    基于改進活動輪廓模型圖像分割

    基于改進活動輪廓模型圖像分割_王芳
    發表于 01-07 19:00 ?0次下載

    基于像素聚類進行圖像分割的算法

    B型心臟超聲圖像分割是計算心功能參數前重要的一步。針對超聲圖像的低分辨率影響分割精度及基于模型
    發表于 12-06 16:44 ?0次下載
    基于像素聚類進行<b class='flag-5'>圖像</b><b class='flag-5'>分割</b>的算法

    基于活動輪廓模型圖像分割

    圖像分割的活動輪廓模型中,保留拉普拉斯擴散項的切線方向分量;再引入兩個權重參數控制切線方向和法線方向有偏的擴散,以提高
    發表于 12-22 14:25 ?1次下載

    基于圖像局部灰度差異的噪聲圖像分割模型

    圖像分割在計算機視覺處理技術中占據重要位置,是圖像處理和分析的關鍵步驟。基于水平集方法的活動輪廓模型被成功應用于在圖像
    發表于 04-17 11:41 ?3次下載

    基于SEGNET模型圖像語義分割方法

    使用原始 SEGNET模型圖像進行語義分割時,未對圖像中相鄰像素點間的關系進行考慮,導致同一目標中像素點類別預測結果不一致。通過在 SEG
    發表于 05-27 14:54 ?15次下載

    一種高精度的肝臟圖像自動分割算法

    在利用卷積神經網絡分割肝臟邊界較模糊的影像數據時容易丟失位置信息,導致分割精度較低。針對該問題,提出一種基于分水嶺修正與U-Net模型相結合的肝臟
    發表于 05-27 15:17 ?2次下載

    SAM分割模型是什么?

    SAM是一類處理圖像分割任務的通用模型。與以往只能處理某種特定類型圖片的圖像分割模型不同,SAM
    的頭像 發表于 05-20 09:30 ?2253次閱讀

    近期分割模型發展情況

    SAM(Segment Anything Model)Meta 的 FAIR 實驗室發布的一種最先進的圖像分割模型,該模型將自然語言處理領域的prompt范式引入計算機視覺領域,可以
    的頭像 發表于 05-22 16:26 ?879次閱讀
    近期<b class='flag-5'>分割</b>大<b class='flag-5'>模型</b>發展情況

    圖像分割與語義分割中的CNN模型綜述

    圖像分割與語義分割是計算機視覺領域的重要任務,旨在將圖像劃分為多個具有特定語義含義的區域或對象。卷積神經網絡(CNN)作為深度學習的一種核心模型
    的頭像 發表于 07-09 11:51 ?902次閱讀
    主站蜘蛛池模板: 午夜免费免费啪视频观看| 亚洲成色999久久网站| 四虎最新网址入口| 精品国产一二三区在线影院| 午夜香蕉视频| 免费91视频| 天堂免费在线视频| 国产精品黄网站免费进入| 国产真实灌醉美女疯狂弄| 国产又黄又爽又猛的免费视频播放| 日日噜噜噜夜夜爽爽狠狠视频| 777色狠狠一区二区三区香蕉| 69国产视频| 婷婷色香| xxxxbbbb欧美| 黄色网免费观看| 色天使久久| 午夜欧美福利视频| 午夜久久久久久亚洲国产精品| 日本免费的一级绿象| 午夜视频在线观看免费视频| 一区二区三区高清在线| 日本拍拍拍| 日本在线视| 在线免费观看毛片网站| 韩日中文字幕| 99自拍视频| 日毛片| 天天射天| 中文字幕在线第一页| 国产美女一级ba大片免色| 亚洲乱码尤物193yw在线播放| 天堂在线中文字幕| 夜夜se| 美女又黄又www| 国产特黄一级片| 激情五月在线| 女人色视频| 国产精品天天在线| 色综合久久综精品| 手机看片自拍自自拍日韩免费|