完结小说排行榜,千年殇,怎样写网络小说

這次這篇文章介紹一篇很有意思的工作：SegRefiner，來自 NeurIPS, 2023，目前代碼已開源。

SegRefiner 提出一種新的的任務解釋，將分割細化視為一個數據生成過程。因此，細化可以通過一系列去噪擴散步驟來實現，其中 Coarse Mask 是 Ground Truth 的噪聲版本。此外，為了處理二值掩模，進一步設計了一種新穎的離散擴散過程，在該過程中，每個像素執行單向隨機狀態轉換。所提出的過程可以在訓練期間逐漸將 Ground Truth 轉換為 Coarse Mask，并在推理期間使用 Coarse Mask 作為采樣起點。換句話說，SegRefiner 將掩模細化任務表述為一個條件生成問題，其中輸入圖像（指原圖）作為條件，用于迭代更新/細化 Coarse Mask 中的錯誤預測。

SegRefiner 是模型不可知的，因此適用于不同的分割模型和任務。SegRefiner 驗證的任務包括：語義分割，實例分割和二分圖像分割。

相關工作

分割細化的目標是提高現有分割模型中掩模的質量。一些工作專注于增強特定的分割模型。還有一些模型不可知方法的細化方法，這些策略強調使用多種形式的輸入，包括整個圖像、邊界補丁和邊緣條帶等。盡管這些技術可以細化來自不同模型的粗糙掩模，但它們的適用性仍然局限于特定的分割任務。

擴散模型在檢測和分割任務中的應用也成為越來越多研究的焦點，這些研究主要遵循 DDPM 的高斯擴散過程，并利用額外的圖像編碼器來提取圖像特征作為生成掩模的條件。SegRefiner 是第一個將擴散模型應用于圖像分割細化任務的工作，它還在基于擴散的分割任務中首次放棄連續的高斯假設，轉而采用新設計的離散擴散過程。

Forward diffusion process

在介紹前向過程之前，先看一下整體框架的實現：

請添加圖片描述

右側是提出的 transition sample 模塊，它基于輸入狀態轉換概率從當前掩模中隨機采樣像素，并改變它們的值以匹配目標掩模中的值（也就是完成我們在引言中提到的“每個像素執行單向隨機狀態轉換”）。看這張框架圖的時候，注意區分不同 pipeline 的顏色區分，這里吐槽一下，我第一看 transition sample 沒有清楚的看到三種輸入。

在訓練期間，轉換樣本模塊將 Ground Truth 轉換為 Coarse Mask，因此 Coarse Mask 是目標掩模。在推理過程中，目標掩模指的是預測的細致掩模，這個模塊根據預測的細致掩模和轉換概率在每個時間步中更新 Coarse Mask 中的值。

接下來仔細介紹下前向過程：

這種方法涉及將一個精細的 mask 逐漸轉變為一個更粗糙的 mask，包含以下關鍵要素：

起始狀態 (mo)：與 ground truth 的精細 mask 相對應。

目標狀態 (mr)：一個粗糙的 mask。

中間狀態 (mt)：隨著時間步 t 的增加，逐漸從 mo 向 mr 演變的中間狀態。

轉移采樣模塊

引入了“轉移采樣”模塊，該模塊負責根據當前 mask mt、粗 mask mr 以及狀態轉移概率來進行狀態的轉移。狀態的轉移是單向的，保證了最終會收斂到粗糙 mask mr。

重參數技巧

此外，SegRefiner 還提到了重參數技巧（reparameterization trick），通過引入二元隨機變量 x 來描述這一過程。該過程允許直接獲取任何中間時間步的 mask mt，而無需逐步采樣。具體表述為：

定義 x 表示為一個 one-hot 向量，表示中間掩模 mt 中像素 (i, j) 的狀態。

設置 xi = [1, 0] 和 xi = [0, 1] 分別表示精細狀態和粗糙狀態。

因此，前向過程可以表示為公式：

where

為超參數，而對應了上述的狀態轉移概率。狀態轉移矩陣的邊緣分布可以表示為：

整體上還是遵循 DDPM，但是引入二元隨機變量 x 。

Reverse diffusion process

將粗糙 mask mr 逐漸修正為精細 mask mo。

由于此時精細 mask mo 和狀態轉移概率未知，對照著 SegRefiner 框架圖來看，訓練一個神經網絡來預測精細，表示為：

其中 I 是相應的圖像。

和分別表示預測的精細 mask 和其置信度分數。相應的，可視作中每個像素處于“精細狀態”的概率。

反向狀態轉移概率

根據前向過程的設定和貝葉斯定理，延續 DDPM 的方法，我們可以由前向過程的后驗概率和預測的得到反向過程的概率分布，表示為：

where

其中為反向過程的狀態轉移概率。

迭代修正過程

給定粗糙 mask mr 以及相應的圖像 I，首先將所有像素初始化為粗糙狀態 xi = [1, 0]。通過不斷迭代地狀態轉移，逐漸修正 m_T 中的預測值。

推理過程

給定一個粗糙的掩模和其對應的圖像，我們首先初始化所有像素為粗糙狀態。我們在以下步驟之間迭代：

前向過程：以獲取和。

計算反向狀態轉移矩陣：并得到。

計算精細化的掩模：基于，和計算精細化的掩模。

這個過程（1）-（3）迭代進行，直到獲得精細的掩模。

實驗

分別訓練了 LR-SegRefiner 和 HR-SegRefiner，數據集和具體的 settings 在上。

定性對比其他方法，覺得對比 U-Net 和 ISNet 的效果的確很明顯。

總結

SegRefiner 是首個基于擴散的圖像分割細化方法，采用了離散擴散過程。SegRefiner 執行模型不可知的分割細化，并在各種分割任務的細化中取得了強有力的實證結果。雖然它在準確度上取得了顯著的提升，但其局限性在于擴散過程由于多步迭代策略而導致推理速度變慢。

審核編輯：湯梓紅

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

開源

開源

+關注

關注
3

文章
3360

瀏覽量
42526
模型

模型

+關注

關注
1

文章
3252

瀏覽量
48874
代碼

代碼

+關注

關注
30

文章
4791

瀏覽量
68671

原文標題：基于 Discrete Diffusion 的模型不可知分割細化

文章出處：【微信號：GiantPandaCV，微信公眾號：GiantPandaCV】歡迎添加關注！文章轉載請注明出處。

使用全卷積網絡模型實現圖像分割

OpenCv-C++-深度神經網絡（DNN）模塊-使用FCN模型實現圖像分割

發表于 05-28 07:33

基于多級混合模型的圖像分割方法

本文研究了典型的基于區域的圖像分割方法主動形狀模型（Active Shape Model, ASM）和基于邊緣的圖像分割snake 算法，分析了算法適用條件和各自的優缺點。結合snake 模型

發表于 07-08 09:58 ?20次下載

基于改進活動輪廓模型的圖像分割

基于改進活動輪廓模型的圖像分割_王芳

發表于 01-07 19:00 ?0次下載

谷歌華為中斷合作三星有機會借此“松口氣”

對于華為將有著短期的影響，但長期而言，結果仍不可知。

發表于 05-21 17:28 ?3854次閱讀

電磁屏蔽知識，必不可知!

電磁屏蔽一般可分為三種：靜電屏蔽、靜磁屏蔽和高頻電磁場屏蔽。三種屏蔽的目的都是防止外界的電磁場進入到某個需要保護的區域中，原理都是利用屏蔽對外場的感應產生的效應來抵消外場的影響。但是由于所要屏蔽的場的特性不同，因而對屏蔽殼材料的要求和屏蔽效果也就不相同。一、靜電屏蔽靜電屏蔽的目的是防止外界的靜電場進入需要保護的某個區域。靜電屏蔽依據的原理是：在外界靜電場的作用下導體表面電荷將重新分布，直到導體內部

發表于 10-30 18:43 ?1788次閱讀

基于遙感數據的海島邊界快速分割模型

基于遙感數據的海島邊界快速分割模型

發表于 06-11 15:32 ?4次下載

關于寬禁帶生態系統的仿真模型驗證

　　滿足客戶多樣化的仿真平臺需求對我們很重要。因此，SPICE不可知論的方法至關重要。不可知論法意思是在行業標準仿真軟件中只使用最小公分母結構，避免依賴仿真器的專有方案。

發表于 05-09 14:43 ?648次閱讀

使用OpenVINO?在算力魔方上加速stable diffusion模型

Stable Diffusion 是 stability.ai 開源的 AI 圖像生成模型，實現輸入文字，生成圖像的功能。Stable Diffusion 將 AI 圖像生成提升到了全新高度，將引發媒體創作領域的革命。

發表于 05-12 09:10 ?1474次閱讀

SAM分割模型是什么？

SAM是一類處理圖像分割任務的通用模型。與以往只能處理某種特定類型圖片的圖像分割模型不同，SAM可以處理所有類型的圖像。

發表于 05-20 09:30 ?2268次閱讀

近期分割大模型發展情況

SAM（Segment Anything Model）Meta 的 FAIR 實驗室發布的一種最先進的圖像分割模型，該模型將自然語言處理領域的prompt范式引入計算機視覺領域，可以通過點擊、框選和自動識別三種交互方式，實現精準

發表于 05-22 16:26 ?882次閱讀

優化 Stable Diffusion 在 GKE 上的啟動體驗

Diffusion 等應運而生。Stable Diffusion 是一個文字生成圖像的 Diffusion 模型，它能夠根據給定任何文本輸入生成逼真的圖像。我們在 GitHub Re

發表于 06-03 08:35 ?902次閱讀

iPhone兩秒出圖，目前已知的最快移動端Stable Diffusion模型來了

近日，Snap 研究院推出最新高性能 Stable Diffusion 模型，通過對網絡結構、訓練流程、損失函數全方位進行優化，在 iPhone 14 Pro 上實現 2 秒出圖（512x512

發表于 06-12 15:25 ?789次閱讀

CLE Diffusion：可控光照增強擴散模型

本文提出了新型的可控光照增強框架，主要采用了條件擴散模型來控制任意區域的任意亮度增強。通過亮度控制模塊（Brightness Control Module)將亮度信息信息融入Diffusion網絡中，并且設計了和任務適配的條件控制信息和損失函數來增強

發表于 09-11 17:20 ?967次閱讀

圖像分割與語義分割中的CNN模型綜述

圖像分割與語義分割是計算機視覺領域的重要任務，旨在將圖像劃分為多個具有特定語義含義的區域或對象。卷積神經網絡（CNN）作為深度學習的一種核心模型，在圖像分割與語義

發表于 07-09 11:51 ?936次閱讀

如何開啟Stable Diffusion WebUI模型推理部署

如何開啟Stable Diffusion WebUI模型推理部署

發表于 12-11 20:13 ?111次閱讀