在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

語義分割25種損失函數(shù)綜述和展望

穎脈Imgtec ? 2024-10-22 08:04 ? 次閱讀

來源:AI公園

導讀

本綜述提供了對25種用于圖像分割的損失函數(shù)的全面且統(tǒng)一的回顧。我們提供了一種新穎的分類法,并詳細審查了這些損失函數(shù)如何在圖像分割中被定制和利用,強調(diào)了它們的重要特征和應用,并進行了系統(tǒng)的分類。

2e537ba0-9009-11ef-b5cd-92fbcf53809c.png

摘要

語義圖像分割,即將圖像中的每個像素分類到特定的類別中,是許多視覺理解系統(tǒng)中的重要組成部分。作為評估統(tǒng)計模型性能的主要標準,損失函數(shù)對于塑造基于深度學習的分割算法的發(fā)展以及提高其整體性能至關重要。為了幫助研究人員為其特定應用識別最優(yōu)的損失函數(shù),本綜述提供了對25種用于圖像分割的損失函數(shù)的全面且統(tǒng)一的回顧。我們提供了一種新穎的分類法,并詳細審查了這些損失函數(shù)如何在圖像分割中被定制和利用,強調(diào)了它們的重要特征和應用,并進行了系統(tǒng)的分類。此外,為了評估這些方法在現(xiàn)實世界場景中的有效性,我們提出了一些獨特而著名的損失函數(shù)在已建立的醫(yī)學和自然圖像數(shù)據(jù)集上的無偏評估。我們在本綜述的最后指出了當前的挑戰(zhàn)并揭示了未來的研究機會。最后,我們已經(jīng)整理了在我們的GitHub上具有開源實現(xiàn)的所審查的研究。

1、介紹

圖像分割在廣泛的視覺理解系統(tǒng)中扮演著基礎性的角色。其主要目標是為給定的圖像生成密集預測,即為每個像素分配一個預定義的類別標簽(語義分割),或?qū)⒚總€像素與一個對象實例關聯(lián)起來(實例分割),或者是兩者的結合(全景分割),這有助于將具有相似語義的像素組織成有意義的高層次概念。分割技術在包括醫(yī)學影像分析、視頻監(jiān)控和增強現(xiàn)實[7]等眾多領域有著廣泛的應用。從卷積神經(jīng)網(wǎng)絡(CNN)到Transformer,已經(jīng)提出了許多不同的模型架構用于語義分割。然而,分割模型的最佳性能依賴于正確的網(wǎng)絡結構選擇和適當?shù)哪繕撕瘮?shù)。特別是,圖像分割研究的一個重要領域涉及開發(fā)方法以緩解各種挑戰(zhàn),包括類別不平衡、數(shù)據(jù)集稀缺以及噪聲、人類偏差和標注者之間一致性差等問題,通過廣泛提出的魯棒損失函數(shù)來允許模型參數(shù)的聯(lián)合優(yōu)化。此外,許多現(xiàn)代深度圖像分割技術容易在恢復細小連接、復雜結構元素、精確邊界定位方面失敗,進而導致圖像拓撲結構的不正確。由于研究界對解決這些問題的興趣激增,對現(xiàn)有文獻進行綜述對于社區(qū)來說是有益且及時的,可以幫助熱情的研究人員和實踐者為手頭的分割任務找到最佳的目標函數(shù)。具體而言,本綜述提供了25種為圖像分割應用開發(fā)的損失函數(shù)的整體概述。我們對它們的設計進行了分類,強調(diào)了現(xiàn)有方法的主要優(yōu)勢和不足,并回顧了來自自然圖像和醫(yī)學圖像分割等多個應用的關鍵技術。我們在兩個流行的醫(yī)學和自然圖像數(shù)據(jù)集上對一些評審的方法進行了比較實驗,并在GitHub上提供了它們的代碼和預訓練權重。徹底搜索相關文獻后發(fā)現(xiàn),我們是第一個根據(jù)覆蓋用于語義分割領域的損失函數(shù)的研究。但是,與不同的是,我們提出了一種新的、詳細的和有組織的分類法,強調(diào)了任務特有的挑戰(zhàn),并基于評審文獻提供了如何解決這些挑戰(zhàn)的見解,這使得能夠結構化地理解不同領域的研究進展和局限性,涵蓋了2020年以后的研究成果。

此外,我們展示了廣泛的定性和定量實驗,驗證了在自然圖像和醫(yī)學圖像分割中每個分類下的設計決策和性能。進一步地,當我們考慮損失函數(shù)如何影響基于CNN和Transformer的方法時,我們認為這項工作將突出新的研究機會,為研究人員提供指導,并激發(fā)計算機視覺界進一步利用所涵蓋損失函數(shù)在分割領域的潛力的興趣。本綜述文章的一些關鍵貢獻可以概括如下:我們系統(tǒng)而深入地考察了圖像分割領域的損失函數(shù),并對這些方法進行了對比和分析。特別地,以層次化和結構化的方式涵蓋了語義分割中的25種損失函數(shù)。

? 我們的工作提供了對損失函數(shù)的分類學(圖1)分析,以及對其各個方面討論。

? 我們使用兩個知名的數(shù)據(jù)集——Cityscapes和Synapse多器官分割數(shù)據(jù)集,對所評審方法的選擇進行了比較實驗。

? 最后,我們解決了障礙和未解決的問題,同時承認新興模式,提出了未解答的問題,并確定了未來研究可能的方向。

2e7afca2-9009-11ef-b5cd-92fbcf53809c.png

1.1 本綜述的動機和獨特性

圖像分割方法在過去幾十年里經(jīng)歷了顯著的進步。這些進步從集成多分辨率和層次特征圖的主要方向,到利用邊界信息,再到在一個多任務學習框架中聯(lián)合優(yōu)化語義分割和補充任務。這些多樣化的策略旨在緩解分割中的一些挑戰(zhàn),如類別不平衡、錯誤或不完整的邊界以及像素的重要性等。盡管在這一領域完全發(fā)展之前已經(jīng)有一篇綜述文章發(fā)表,但從那時起,該領域已經(jīng)取得了很大的進展。另一方面,沒有綜述文章專注于分割中損失函數(shù)的應用導向視角,這是推動該研究方向前進的核心方面。因此,社區(qū)中存在明顯的空白。更重要的是,損失函數(shù)在訓練機器學習模型以準確勾勒圖像中感興趣區(qū)域的過程中扮演著關鍵工具的角色。在醫(yī)學領域,準確的分割可以通過輔助疾病診斷和治療而產(chǎn)生挽救生命的影響。不同的損失函數(shù)可以極大地影響模型分割解剖結構或檢測醫(yī)學圖像中異常的能力。

同樣,在自然圖像領域,如衛(wèi)星圖像或場景理解中,準確的分割對于自動駕駛汽車和環(huán)境監(jiān)測等應用至關重要。損失函數(shù)的選擇也會影響這些領域中模型的性能。因此,在我們的綜述中,我們引導來自醫(yī)學和計算機視覺社區(qū)的讀者理解這些損失函數(shù)的目的和用例。此外,通過在卷積神經(jīng)網(wǎng)絡(CNN)和基于Transformer的方法背景下,跨涵蓋醫(yī)學和自然圖像的不同領域評估這些損失函數(shù),我們旨在展示它們在應對挑戰(zhàn)性任務中的真實效能。對損失函數(shù)的全面考察預計會為讀者提供更廣闊的視角,以便就采用更合適的損失函數(shù)做出明智的決定。

1.2 搜索策略

我們在諸如DBLP、Google Scholar和Arxiv Sanity Preserver這樣的平臺上進行了搜索,充分利用了它們生成定制搜索查詢和全面學術作品列表的能力。這些搜索涵蓋了廣泛的學術出版物,包括同行評審的期刊文章、會議或研討會提交的論文、非同行評審材料和預印本,所有這一切都是通過定制的搜索標準實現(xiàn)的。我們的具體搜索查詢?yōu)?loss* deep | segmentation*) (loss | segmentation*) (loss* | train* | segmentation* | model*) (loss* | function* | segmentation* | medical*)。我們對搜索結果進行了篩選,去除了錯誤數(shù)據(jù),并僅包括與語義分割模型相關的論文。最終,我們選擇了深入探討現(xiàn)有文獻中常用的不同損失函數(shù),或是為特定目的設計的損失函數(shù)。

1.3 論文組織結構

本文其余部分的組織結構如下。第2節(jié)中,我們提供了圖像分割中已建立損失函數(shù)的關鍵組件的詳細概述。此外,本節(jié)通過提出一種分類法來澄清目標函數(shù)變體的分類,旨在表征技術創(chuàng)新和重要的應用場景。對于每種損失函數(shù),我們介紹了其理論基礎和基本概念,以及整個領域面臨的開放挑戰(zhàn)和未來展望。第4節(jié)中,我們評估了幾種先前討論的損失函數(shù)變體在受歡迎的自然/醫(yī)學分割基準上的表現(xiàn)。最后,第6節(jié)總結并結束了本綜述。

2、語義分割中的損失函數(shù)

我們將現(xiàn)有的語義分割損失函數(shù)研究分為三大類,依據(jù)它們的關注點和目標(見圖1)。像素級損失函數(shù)在單個像素層面上運作,旨在確保分割區(qū)域內(nèi)每個像素的準確分類。這些損失函數(shù)獨立計算每個像素的預測值與其對應的真實標簽之間的差異。相比之下,區(qū)域級損失函數(shù)關注整體類別的分割,通過最大化預測分割掩碼與真實掩碼之間的對齊來實現(xiàn)這一點。這些方法強調(diào)重疊,優(yōu)先考慮對象分割的準確性而非像素級細節(jié)。最后,邊界級損失函數(shù)專門針對分割任務中對象邊界的精度,有效地分離重疊的對象。這些損失致力于最小化預測邊界與真實邊界之間的距離或不相似度,從而促進分割區(qū)域的細粒度對齊。通過將損失函數(shù)分為這三個級別,即像素級、區(qū)域級和邊界級,該領域獲得了對提高語義分割性能所采用的各種策略的全面視角。為了保持全文的一致性,我們在詳細說明各個損失函數(shù)之前建立了正式的符號表示,如表1所示。除非另有說明,本文中的所有公式都將遵循這種符號表示。在接下來的小節(jié)中,我們將對每一類進行更詳細的闡述。

2.1 像素級

語義分割中的像素級損失函數(shù)深入到單個像素層面,以實現(xiàn)對分割區(qū)域內(nèi)每個像素分類的高度準確性。這些損失函數(shù)獨立計算每個像素的預測值與其對應的真實標簽之間的差異或誤差。它們在需要細粒度像素級準確性的場景下表現(xiàn)出色,例如要求詳細對象識別和分割的任務。下面,我們將介紹幾個這方面知名的損失函數(shù)。

2.1.1 交叉熵損失

交叉熵(CE)衡量給定隨機變量的兩個概率分布之間的差異。在分割任務中,交叉熵損失被用來測量模型的預測與目標標簽匹配的程度。通過使用softmax函數(shù),模型生成像素級別的概率圖,表示每個像素屬于每個類別的可能性。然后,通過取每個像素目標類別預測概率的負對數(shù)來計算交叉熵損失。當目標類別的預測概率接近1時,交叉熵損失趨近于0。

2ea810de-9009-11ef-b5cd-92fbcf53809c.png

由于是一個獨熱編碼向量,只有目標類別的預測概率會影響交叉熵損失。在處理不平衡數(shù)據(jù)集時,對交叉熵損失的一種方法是對每個類別分配不同的權重。這可以幫助平衡各個類別對總體損失的影響,并提高模型在少數(shù)類別上的表現(xiàn)。一種分配權重的方法是使用逆類別頻率,這意味著每個類別的權重與其樣本數(shù)量成反比。因此,樣本較少的類別將具有較高的權重,而樣本較多的類別將具有較低的權重。

2ebd728a-9009-11ef-b5cd-92fbcf53809c.png

對于每個像素,使用目標類別的權重。如果所有權重都設置為1,那么我們得到的就是普通的交叉熵損失。

2.1.2 TopK 損失

TopK損失是交叉熵損失的一種擴展,它使得模型在每次迭代中只從最難分類的像素中學習。選擇目標類別預測概率最低的前k%的像素,僅考慮這些像素的損失。它可以表示為:

2ed9564e-9009-11ef-b5cd-92fbcf53809c.png

其中,K是包含分配給目標類別概率最低的k%像素的集合。

2.1.3 焦點損失(Focal Loss)

另一種處理數(shù)據(jù)不平衡的方法是使用焦點損失(Focal Loss)。焦點損失是交叉熵損失的一個修改版本,它為簡單樣本和困難樣本分配不同的權重。在這里,困難樣本是指那些以高概率被錯誤分類的樣本,而簡單樣本則是指那些以高概率被正確分類的樣本。這有助于平衡簡單樣本和困難樣本對總體損失的影響。焦點損失的公式可以表示為:

2eef1dc6-9009-11ef-b5cd-92fbcf53809c.png

其中,γ是一個非負可調(diào)的超參數(shù)。當對所有樣本將γ設置為0時,我們得到的就是普通的交叉熵損失。

2.1.4 距離圖衍生的交叉熵損失

許多語義分割模型在對象邊界處的表現(xiàn)會有所下降。為了讓模型更加關注難以分割的邊界區(qū)域,一個直接的方法是在對象邊界處對分割錯誤施加更大的懲罰。為此,Caliva等人使用了距離圖。距離圖與圖像具有相同的形狀,每個像素被賦予其到最近邊界像素的最短距離。然后,距離圖 的倒數(shù)被用作交叉熵損失的權重,這樣靠近邊界的像素會獲得更高的權重,而遠離邊界的像素則獲得較低的權重。這種方法有助于提高模型在邊界區(qū)域的分割精度,特別是在處理具有復雜邊界結構的對象時更為有效。

2f08c8e8-9009-11ef-b5cd-92fbcf53809c.png

在距離圖 Φ 的倒數(shù)中添加常數(shù)1是為了避免梯度消失問題。

2.2 區(qū)域級

區(qū)域級損失函數(shù)在語義分割任務中采取了更寬廣的視角。這些方法不是專注于每個像素,而是優(yōu)先考慮對象分割的整體準確性。它們的目標是確保預測的分割掩碼與更高層次的真實掩碼緊密匹配,捕捉對象形狀和布局的本質(zhì)。當全局上下文和對象完整性比像素級準確性更重要時,區(qū)域級損失函數(shù)尤其有價值。

2.2.1 Dice 損失

Dice損失源自Dice系數(shù),這是一種衡量兩組數(shù)據(jù)之間相似性的指標。在圖像分割中,Dice損失通常用于評估預測分割掩碼與目標分割掩碼之間的重疊程度。它定義為預測分割掩碼與真實分割掩碼交集的大小除以它們總和的大小。Dice損失是針對每個類別單獨計算的,然后報告平均值。它可以表示為:

2f26242e-9009-11ef-b5cd-92fbcf53809c.png

其中,Y 是二值分割預測掩碼,T是單個類別的二值分割目標掩碼。Dice系數(shù)在語義分割中常用,因為它易于計算,提供了一個單一值的性能概要,并且在精確率和召回率之間取得了良好的平衡。當感興趣的物體較小或罕見且類別分布不平衡時,Dice系數(shù)特別有用。Dice損失由Milletari等人提出,如方程7所示。它可以被視為一個松弛的、可微的Dice系數(shù)。具體的表達式為:

2f428b6e-9009-11ef-b5cd-92fbcf53809c.png

對于每個目標類別分別計算,并使用所有類別的平均值。預測值不是被確定為0或1,而是被松弛為概率值[0,1]。這使得損失函數(shù)變得可微,并可以使用梯度下降方法進行優(yōu)化。最后,從1中減去松弛的Dice系數(shù),使其成為一個需要最小化的損失函數(shù),而不是最大化。這是處理不平衡數(shù)據(jù)集的一個流行選擇,因為它防止模型通過關注預測掩碼和真實掩碼之間的重疊區(qū)域而忽略少數(shù)類。

2.2.2 對數(shù)余弦Dice損失

Jadon將Dice損失包裹在一個對數(shù)余弦(log-cosh)函數(shù)中,該函數(shù)定義為:

2f5b437a-9009-11ef-b5cd-92fbcf53809c.png

其中 。對數(shù)余弦函數(shù)的導數(shù),即雙曲正切(tanh),是一個在±1范圍內(nèi)平滑變化的函數(shù)。對數(shù)余弦Dice損失在分割任務中提供了幾個關鍵優(yōu)勢。首先,它增強了平滑性和對外部異常點的魯棒性,減輕了噪聲標注或圖像偽影的影響。這一特性確保了更加穩(wěn)定的訓練過程,尤其是在數(shù)據(jù)易出現(xiàn)不規(guī)則情況時。其次,損失函數(shù)的內(nèi)在平滑性促進了更優(yōu)的優(yōu)化過程,避免了傳統(tǒng)Dice損失中常見的尖銳梯度帶來的不穩(wěn)定影響。這一點在使用基于梯度的優(yōu)化方法(如隨機梯度下降SGD)時尤其有利。最后,對數(shù)余弦Dice損失在精確率和召回率之間找到了平衡,解決了Dice損失通常過于強調(diào)精確率而忽視召回率的問題。這種平衡源于其平滑性,可能帶來更好的分割結果。在二分類分割的例子中,雖然Dice損失會嚴重懲罰假陽性,但對數(shù)余弦Dice損失提供了一個更為均衡的方法,平滑了損失空間,降低了對外部異常點的敏感度,最終有助于更好地管理類別不平衡并同時提高精確率和召回率。

2.2.3 廣義Wasserstein Dice損失

Wasserstein距離,也被稱為Earth Mover’s Distance (EMD),是通過計算將一個概率分布轉(zhuǎn)換為另一個所需最小成本來確定兩個概率分布之間的距離。根據(jù)這一定義,Wasserstein距離要求找到一種“最優(yōu)傳輸”,以最小化從一個分布到另一個分布的轉(zhuǎn)換成本。當可能路徑的數(shù)量有限時,這個最小化問題可以被表述為一個線性規(guī)劃問題。在語義分割的背景下,F(xiàn)idon等人提出了使用Wasserstein距離來計算依賴于預測值和目標值類別概率的損失項。在這種方法中,不同類別之間的轉(zhuǎn)換成本通過一個表示為的矩陣來描繪,從而可以對語義相似類別(如“左腎”和“右腎”)之間的錯誤施加較輕的懲罰。因此,損失函數(shù)可以被設計成考慮類別間關系的形式。

2f793a1a-9009-11ef-b5cd-92fbcf53809c.png

其中, 表示第n個像素的預測類別概率。 表示代表第n個像素目標類別的one-hot編碼向量。 是一個表示各類別之間轉(zhuǎn)換成本的矩陣,允許考慮到類別間的語義相似性。

2.2.4 IOU (Jaccard) 損失

IOU損失源自于交并比(Intersection over Union, IoU)度量,也稱為Jaccard指數(shù)。它被定義為預測分割掩碼與真實分割掩碼交集的大小除以它們并集的大小。2f9134d0-9009-11ef-b5cd-92fbcf53809c.png類似于Dice系數(shù),IOU也是針對每個類別進行計算,并使用平均值(mIoU)。IOU損失由Rahman等人提出,可以被視為一種放松且可微的mIoU形式。

2faa1806-9009-11ef-b5cd-92fbcf53809c.png

2.2.5 Lovász-Softmax損失Lovász-Softmax損失是一種用于直接優(yōu)化IoU度量的替代函數(shù)。其基本思想是將每個類別的預測得分視為一組有序值,然后定義一個函數(shù)來衡量這些有序值與真實標簽順序之間的差異。這種差異隨后作為訓練過程中需要最小化的損失。研究表明,相比于使用交叉熵損失訓練,Lovász-Softmax損失能夠獲得更好的mIoU分數(shù)。2fc53096-9009-11ef-b5cd-92fbcf53809c.png其中,ΔJc(m(c))是應用到使用hinge損失計算的IoU(Jaccard)損失上的Lovász hinge。

2.2.6 Tversky損失

Tversky損失源自Tversky指數(shù),這是一種兩個數(shù)據(jù)集之間不對稱的相似度度量。它是Dice系數(shù)和IoU的一種泛化,允許獨立地權衡假陽性和假陰性的權重。它被定義為:2fe0b23a-9009-11ef-b5cd-92fbcf53809c.png其中,α 和 β 是假陰性和假陽性的權重。當 α = β = 0.5 時,Tversky指數(shù)退化為Dice系數(shù);當 α = β = 1 時,它退化為IoU。受Tversky指數(shù)的啟發(fā),提出了Tversky損失:2ff76160-9009-11ef-b5cd-92fbcf53809c.png2.2.7 Focal Tversky損失類似于Focal損失,F(xiàn)ocal Tversky損失增加了難以分類像素的權重。301bc8fc-9009-11ef-b5cd-92fbcf53809c.png其中 表示類別c的Tversky損失。當 γ=1時,F(xiàn)ocal Tversky損失等同于Tversky損失。Abraham等人推薦 γγ 的取值范圍為[1,3],這樣可以使模型更加關注于誤分類的像素。然而,當訓練接近收斂時,F(xiàn)ocal Tversky損失會被抑制,從而阻止模型達到完全收斂。

2.2.8 敏感性特異性損失

敏感性和特異性術語廣泛用于評估機器學習模型的性能。敏感性,也稱為召回率,是指正確分類的正樣本預測數(shù)量與實際正樣本數(shù)量的比例。特異性是指真正負樣本被分類為負樣本的比例。這兩個術語定義如下:

30368c6e-9009-11ef-b5cd-92fbcf53809c.png

為了在數(shù)據(jù)不平衡的情況下控制假陰性(FNs)和假陽性(FPs)之間的權衡,設計了敏感性特異性損失。該損失函數(shù)通過方程(18)中的參數(shù) w來調(diào)整分配給假陰性和假陽性的權重,其定義如下:

30532fcc-9009-11ef-b5cd-92fbcf53809c.png

2.2.9 區(qū)域互信息損失(RMI)

盡管基于交叉熵的損失函數(shù)在像素級分類中非常有效,但它們忽略了圖像內(nèi)像素之間的相互依賴關系。這一局限性促使研究者探索替代方法,包括基于條件隨機場和像素親和力的方法。雖然這些技術在捕捉像素關系方面具有潛力,但它們通常需要更長的計算時間,對視覺屬性的變化敏感,并且需要額外的內(nèi)存資源。區(qū)域互信息(Region Mutual Information, RMI)損失旨在通過利用圖像中像素之間的相互依賴關系,克服傳統(tǒng)像素級損失函數(shù)的固有局限性。RMI基于互信息(Mutual Information, MI),后者是在兩個隨機變量之間定義的,用于量化通過觀察一個變量可以獲得關于另一個變量的信息量。RMI考慮每個像素及其8個鄰近像素來表示該像素,從而使圖像中的每個像素成為9維(9-D)點。換句話說,每幅圖像被轉(zhuǎn)換為這些9-D點的多維分布。最終,通過互信息(MI)來最大化真實標簽和模型預測的多維分布之間的相似度。為了簡化計算,他們沒有直接計算這些多維分布之間的MI,而是提出計算它們之間的MI下界。此外,在構建這些多維分布之前,他們采用降采樣策略來減少額外的內(nèi)存消耗。簡化后的MI下界表達式如公式(21)所示:

30763cec-9009-11ef-b5cd-92fbcf53809c.png

其中表示給定 P的Y的后驗協(xié)方差。關于如何近似Y的后驗協(xié)方差的更多細節(jié),請參見主要文章。

2.2.10 魯棒T損失

魯棒T損失通過強調(diào)魯棒性采取了一種獨特的分割方法。它通過使用Student-t分布的負對數(shù)似然來實現(xiàn)這一點,Student-t分布以其處理噪聲數(shù)據(jù)和異常值的能力而著稱。這種分布的特點是其尾部比常見的正態(tài)分布“更重”。這些重尾使Student-t分布在處理遠離常規(guī)模式的數(shù)據(jù)點時表現(xiàn)出色。在常規(guī)的損失函數(shù)中,我們經(jīng)常使用均方誤差(Mean Squared Error, MSE),它來源于正態(tài)分布的負對數(shù)似然。魯棒T損失(Robust T-Loss, RTL)通過用Student-t分布替換正態(tài)分布來改變這一點。具體來說,Student-t分布由于其較重的尾部,能夠更好地處理數(shù)據(jù)中的異常值和噪聲,從而提高模型在面對不完美數(shù)據(jù)時的魯棒性和穩(wěn)定性。這種方法特別適用于那些數(shù)據(jù)質(zhì)量不可控或存在大量噪聲的應用場景。

3090b2ac-9009-11ef-b5cd-92fbcf53809c.png

這里,p(yi | Σ; ν) 是基于Student-t分布的概率。這一變化使得損失函數(shù)對噪聲標簽和異常值的影響更加具有抵抗力。魯棒T-Loss有一個關鍵參數(shù)ν,它控制著損失函數(shù)對不同水平噪聲的響應方式。當ν較低時,損失類似于均方誤差(MSE),而在高值時,它類似于平均絕對誤差(MAE)。魯棒T-Loss的一個顯著優(yōu)勢是在訓練過程中學習到最優(yōu)的標簽噪聲容忍度的能力。這使它區(qū)別于其他需要預先了解噪聲水平或進行復雜計算的方法。通過直接將適應過程融入反向傳播中,損失函數(shù)實際上教會了自己如何處理噪聲標簽,從而消除了額外計算的需求。

2.3 邊界級

邊界級損失函數(shù):邊界級損失函數(shù)專注于分割任務中對象邊界的精確性。它們的主要目標是銳化對象邊界并有效分離重疊的對象。這些損失函數(shù)通過最小化預測對象邊界與真實邊界之間的距離或不相似性來工作。在諸如圖像修復或場景分割等任務中,當區(qū)分對象邊界至關重要時,這些損失函數(shù)非常有用。

2.3.1 邊界損失

邊界損失由Kervadec等人在其工作中提出,提供了一種創(chuàng)新的方法來解決不平衡的分割任務,特別是在前景區(qū)域大小與背景區(qū)域大小顯著對比的情況下。這種不平衡通常會導致使用傳統(tǒng)的區(qū)域損失函數(shù)(如Dice損失)時性能下降和訓練不穩(wěn)定。邊界損失通過將其重點放在邊界區(qū)域上巧妙地應對了這些挑戰(zhàn)。邊界損失的核心在于其利用了一種針對邊界的距離度量。該度量用于量化預測邊界與其相應的真實表示之間的差異,包含了沿真實邊界方向的正常變化。L2距離在評估邊界變化中起著基礎作用,其數(shù)學定義如下:

30b04b76-9009-11ef-b5cd-92fbcf53809c.png

在此公式中,s(q) 表示模型生成的概率預測,而?G(q) 表示距離項。然而,必須認識到直接將此距離度量作為損失函數(shù)納入是相當困難的。這種復雜性主要來源于將邊界點表示為可微函數(shù)的挑戰(zhàn),這些函數(shù)是從神經(jīng)網(wǎng)絡的輸出中得出的。因此,研究人員通常會因為這個復雜的問題而避免使用基于邊界的損失函數(shù)。為了克服這一限制,邊界損失的作者從離散優(yōu)化技術中汲取靈感,這些技術傳統(tǒng)上用于曲線演化的背景下。

2.3.2 Hausdorff 距離損失

Hausdorff 距離(HD)是醫(yī)學圖像分割中常用的一種評價指標。Hausdorff 距離是一種定義在集合對上的度量,它量化了一個集合中的點到另一個集合中最近點的最大距離,捕捉最壞情況下的情形。在這個上下文中,考慮兩個非空點集,分別記為X和Y,以及點x ∈ X和y ∈ Y之間的距離度量,記為d(x, y),通常使用歐幾里得距離或曼哈頓距離等度量。Hausdorff 距離定義為:

30c7e57e-9009-11ef-b5cd-92fbcf53809c.png

在圖像分割的情況下,Hausdorff 距離是在預測掩碼和真實掩碼的邊界之間計算的。盡管它是一個常用的度量標準,但Hausdorff 距離也有其缺點。與其他使用整體分割性能的度量不同,Hausdorff 距離僅依賴于最大的錯誤,并且對異常值過于敏感。因此,僅僅為了最小化最大錯誤而進行優(yōu)化可能會導致算法不穩(wěn)定和結果不可靠。此外,只最小化最大的分割錯誤可能會降低整體分割性能,特別是在醫(yī)學影像中常見的復合形狀情況下。這是因為,雖然模型可能能夠在圖像的大部分區(qū)域?qū)崿F(xiàn)足夠的準確性,但在少數(shù)特別困難的區(qū)域可能會遇到較大的錯誤。Karimi等人提出了一種方法,直接優(yōu)化神經(jīng)網(wǎng)絡以減少Hausdorff 距離。他們提出了三種不同的損失函數(shù),通過采用三種不同的方法以可微的方式近似Hausdorff 距離來最小化它。他們展示了這些損失函數(shù)在減少大錯誤的同時不會損害整體分割性能的潛力。

2.3.3 邊界感知損失

Hayder等人在實例級語義分割領域提出了邊界感知損失。該方法的思想是預測一個像素級的距離圖,而不是二進制的前景掩碼。這個距離圖表示的是到最近對象邊界(如果在對象內(nèi)部)的距離或其背景狀態(tài)。為了確保不同對象形狀和大小之間的一致性,首先對距離值進行歸一化和截斷,使其保持在指定范圍內(nèi)。

30de65c4-9009-11ef-b5cd-92fbcf53809c.png

其中 d(p, q) 計算像素 p 和邊界像素 q 之間的歐幾里得距離。最大距離 D(p) 使用天花板函數(shù) 進行上限處理,并通過R進行閾值處理以生成截斷地圖。然后,將這些距離值量化為均勻直方圖區(qū)間,將距離圖轉(zhuǎn)換為一組二進制圖。這將問題轉(zhuǎn)化為K個二進制分割任務,每個任務用K個二進制交叉熵損失解決。在推理階段,使用像素級預測距離創(chuàng)建以其對應像素為中心的圓盤。這些圓盤的聯(lián)合形成了分割掩碼。

2.3.4 活動邊界損失

活動邊界損失旨在專門監(jiān)督和增強訓練期間的預測邊界。在這里,邊界信息被嵌入到訓練過程中,使得網(wǎng)絡能夠特別關注邊界像素。首先,通過計算相鄰像素的KL散度來生成邊界圖,識別出預測的邊界像素。這張圖突出了可能是對象邊界一部分的像素。然后,對于每個預測像素,計算出朝向最近真實邊界的目標方向。這個方向被編碼為一個獨熱向量,允許以概率方式表示像素移動。然后根據(jù)預測的方向計算交叉熵損失,鼓勵網(wǎng)絡對齊預測邊界和真實邊界。

30fa2cf0-9009-11ef-b5cd-92fbcf53809c.png

這里,是權重函數(shù),是鄰域像素上的交叉熵。這種動態(tài)行為確保了隨著訓練過程中網(wǎng)絡參數(shù)的更新,預測邊界不斷調(diào)整并與其演變的真實邊界對齊。

2.3.5 反向形式損失

Borse等人[38]開發(fā)了反向形式(InverseForm)損失,該損失關注于預測對象與真實對象之間的邊界變換。這有助于對那些與真實值不完全對齊但結構相似的預測分配較低的損失。首先,他們訓練了一個稱為反向變換網(wǎng)絡的多層感知機(MLP),該網(wǎng)絡以兩個邊界圖為輸入,預測它們之間的變換矩陣 (\hat{\theta})。例如,對于兩個完美匹配的邊界圖,網(wǎng)絡應輸出一個單位矩陣作為它們的相對變換。在訓練完這個反向變換網(wǎng)絡后,他們會凍結其權重,并用它來計算分割模型的損失。具體來說,他們計算單位矩陣與預測變換矩陣 (\hat{\theta}) 之間的歐幾里得或測地線距離,并將其與交叉熵損失結合,如下所示:

311ecb14-9009-11ef-b5cd-92fbcf53809c.png

這里,和分別計算整個掩碼和其邊界像素的交叉熵損失,而表示反向形式損失。和 表示預測和真實分割掩碼,和表示相應的邊界。和通過常數(shù)和進行縮放,以控制各自損失的影響。

2.3.6 條件邊界損失

為了提高邊界性能,Wu等人建議了一種條件邊界損失(Conditional Boundary Loss, CBL),為每個邊界像素建立一個獨特的優(yōu)化目標,該目標取決于其鄰近上下文,并通過使每個像素與其類別中心對齊并過濾噪聲來增強類內(nèi)一致性、類間分離和邊界精度。這是通過一種簡單而有效的采樣策略——條件正確性感知采樣(Conditional Correctness-Aware Sampling, CCAS)策略實現(xiàn)的,該策略僅選擇正確分類的同類鄰居作為邊界像素的正樣本,以及正確分類的不同類鄰居作為負樣本。所提出的CBL包括兩項:A2C(錨點與其唯一生成的局部類別中心之間的對)損失項和A2P&N(錨點與其選定的正負樣本之間的對)損失項。A2C損失項監(jiān)督每個邊界像素與其對應的局部類別中心之間的距離,該局部類別中心是從正確分類的周圍鄰居生成的。A2P&N損失項監(jiān)督邊界像素與正負樣本之間的相似性,這些樣本是通過CCAS策略選擇的。然后將CBL與常用的交叉熵(CE)損失結合形成總體訓練損失,用于在端到端訓練期間優(yōu)化分割網(wǎng)絡。

2.3.7 邊界差異比聯(lián)合損失

Sun等人提出了邊界差異比聯(lián)合(Boundary DoU)損失,旨在改善對象邊界處的分割質(zhì)量。在此,對象的邊界被定義為最外側的 (d) 像素。該方法受到邊界IoU度量的啟發(fā),即僅考慮預測和目標的邊界區(qū)域時的IoU。損失被表述如下:

313e9b38-9009-11ef-b5cd-92fbcf53809c.png

這里, 是一個加權項,用于控制邊界區(qū)域的重要性。對于相對較大的對象,邊界像素占總面積的比例較小,即使只有內(nèi)部部分被正確分割,也會導致較低的損失。在這種情況下, 應接近1,表明相對于內(nèi)部區(qū)域,邊界像素被賦予更高的重要性。相反,對于較小的對象, 應接近0,趨向于IoU損失。為了確保這一點,作者提出了加權項 ,其中 C表示周長,S表示對象的面積。因此,他們確保了即使是圖像中大型對象的邊界也能得到精確分割。

2.3.8 區(qū)域級損失

區(qū)域級(Region-wise, RW)損失的核心概念是將softmax概率值與RW圖結合起來。RW圖是為圖像中的每個像素和每個類別標簽定義的。它影響特定像素的預測在損失計算中應貢獻多少,這取決于其類別標簽及其在圖像中的位置。

3157fba0-9009-11ef-b5cd-92fbcf53809c.png

其中,是預測值的softmax,是該像素處的RW圖值。可以根據(jù)分割任務的具體需求設計不同類型RW圖。例如,RW-Boundary圖使用歐幾里得距離變換創(chuàng)建基于距離的地圖,突出顯示類別之間的邊界。這一框架提供了一種靈活統(tǒng)一的方法,同時解決了類別不平衡和像素重要性問題。此外,文章通過重新表述如邊界損失和主動輪廓損失等知名損失函數(shù),展示了RW損失框架的適應性。這不僅提供了關于這些損失函數(shù)之間關系的新見解,還證明了RW損失框架的靈活性。他們進一步探討了RW圖的優(yōu)化穩(wěn)定性,并引入了修正的區(qū)域級(Rectified Region-wise, RRW)圖的概念。這些RRW圖解決了優(yōu)化穩(wěn)定性的問題,從而增強了訓練過程的收斂性和穩(wěn)定性。通過對各種分割任務的實證評估,文章展示了RRW圖的有效性。

2.4 組合方法

組合方法融合了三個不同類別的元素(像素級、區(qū)域級和邊界級),以優(yōu)化語義分割性能。通過整合多個損失函數(shù),這種方法尋求像素級精度、整體對象分割質(zhì)量和邊界劃分準確率之間的平衡。組合方法提供了靈活性和適應性,利用每個類別的優(yōu)勢來應對由多樣化的分割任務和數(shù)據(jù)集特性帶來的特定挑戰(zhàn)。

2.4.1 組合損失

在語義分割中,最常見的做法是在組合損失(Combo loss)中結合Dice損失和加權交叉熵損失,以克服類別不平衡問題。這里,加權交叉熵損失通過給予較少代表的類別更多權重來克服數(shù)據(jù)不平衡問題,而Dice損失則允許分割較小的對象。此外,加權交叉熵損失提供平滑的梯度,而Dice損失幫助避免局部最小值。它簡單地通過一個調(diào)制項來控制每個損失函數(shù)的貢獻,將交叉熵損失和Dice損失相加,整體方程定義為:

317654ba-9009-11ef-b5cd-92fbcf53809c.png

其中, 控制Dice損失相對于加權交叉熵損失的權重,而交叉熵的權重控制模型對不同目標類別的懲罰程度。這種方法通過平衡不同損失函數(shù)的作用,有效地提高了模型在處理類別不平衡數(shù)據(jù)集時的性能和泛化能力。

2.4.2 指數(shù)對數(shù)損失

指數(shù)對數(shù)損失(Exponential Logarithmic Loss)類似于組合損失,也是通過結合加權交叉熵損失和Dice損失來克服類別不平衡問題。不同之處在于,指數(shù)對數(shù)損失在結合這兩種損失之前,先對它們?nèi)?shù)和指數(shù)運算。這樣做提供了控制模型對容易或難以分類的像素關注程度的靈活性。所提出的損失函數(shù)定義如下:31942c42-9009-11ef-b5cd-92fbcf53809c.png其中 是指數(shù)對數(shù)Dice損失, 是指數(shù)對數(shù)加權交叉熵損失:

31d1dd30-9009-11ef-b5cd-92fbcf53809c.png

這里的 和 可用于控制損失函數(shù)的關注點。具體來說,當 時,損失更關注難以分類的像素,反之亦然。通過這種方式,指數(shù)對數(shù)損失能夠更好地調(diào)整模型的學習重點,尤其是在處理不平衡的數(shù)據(jù)集時,有助于提高模型的整體性能。

2.4.3 統(tǒng)一焦點損失

統(tǒng)一焦點損失(Unified Focal Loss)是另一種設計用來通過結合焦點損失(Focal Loss)和焦點特弗斯基損失(Focal Tversky Loss)來解決類別不平衡問題的損失函數(shù)。它通過統(tǒng)一相似的超參數(shù)來減輕訓練過程中與損失抑制和過度增強相關的問題。

31f953a6-9009-11ef-b5cd-92fbcf53809c.png

統(tǒng)一焦點損失泛化了常見的損失函數(shù),如Dice損失和交叉熵損失,使它們成為其框架內(nèi)的特殊情況。重要的是,通過減少超參數(shù)搜索空間,它在簡單性和有效性之間找到了平衡,簡化了優(yōu)化過程同時保持了其效能。實驗結果支持了它的優(yōu)勢,使其成為訓練對類別不平衡具有魯棒性的模型的強大工具。

3、討論

表2總結了基于類別(即像素級、區(qū)域級、邊界級或組合)排序的討論損失函數(shù)的優(yōu)勢、劣勢及應用場景。像素級損失的優(yōu)點在于通過考慮每一個像素、轉(zhuǎn)移對難以分割像素的關注點或懲罰分割錯誤來處理類別分布不平衡的問題。由于關注點在于全局統(tǒng)計,這可能導致與其他損失相比,分割邊界更加柔和。區(qū)域級損失通過計算分割區(qū)域之間的重疊或相似性,通常與語義分割性能度量相關聯(lián),以引導網(wǎng)絡獲得更好的性能。更高級的損失可以利用假陽性與假陰性之間的權衡,對異常值和噪聲標簽更加穩(wěn)健。一些基于區(qū)域的損失在優(yōu)化過程中遇到了問題,如梯度不穩(wěn)定或損失不完全可微?;谶吔绲膿p失通常專注于銳利的分割邊界以獲得更好的分割掩碼。這些損失存在多種限制,例如它們僅限于二元分割問題、優(yōu)化過程中梯度爆炸或復合形狀問題。組合損失試圖結合不同損失的優(yōu)勢或緩解它們的局限性。因此,它們的優(yōu)勢和劣勢很大程度上取決于基礎損失??偟膩碚f,所有損失包括超參數(shù)都對此選擇非常敏感,因為它會對性能產(chǎn)生重大影響,這一點已在我們的實驗中得到驗證。通常,沒有選擇超參數(shù)設置的一般指南,因為最優(yōu)選擇取決于數(shù)據(jù)和任務。這需要廣泛的實驗,特別是對于具有多個超參數(shù)的損失,以找到最大性能的最優(yōu)設置。

32157b6c-9009-11ef-b5cd-92fbcf53809c.png

為了研究損失函數(shù)在語義分割中的應用,我們考察了自然圖像分割和醫(yī)學圖像分割中表現(xiàn)最佳的方法。在醫(yī)學圖像分割中,大多數(shù)表現(xiàn)最好的模型依賴于Dice損失和交叉熵損失的組合損失。有文獻使用了包含Dice損失和邊界損失的組合損失。有文獻使用了L1損失、交叉熵損失和3D對比編碼損失的組合進行預訓練。有文獻使用了一種先驗感知損失,通過Kullback-Leibler散度測量兩個分布的匹配概率。我們看到,應用的損失函數(shù)隨任務而變化;在城市街道場景中,簡單的交叉熵損失函數(shù)占據(jù)主導地位;而在器官分割中,Dice損失會疊加使用,還因為Dice分數(shù)是常用的評估指標。

31942c42-9009-11ef-b5cd-92fbcf53809c.png

圖2展示了邊界差異比聯(lián)合(Boundary DoU)損失和其他幾種損失函數(shù)的定性結果的視覺表示。該圖清楚地顯示了使用適當?shù)膿p失函數(shù)對分割復雜區(qū)域的優(yōu)勢。具體來說,我們可以觀察到邊界級損失函數(shù)在邊界區(qū)域的定位和分割更為準確。此外,右心室(RV)區(qū)域在第1、3、4、6行顯著的形狀變化可能導致欠分割和誤分割問題。在這種情況下,邊界DoU損失函數(shù)相比其他損失函數(shù)能有效應對這一挑戰(zhàn)。相比之下,心?。∕YO)區(qū)域具有環(huán)形結構和高度詳細的區(qū)域,如第2、5行所示。在這些情況下,其他損失函數(shù)往往會產(chǎn)生不同程度的欠分割,而邊界DoU損失函數(shù)提供了更全面的分割。減少誤分類和欠分類最終提高了臨床指導的潛力。為進一步探索不同損失函數(shù)對分割性能的影響,我們轉(zhuǎn)向圖3,該圖提供了不同損失函數(shù)在分割大對象和小對象時表現(xiàn)的視覺表示。從左至右看圖表,我們可以看到預測與真實掩碼之間的重疊逐漸減少。這種減少導致了更多的假陽性和假陰性的出現(xiàn)。理想情況下,隨著假陽性和假陰性數(shù)量的增加,損失值應該顯示出一致的上升趨勢。

329ad5c8-9009-11ef-b5cd-92fbcf53809c.png

對于大對象,大多數(shù)使用的損失函數(shù)遵循這一理想場景。然而,對于小對象(如右側圖表所示),只有組合損失和焦點損失表現(xiàn)出對較大錯誤更明顯的單調(diào)懲罰。簡而言之,基于重疊度量的函數(shù)在分割大小對象時顯示出相當大的變化。這些結果強調(diào)了選擇損失函數(shù)依賴于感興趣對象大小的關鍵概念。這一觀察促使我們思考這些發(fā)現(xiàn)如何指導從業(yè)者根據(jù)他們希望分割的對象的具體特征和大小選擇最合適的損失函數(shù),從而進一步闡明損失函數(shù)與分割性能之間微妙的關系。總體而言,圖3和圖2明確了選擇損失函數(shù)在難以分割對象上獲得更穩(wěn)定分割的重要意義,驗證了前面提到的每種損失在其各自領域內(nèi)的能力和獨特應用。除了討論的損失函數(shù)之外,通過集成針對特定任務定制的補充損失函數(shù)或適應現(xiàn)有損失函數(shù)以滿足手頭的任務,可以進一步提高模型性能。例如,有作者介紹了一種新的損失函數(shù)——拓撲感知焦點損失(Topology-Aware Focal Loss, TAFL),它將傳統(tǒng)的焦點損失與基于真實分割掩碼和預測分割掩碼持久圖之間的Wasserstein距離的拓撲約束項相結合。這種結合確保了與真實值相同的拓撲結構,有效解決了拓撲錯誤,同時處理類別不平衡問題。另一種方法,Wen等人提出的,提出了一種簡單而有效的方法,稱為像素級三元組學習。該方法專注于在不引入額外計算復雜度的情況下改進邊界區(qū)分度。通過使用像素級三元組損失,分割模型可以在邊界處學習更具判別性的特征表示。值得注意的是,該方法可以無縫集成到最先進的分割網(wǎng)絡中,作為一種適用于二元和多類醫(yī)學分割任務的通用邊界增強器。最終,語義分割任務中損失函數(shù)的選擇可以根據(jù)所使用的學習算法進行定制。例如,在最近的基于擴散的生成模型的背景下,利用更復雜的損失函數(shù)不僅可以提高分割性能,還可以增強重建過程。同樣,在隱式神經(jīng)表示中,適應損失函數(shù)可以有助于高效的分割任務。

4、實驗

4.1 實驗設置

我們在單個RTX 3090 GPU上使用Pytorch庫訓練模型。采用隨機梯度下降法,批次大小為8,基礎學習率為0.01,總共進行300輪訓練。此外,我們使用確定性訓練,并設定固定的種子以獲得可比較的結果,避免因隨機性造成的其他變化。網(wǎng)絡訓練使用交叉熵損失與不同損失函數(shù)的組合,總損失計算公式為:32c0a4b0-9009-11ef-b5cd-92fbcf53809c.png我們評估了6種不同的損失函數(shù)在訓練收斂性和性能上的表現(xiàn),即Dice損失、焦點損失(Focal loss)、Tversky損失、焦點Tversky損失、Jaccard損失和Lovász-Softmax損失。

4.2 數(shù)據(jù)集和評估指標

為了對比,我們使用了兩個常用的公開數(shù)據(jù)集,Synapse和Cityscapes。前者是一個醫(yī)學圖像分割數(shù)據(jù)集,包含30個腹部CT掃描圖像。其性能通過Dice相似系數(shù)(DSC)和Hausdorff距離(HD)指標來評估,考慮了8個腹部器官,即主動脈、膽囊、左腎和右腎、肝臟、胰腺、脾臟和胃。后者是一個城市街道分割數(shù)據(jù)集,包含30類標簽和5000張精細標注的圖像,其中平均交并比(mIoU)用作評估指標。

4.3 實驗結果

我們在兩種常見的深度學習模型上進行了評估,即傳統(tǒng)的UNet模型和基于視覺Transformer架構的TransUNet模型。

4.3.1 定量結果

詳細的性能結果如表3所示。32d96068-9009-11ef-b5cd-92fbcf53809c.png我們觀察到,對于UNet和TransUNet而言,不同損失函數(shù)之間的性能差距顯著。對于UNet,這一差距最大達到6.36%的DSC,其中Tversky損失表現(xiàn)最佳,而Dice損失表現(xiàn)最差。在TransUNet方面,這一差異達到了7.06%的DSC點數(shù),Jaccard損失表現(xiàn)最佳,而焦點損失表現(xiàn)最差。此外,Dice損失和焦點損失在處理較小器官如胰腺和膽囊時性能下降,而其他損失函數(shù)的表現(xiàn)明顯更好。這突顯了Jaccard和Tversky損失的優(yōu)勢,它們能夠產(chǎn)生更清晰的分割邊界,因為這些損失函數(shù)具有重疊性質(zhì),并且與分割性能有直接關系。像焦點損失這樣的其他損失函數(shù)無法從這些特性中受益,因為腹部掃描的類別不平衡通常較低,導致性能較低。我們沒有觀察到兩個訓練網(wǎng)絡之間有明顯的差異,這表明損失函數(shù)的選擇更多地依賴于數(shù)據(jù)而非網(wǎng)絡。此外,我們考察了訓練過程中的損失行為,并在圖4中展示了整個訓練周期的損失值。Dice損失和焦點損失表現(xiàn)出穩(wěn)定的行為,這解釋了它們整體較差的性能,因為在訓練初期模型就陷入了停滯。其他四種損失函數(shù)則表現(xiàn)出典型的訓練行為,大約在200個周期左右訓練開始收斂。同樣,UNet和TransUNet模型之間也沒有顯著的差異。Cityscapes的性能結果如表4所示。33093edc-9009-11ef-b5cd-92fbcf53809c.png在UNet的情況下,Tversky損失和Dice損失是最優(yōu)的損失函數(shù),而所有損失函數(shù)之間的差異為1%的DSC。對于TransUNet的情況,Jaccard損失表現(xiàn)最優(yōu),Tversky損失次之,差異為2.55%的DSC。模型間差異的存在表明,所選模型不同,損失函數(shù)選擇的重要性也會有所變化,但TransUNet的情況顯示,為了提高模型性能,實驗選擇不同的損失函數(shù)是非常重要的。這些訓練運行的損失行為在圖5中得到了說明。它與Synapse評估中的表現(xiàn)有所不同。33334330-9009-11ef-b5cd-92fbcf53809c.pngDice損失和焦點損失隨訓練周期逐漸減少,顯示出實際的訓練進展而不是恒定值。這解釋了在Cityscapes數(shù)據(jù)集上的更好表現(xiàn)。此外,在大約250個訓練周期后,對于TransUNet和UNet訓練,Jaccard、Lovász-Softmax、Tversky和焦點Tversky損失再次出現(xiàn)下降,導致后期顯著的收斂。這強調(diào)了損失性能高度依賴于模型的事實,即某些損失可能對一個網(wǎng)絡是合適的選擇,但對其他網(wǎng)絡則不一定適合。

4.3.2 定性結果

在Synapse數(shù)據(jù)集上使用不同損失函數(shù)訓練的網(wǎng)絡的分割掩模如圖6所示。與真實分割相比,Dice損失的表現(xiàn)參差不齊,而在頂部的例子中,除了胰腺區(qū)域外,分割看起來相當不錯。在底部的例子中,它完全未能識別出胃和膽囊。相比之下,焦點Tversky損失提供了最有希望的分割圖,正確地識別了所有器官,僅在胃部觀察到輕微的變化。相反,Jaccard、Lovász-Softmax和Tversky損失在分割該區(qū)域時也遇到了困難。這項實證分析得出結論,焦點Tversky損失是最合適的選擇。它在糾正誤識別和遺漏方面表現(xiàn)出色,從而提高了復雜和錯誤分類案例的分割質(zhì)量。3357c0de-9009-11ef-b5cd-92fbcf53809c.png對于Cityscapes數(shù)據(jù)集,定性結果如圖7所示。在所有網(wǎng)絡中都可以觀察到類似的結果,人行道邊界柱有時被分類為建筑物、墻壁或桿子,因為沒有專門的類別。自行車架也大多被分類為圍欄或墻壁,因為沒有更精確的類別。總體而言,所有損壞中只有輕微的誤分類,分割邊界或多或少都是準確的。這也反映了前一節(jié)中提出的定量結果。3388aeb0-9009-11ef-b5cd-92fbcf53809c.png4.3.3 關于超參數(shù)的重要性我們通過在Synapse數(shù)據(jù)集上進行不同超參數(shù)選擇的最終性能比較,探討了超參數(shù)選擇的重要性。表5展示了焦點損失、Tversky損失和焦點Tversky損失的性能結果。

32d96068-9009-11ef-b5cd-92fbcf53809c.png

這些結果顯示,超參數(shù)的選擇導致焦點Tversky損失的最大差異為1.99%的DSC,焦點損失為0.33%的DSC,而Tversky損失為0.96%的DSC,這表明重要性各不相同。進一步觀察圖8中展示的損失特征,焦點損失通常保持恒定且大致相等的行為解釋了其性能變化較小的原因。焦點Tversky損失和Tversky損失展現(xiàn)出相似但略有不同的訓練行為,導致了較大的性能差異。

33eea63e-9009-11ef-b5cd-92fbcf53809c.png

總體而言,這表明超參數(shù)需要謹慎選擇,因為它們可以顯著影響最終的性能。為了最優(yōu)地選擇它們,需要進行細致的參數(shù)搜索,因為通常沒有通用的指導原則,這是包含參數(shù)選擇的損失函數(shù)的一個常見缺點。

5、未來工作和開放挑戰(zhàn)

盡管語義分割領域,特別是在提出更好的損失函數(shù)方面取得了進展,但在多個方面仍存在限制,需要進一步的研究努力才能使這些技術適用于實際應用。以下,我們將簡要討論一些限制和未來方向。

5.1 超參數(shù)指導方針

由于許多損失函數(shù)需要超參數(shù)值,而合適的超參數(shù)選擇可以顯著提升模型性能,因此該領域的進一步研究可以通過提供超參數(shù)選擇的指南或建議來幫助開發(fā)人員的設計過程。這需要在不同的語義分割領域以及不同的底層網(wǎng)絡架構中進行廣泛的研究,以評估超參數(shù)的影響及其數(shù)據(jù)和模型依賴性。

5.2 組合損失研究

學術文獻中基于其他損失函數(shù)組合而成的損失函數(shù)數(shù)量較少。由于組合損失可以從每個基礎損失中繼承優(yōu)點,同時可能緩解缺點,因此它們可能是許多模型和任務的適當選擇。探索新的最近損失函數(shù)組合的研究有可能創(chuàng)造出新的損失函數(shù),從而提升性能。

5.3 與標簽不確定性的交互

許多語義分割應用涉及處理模糊或不確定的標簽。為了解決這個問題,未來的研究可以探索結合標簽不確定性或模糊度衡量的損失函數(shù)。這些新穎的損失函數(shù)可以通過根據(jù)每個標簽的確信程度分配自適應權重,動態(tài)調(diào)整對真實標簽注釋可靠性的響應。這種適應性在人類注釋者可能提供不同程度置信度標簽的情況下尤為重要,有助于減輕噪聲或不確定數(shù)據(jù)的影響。

5.4 對噪聲標注的魯棒性

實際上,獲取完全準確的訓練數(shù)據(jù)標注往往非常具有挑戰(zhàn)性。對標簽噪聲或錯誤不那么敏感的魯棒損失函數(shù)可以成為改變游戲規(guī)則的關鍵。該領域的研究可以集中在開發(fā)能夠在訓練過程中自動識別并降低噪聲標注權重的損失函數(shù)。此外,探索將損失函數(shù)與數(shù)據(jù)增強策略相結合的技術,以提高模型對噪聲數(shù)據(jù)的抵抗力,可以進一步提升分割性能。

5.5 預訓練基礎模型的適應

隨著諸如CLIP、Stable Diffusion、GPT等基礎模型越來越多地被用作各種下游任務的現(xiàn)成框架,研究如何將語義分割損失函數(shù)適應這些預訓練模型變得至關重要。通過探索和分析微調(diào)這些通用模型的潛在方法和途徑,我們可以確保在各種下游醫(yī)療應用中實現(xiàn)最優(yōu)性能和準確性。

5.6 損失函數(shù)與評估指標:公平性

損失函數(shù)的性能是通過一個或多個分割指標來評估的。值得加入更多的評估指標用于語義分割任務,并進一步研究哪種損失函數(shù)對每個評估指標更為有利。此外,我們可以通過留一交叉驗證(LOOCV)的方式,使用所有其他的分割損失函數(shù)來評估正在研究的損失函數(shù)。這將允許對不同損失函數(shù)的性能進行全面的比較和分析,提供對其有效性的更穩(wěn)健評估。

6、結論

綜上所述,本調(diào)查報告全面概述了25種用于語義分割的損失函數(shù),重點介紹了它們在醫(yī)學圖像和自然圖像中的應用。我們強調(diào)了這些損失函數(shù)在改進分割模型中所起的關鍵作用。我們引入了一個結構化的分類體系,對流行的數(shù)據(jù)集進行了驗證實驗,指出了開放的挑戰(zhàn)和未來研究的方向,并強調(diào)了2020年之后的最新發(fā)展。本調(diào)查報告為研究人員和實踐者提供了一項寶貴的資源,提供了關于損失函數(shù)選擇和語義分割領域進一步創(chuàng)新的見解。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像分割
    +關注

    關注

    4

    文章

    182

    瀏覽量

    18000
  • 函數(shù)
    +關注

    關注

    3

    文章

    4331

    瀏覽量

    62618
收藏 人收藏

    評論

    相關推薦

    利用VLM和MLLMs實現(xiàn)SLAM語義增強

    語義同步定位與建圖(SLAM)系統(tǒng)在對鄰近的語義相似物體進行建圖時面臨困境,特別是在復雜的室內(nèi)環(huán)境中。本文提出了一面向?qū)ο骃LAM的語義增強(SEO-SLAM)的新型SLAM系統(tǒng),借
    的頭像 發(fā)表于 12-05 10:00 ?160次閱讀
    利用VLM和MLLMs實現(xiàn)SLAM<b class='flag-5'>語義</b>增強

    【每天學點AI】前向傳播、損失函數(shù)、反向傳播

    在深度學習的領域中,前向傳播、反向傳播和損失函數(shù)是構建和訓練神經(jīng)網(wǎng)絡模型的三個核心概念。今天,小編將通過一個簡單的實例,解釋這三個概念,并展示它們的作用。前向傳播:神經(jīng)網(wǎng)絡的“思考”過程前向傳播
    的頭像 發(fā)表于 11-15 10:32 ?655次閱讀
    【每天學點AI】前向傳播、<b class='flag-5'>損失</b><b class='flag-5'>函數(shù)</b>、反向傳播

    RNN的損失函數(shù)與優(yōu)化算法解析

    函數(shù)有以下幾種: 交叉熵損失函數(shù) :交叉熵(Cross Entropy)是一評估兩個概率分布之間差異的度量方法,即通過比較模型預測的概率分布和真實概率分布之間的差異,來評估模型訓練的
    的頭像 發(fā)表于 11-15 10:16 ?406次閱讀

    常見人體姿態(tài)評估顯示方式的兩方式

    人體姿態(tài)評估中有兩常見的顯示方式,分別是火柴人效果與BodyPix效果。其中火柴人效果本質(zhì)就是基于關鍵點的深度學習模型推理以后的顯示效果;Bodypix本質(zhì)就就是語義分割模型
    的頭像 發(fā)表于 11-11 11:21 ?204次閱讀
    常見人體姿態(tài)評估顯示方式的兩<b class='flag-5'>種</b>方式

    YOLOv8中的損失函數(shù)解析

    YOLO長期以來一直是目標檢測任務的首選模型之一。它既快速又準確。此外,其API簡潔易用。運行訓練或推斷作業(yè)所需的代碼行數(shù)有限。在2023年下半年,YOLOv8在框架中引入了姿態(tài)估計后,該框架現(xiàn)在支持最多四個任務,包括分類、目標檢測、實例分割和姿態(tài)估計。
    的頭像 發(fā)表于 11-05 17:15 ?942次閱讀
    YOLOv8中的<b class='flag-5'>損失</b><b class='flag-5'>函數(shù)</b>解析

    畫面分割器怎么調(diào)試

    畫面分割器,通常指的是視頻畫面分割器,它是一可以將一個視頻信號分割成多個小畫面的設備。這種設備廣泛應用于監(jiān)控系統(tǒng)、視頻會議、多畫面顯示等場景。調(diào)試畫面
    的頭像 發(fā)表于 10-17 09:32 ?399次閱讀

    畫面分割器怎么連接

    畫面分割器,也稱為視頻分割器或多畫面處理器,是一可以將多個視頻信號源分割成單個畫面或多個畫面顯示在單個監(jiān)視器上的設備。這種設備廣泛應用于監(jiān)控系統(tǒng)、視頻會議、多媒體展示等領域。 一、畫
    的頭像 發(fā)表于 10-17 09:29 ?320次閱讀

    手冊上新 |迅為RK3568開發(fā)板NPU例程測試

    測試 6.1 deeplabv3語義分割 6.2 lite_transformer 6.3 LPRNet車牌識別 6.4 mobilenet圖像分類 6.5 PPOCR-Rec文字識別 6.6
    發(fā)表于 08-12 11:03

    圖像語義分割的實用性是什么

    圖像語義分割是一重要的計算機視覺任務,它旨在將圖像中的每個像素分配到相應的語義類別中。這項技術在許多領域都有廣泛的應用,如自動駕駛、醫(yī)學圖像分析、機器人導航等。 一、圖像
    的頭像 發(fā)表于 07-17 09:56 ?431次閱讀

    圖像分割語義分割的區(qū)別與聯(lián)系

    圖像分割語義分割是計算機視覺領域中兩個重要的概念,它們在圖像處理和分析中發(fā)揮著關鍵作用。 1. 圖像分割簡介 圖像分割是將圖像劃分為多個區(qū)
    的頭像 發(fā)表于 07-17 09:55 ?951次閱讀

    圖像分割語義分割中的CNN模型綜述

    圖像分割語義分割是計算機視覺領域的重要任務,旨在將圖像劃分為多個具有特定語義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(CNN)作為深度學習的一核心
    的頭像 發(fā)表于 07-09 11:51 ?902次閱讀

    機器人視覺技術中常見的圖像分割方法

    、場景理解、導航和交互等任務至關重要。以下是一些常見的圖像分割方法: 閾值分割法(Thresholding) 閾值分割法是一基于像素強度的簡單圖像
    的頭像 發(fā)表于 07-09 09:31 ?701次閱讀

    助力移動機器人下游任務!Mobile-Seed用于聯(lián)合語義分割和邊界檢測

    精確、快速地劃定清晰的邊界和魯棒的語義對于許多下游機器人任務至關重要,例如機器人抓取和操作、實時語義建圖以及在邊緣計算單元上執(zhí)行的在線傳感器校準。
    的頭像 發(fā)表于 02-20 10:30 ?911次閱讀
    助力移動機器人下游任務!Mobile-Seed用于聯(lián)合<b class='flag-5'>語義</b><b class='flag-5'>分割</b>和邊界檢測

    對象檢測邊界框損失函數(shù)–從IOU到ProbIOU介紹

    目標檢測損失函數(shù)的選擇在目標檢測問題建模中至關重要。通常,目標檢測需要兩個損失函數(shù),一個用于對象分類,另一個用于邊界框回歸(BBR)。
    的頭像 發(fā)表于 01-24 10:50 ?2831次閱讀
    對象檢測邊界框<b class='flag-5'>損失</b><b class='flag-5'>函數(shù)</b>–從IOU到ProbIOU介紹

    OpenCV兩不同方法實現(xiàn)粘連大米分割計數(shù)

    測試圖如下,圖中有個別米粒相互粘連,本文主要演示如何使用OpenCV用兩不同方法將其分割并計數(shù)。
    的頭像 發(fā)表于 01-22 14:55 ?1740次閱讀
    OpenCV兩<b class='flag-5'>種</b>不同方法實現(xiàn)粘連大米<b class='flag-5'>分割</b>計數(shù)
    主站蜘蛛池模板: 农村妇女野外一级毛片| 啪啪日韩| 亚洲黄色第一页| 四虎最新网址在线观看| 激情啪啪网站| 久久最新精品| 最近高清在线国语| 久久这里只有精品免费播放| 日韩特黄特色大片免费视频| 久久久久久久久女黄| 久久在线免费观看| 免费网站日本永久免费观看| 天天插插| 国产成人精品高清免费| 久青草国产在线视频_久青草免| 手机成人在线视频| 国产一区在线mmai| 久久色婷婷| 国产精品福利视频手机免费观看| 在线激情网址| 给我免费播放片黄色| 性欧美高清极品xx| 最好看免费中文字幕2018视频| 玖玖国产| 西西人体www303sw大胆高清| 四虎伊人| 激情啪啪网站| 69japanese日本100| 色婷婷久久综合中文久久蜜桃| 18岁女人毛片| 美女扒开尿囗给男人玩的动图 | bt天堂资源种子在线| 天堂va欧美ⅴa亚洲va一国产| 欧美日本免费| 国产免费一区二区三区在线| 欧美性xxxx交| 欧美成人生活片| 天天爱夜夜做| 一级毛片 在线播放| 久青草免费在线视频| 亚洲人成在线精品不卡网|