ICCV2023 基準測試:MS-COCO數據集的可靠嗎?
摘要
數據集是用于分析和比較各種任務的算法的基礎,從圖像分類到分割,它們也在圖像預訓練算法中起著重要作用。然而,人們往往只關注結果,而忽略了數據集中實際的內容。因此,質疑數據集中所包含的信息類型以及其中的微妙差異和偏見是非常必要的。在本文中,我們利用形狀分析流程來發現Sama-COCO(MS-COCO的重新標注版本)的潛在問題。我們在兩個數據集上訓練和評估了模型,以檢查不同標注條件對結果的影響。我們的實驗表明,標注方式對性能有顯著影響,因此標注過程應該根據目標任務進行設計。
引言
數據集基準和評估標準對于塑造計算機視覺研究的方向和動力具有關鍵作用。它們是衡量社區進步和算法創新的標尺。這些組件通常被認為是單一的工作,它們被收集和分析以確保所有算法的可靠性和質量。然而,當基準本身存在缺陷時,研究人員和從業者花費大量時間調整他們的實驗以在基準上取得最佳性能,會產生什么后果呢?
視覺數據集通常用于分類、檢測和分割等任務的算法基準測試或大型神經網絡的預訓練。然而,這存在一個問題,那就是實際的目標并不總是與數據集中提供的數據相一致。這種不一致可能源于自動標注協議的缺陷或眾包努力的不協調。因此,有必要建立一個嚴格的端到端流程,其中注釋過程由實際任務的明確定義所指導。
目標檢測數據集(MS-COCO)是一個用于評估和比較檢測和實例分割算法的標準數據集,包括YOLO,R-CNN和DETR等方法。它由自然圖像組成,具有自動駕駛行業的應用價值,因此為在其上開發的神經網絡提供了質量標準。由于MS-COCO在計算機視覺中作為基準的重要性,理解其數據集中的邊界框和分割掩模的可靠性和質量是非常必要的,因為它們反映了數據的趨勢和特征。為了評估數據集的質量,可以創建數據集的重新標注版本,以便與原始版本進行比較和發現潛在的差異,這些差異可能會影響算法的性能和泛化能力。
圖2 除了聚集的實例外,其他對象的大小分布
數據集
Sama-COCO數據集是對現有MS-COCO數據集的重新標注工作,由一組專業的標注員完成。該項目最初是作為一個內部工作,旨在生成高質量的地面真實數據,后來發展成為一種提供了解機器學習數據集質量復雜因素的新方法。
該數據集是在數月內生成的,使用了不固定的人力資源:有時有多達500名標注員同時工作。關鍵點是有對標注員的進行詳細指導。與MS-COCO數據集一樣,標注以矢量多邊形的形式提供。
我們指導標注員在繪制COCO對象輪廓的多邊形時要盡可能精確,盡量避免包含背景。我們還指導標注員優先標注對象的單個實例,而不是聚集在一起的對象。如果圖像中某個對象類別的實例數量超過了給定的閾值,我們就指示標注員只標注前幾個實例,然后將剩余的實例標記為聚集。整個項目中的閾值根據不同的情況進行調整,以平衡預算、時間和數據質量之間的關系。此外,我們還指示標注員忽略尺寸小于10×10像素的對象。
重新標注過程涵蓋了MS-COCO數據集中的所有123,287張訓練和驗證圖像。這些圖像預先加載了MS-COCO的原始標注,這使得標注員可以根據需要修改、保留或刪除這些標注。在標注階段之后,還有一個質量保證(QA)階段,QA專家會檢查每個提交的標注。不符合質量要求的標注會被退回,要求標注員進行修正,直到達到滿意的水平。需要注意的是,一些標注員誤解了忽略小對象的要求,認為是要刪除MS-COCO的預標注,而另一些標注員則沒有改變它們。
與原始MS-COCO數據集相比,Sama-COCO數據集有幾個顯著的差異。首先,Sama-COCO數據集中標記為聚集的實例明顯更多。這部分是因為標注員被指示將大型的單一聚集分解為較小的部分和單個實體。盡管兩個數據集有相同的基礎,但Sama-COCO在80個類別中的47個類別中擁有更多的實例。其中一些類別,如person,增加的數量非常顯著。其次,Sama-COCO的頂點數幾乎是MS-COCO的兩倍,這是因為標注員被指示在繪制多邊形時要盡可能精確,盡量不包含背景。此外,如圖2所示,大型對象的數量顯著減少,因為大型的聚集或對象群中的單個元素被重新標注為不同的實體。在Sama-COCO數據集中還可以觀察到一個關鍵的變化是非常小的對象(尺寸小于或等于10×10像素)的數量明顯減少。最后,Sama-COCO數據集中還有更多的小型(從10×10到32×32像素)和中等大小(從32×32到96×96像素)的對象。
形狀分析
由于Sama-COCO是重新注釋而非最初數據集的更正,所以樣本之間沒有對應關系。為了確定地分析注釋形狀的差異,必須首先匹配多邊形。放寬分析要求為單個多邊形形狀,并利用邊界框形狀一致性的概念。形狀一致性假設輪廓錯誤不意味著盒子錯誤。使用基于交集與并集(IoU)度量的重疊標準確定匹配。對于任何一對封閉形狀,IoU定義為:
數據集之間注釋實例的匹配由所有形狀中IoU大于置信度閾值T的形狀對定義。每個注釋最多只有一個匹配,且不能保證一定找到匹配。經驗選擇匹配閾值為0.90。這種策略可找到受輪廓噪聲影響的匹配,而不是與全局框錯誤相關的匹配。對形狀和形狀集,匹配定義為:
一旦找到匹配,則使用輪廓分析量化成對形狀之間的差異。設()表示成對形狀()的輪廓,長度為()。設為空間域上輪廓的精確距離變換(EDT),其中定義了中的空間位置。用于量化形狀之間平均差異的平均表面距離定義為:
某些成對形狀可能存在大型區域分歧。在這種情況下,平均表面距離無法捕獲這種現象。為了緩解這個問題,引入最大距離,定義為:
匹配流程應用于訓練分割,找到310504個確定匹配。每個形狀使用pycoco標準柵格化為掩模,并通過將掩模與自身的二值腐蝕相減生成輪廓。生成EDT,并通過用成對形狀的輪廓索引距離圖來計算路徑積分。該流程對兩個形狀雙向完成,如圖3所示。平均和最大表面距離的分布如圖4所示。
圖4:平均和最大表面距離的長尾分布
實驗
為了研究重新標注過程對神經網絡預測質量的影響,我們使用檢測和實例分割任務來訓練和評估神經網絡。重新標注過程包括更精確的多邊形、更細化的聚集和更多的標注實例。我們使用Detectron2框架在MS-COCO和Sama-COCO上訓練了一個基于ResNet-50和FPN的Faster R-CNN模型,并使用MS-COCO的標準評估指標對其進行評估,將每個數據集的驗證分割作為地面真實數據。我們使用8個Nvidia V100 GPU,在批量大小為16的情況下,總共進行了270k次迭代的訓練。我們在所有的實驗中保持了相同的超參數。我們使用平均精度均值(mAP)作為評估指標,結果如表1所示。
表1:檢測和分割結果
我們還評估了學習與驗證集完全匹配的理想表示的意義。在這種情況下,我們將源標注與目標標注進行比較,將源視為模型預測,目標視為地面真實數據。我們交替使用MS-COCO和Sama-COCO作為源和目標,以確保評估的公平性。結果如表2所示。
表2: 當將源數據集視為針對目標數據集的預測時,檢測和分割結果
討論
我們要先說明,沒有任何數據集是完美的,Sama-COCO也不比MS-COCO更好或更差。每個數據集都會不可避免地存在一些偏差,但是不同形式的偏差會對神經網絡的性能產生不同的影響。這可以通過比較不同數據集的基準測試結果來觀察。
當我們比較兩個數據集中的匹配實例時,可以發現MS-COCO數據集中存在一些系統性的偏差。這些偏差有兩種不同的形式。第一種形式的偏差與多邊形的緊密程度有關。我們發現,平均表面距離較低的成對多邊形在輪廓上有輕微的差異。平均來說,Sama-COCO的多邊形比原始標注更貼合對象,但是過分割和欠分割實例的組合可能對真實的預測質量沒有影響,如果噪聲的期望值為零。也有可能,隨著網絡規模的增大,它們會適應這些輪廓中的偏差,從而誤導評估指標。在這種情況下,很難判斷神經網絡學習的表示的真實質量,因為評估它們的唯一方式也包含了偏差。
第二種形式的偏差與遮擋物和標注風格指南的處理和規定有關。Sama-COCO強調多邊形貼近可觀察到的像素,而原始數據集包含繞過遮擋物的多邊形。考慮遮擋物更適合像素級的實例分割任務,而忽略遮擋物更類似于定位任務。在這種隱性的偏差上訓練的神經網絡會以不同的方式學習解決這些任務。因此,任何機器學習從業者都必須了解他們的數據集與他們想要解決的下游任務之間的關聯性,并應該在數據收集階段注意標注標準和指南,以盡量減少頂層問題。合并具有沖突標注風格的數據集可能是不明智的,因為神經網絡的下游行為可能難以預測。
當我們查看檢測和分割任務的評估指標差異時,可以明顯看到網絡從與訓練數據集相同風格的評估中受益,如表1所示。這意味著性能與主觀的質量定義密切相關。如果我們使用額外的樣本來豐富數據集,但是樣本的風格分布發生了變化,那么網絡的性能可能會降低,這與我們的預期相反。這可以通過將一個數據集的驗證標注作為源,另一個數據集的驗證標注作為目標來理論上驗證。即使我們在另一個數據集上是完美的預測者,我們也會受到錯過的實例、邊界變形和細微差異的影響。還值得注意的是,一些最先進的檢測算法的性能優于我們的結果。這很有趣,因為框標注應該與多邊形的變化相對一致。這意味著網絡可能會過擬合訓練數據集中可能無法在另一個數據集中復現的特定信息類型。
結論
從討論中可以看出,數據集中的偏差可能導致一些不期望或意外的結果,這可能是有問題的。在實例分割中,標注方式的選擇會影響模型對遮擋對象的輸出。因此,在構建標注數據集時必須仔細考慮,以確保它們能夠反映真實世界應用中的需求。雖然Sama-COCO并不完全避免所有的標注錯誤,但它確實提供了一組高質量的標注,可以用于更好地探索標簽噪聲領域和對精確多邊形很重要的應用。
編輯:黃飛
-
神經網絡
+關注
關注
42文章
4776瀏覽量
100948 -
圖像分類
+關注
關注
0文章
90瀏覽量
11943 -
計算機視覺
+關注
關注
8文章
1699瀏覽量
46050 -
機器學習
+關注
關注
66文章
8428瀏覽量
132835 -
數據集
+關注
關注
4文章
1208瀏覽量
24749
原文標題:ICCV2023 基準測試:MS-COCO數據集的可靠嗎?
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論