異常檢測任務(wù)旨在識別明顯偏離正常數(shù)據(jù)分布的異常值,在工業(yè)檢驗、醫(yī)學(xué)診斷、視頻監(jiān)控和欺詐檢測等多個領(lǐng)域都發(fā)揮了重要作用。傳統(tǒng)的異常檢測方法主要依賴于描述正常數(shù)據(jù)分布以進(jìn)行正異常樣本的區(qū)分。然而,對于實際的應(yīng)用而言,異常檢測也需要理解數(shù)據(jù)的高層語義,從而深入理解 “什么是異常”。
要實現(xiàn)更準(zhǔn)確且智能的異常檢測,我們需要關(guān)注以下關(guān)鍵步驟:
1. 理解多樣數(shù)據(jù)類型和類別
不同領(lǐng)域的數(shù)據(jù)集包含各種數(shù)據(jù)類型和類別,如圖像、視頻、點云、時間序列等。每種數(shù)據(jù)類型可能需要不同的異常檢測方法,每個物體類別可能對應(yīng)不同的正常標(biāo)準(zhǔn),因此深入理解數(shù)據(jù)的多樣性至關(guān)重要。
2. 確定正常狀態(tài)標(biāo)準(zhǔn)
一旦理解了數(shù)據(jù)的類型和類別,我們需要推斷正常狀態(tài)的標(biāo)準(zhǔn)。這需要高級數(shù)據(jù)語義信息的理解,以確保我們能夠正確識別正常數(shù)據(jù)的特征和模式。
3. 評估數(shù)據(jù)的符合度
最后,我們需要評估提供的數(shù)據(jù)是否符合已建立的正常數(shù)據(jù)分布。任何偏離這些數(shù)據(jù)分布的情況都可以被歸類為異常。
最近,大型多模態(tài)模型(LMM)迅猛發(fā)展,其中 OpenAI 最近推出的 GPT-4V (ision) 表現(xiàn)最為出色,具有強大的多模態(tài)感知能力,在場景理解,圖片生成等多個任務(wù)中都取得了良好表現(xiàn)。我們認(rèn)為,LMM 的出現(xiàn)為通用異常檢測的研究提供了新的范式和新的機會。
為了評估 GPT-4V 在通用異常檢測中的性能,來自華中科技大學(xué)、密歇根大學(xué)和多倫多大學(xué)的研究者聯(lián)合進(jìn)行了一項研究,在涉及 4 個數(shù)據(jù)模態(tài),9 個異常檢測任務(wù)的 15 個異常檢測數(shù)據(jù)集上對 GPT-4V 進(jìn)行了全面的測試。具體而言,測試的數(shù)據(jù)集包括圖像、點云、視頻、時序等模態(tài),并涵蓋了工業(yè)圖像異常檢測 / 定位,醫(yī)療圖像異常檢測 / 定位,點云異常檢測,邏輯異常檢測,行人異常檢測,交通異常檢測,時序異常檢測等 9 個異常檢測任務(wù)。
論文地址:https://arxiv.org/pdf/2311.02782.pdf
項目地址:https://github.com/caoyunkang/GPT4V-for-Generic-Anomaly-Detection
觀察與分析
本文在多種模態(tài)和領(lǐng)域的異常檢測數(shù)據(jù)集上對 GPT4V 的性能進(jìn)行了測試。我們認(rèn)為,GPT4V 已經(jīng)初步具備了多模態(tài)的通用異常檢測能力。具體而言,GPT-4V 不僅能夠有效理解多樣數(shù)據(jù)類型和類別,而且可以建模正常數(shù)據(jù)的空間分布,并評估測試數(shù)據(jù)的分布情況。
除此以外,GPT-4V 在異常檢測任務(wù)中還具有以下特點:
GPT-4V 能夠在零 / 單樣本下處理多模態(tài)、多領(lǐng)域的異常檢測任務(wù)
多模態(tài)異常檢測:GPT-4V 可有效處理多種模態(tài)數(shù)據(jù)的異常檢測任務(wù)。例如,它在識別圖像、點云、MRI、X-ray 等數(shù)據(jù)模態(tài)上均表現(xiàn)出了不俗的異常檢測能力。多模態(tài)異常檢測能力使 GPT-4V 能夠突破傳統(tǒng)單模態(tài)異常檢測器的限制,完成現(xiàn)實世界的復(fù)雜異常檢測任務(wù)。
多領(lǐng)域異常檢測:GPT-4V 在工業(yè)、醫(yī)療、行人、交通和時間序列異常檢測等多個領(lǐng)域表現(xiàn)優(yōu)異。
零 / 單樣本下的異常檢測:GPT-4V 在零樣本及單樣本(即提供了一張正常的參考圖片)任務(wù)中均表現(xiàn)不俗。在沒有參考圖像的情況下,GPT-4V 可以有效地使用語言提示信息來檢測異常。當(dāng)提供正常參考圖像時,GPT-4V 能夠更好的對齊文本格式的正常標(biāo)準(zhǔn)與正常的圖像內(nèi)容,其異常檢測準(zhǔn)確性進(jìn)一步提高。
GPT-4V 可以理解異常檢測任務(wù)所需的全局和細(xì)粒度語義
全局語義理解能力:GPT-4V 對全局語義的理解能力表現(xiàn)在它能夠識別整體的異常模式或行為。例如,在交通異常檢測中,它可以分辨正常的交通流和不規(guī)則事件之間的區(qū)別,并且提供了關(guān)于異常檢出的詳細(xì)解釋。這種全局理解使其非常適合在開放世界中識別偏離正常分布的異常點。
細(xì)粒度語義理解能力:GPT-4V 對細(xì)粒度語義的理解能力在一些情況下表現(xiàn)出色,使得它不僅能夠檢測異常,還能夠精確地在復(fù)雜數(shù)據(jù)中定位異常。例如,在工業(yè)圖像異常檢測中,它可以準(zhǔn)確定位細(xì)節(jié),如傾斜的蠟燭燭芯、瓶口周圍的輕微劃痕。這種細(xì)粒度理解增強了它在復(fù)雜數(shù)據(jù)中檢測微小異常的能力,從而提高了其整體檢測。
GPT-4V 具備自動推理異常檢測的能力
GPT-4V 能夠根據(jù)復(fù)雜的正常標(biāo)準(zhǔn)自動推理、拆分子任務(wù)。例如,在邏輯異常檢測中,GPT-4V 能夠理解所給的正常圖像標(biāo)準(zhǔn),并拆分為子任務(wù),依次檢驗圖像內(nèi)容是否滿足指定內(nèi)容。這種內(nèi)在的推理能力增強了其異常檢測結(jié)果的可解釋性,使其成為理解和解決通用異常檢測的有效工具。
GPT-4V 可以通過增加提示進(jìn)一步增強異常檢測能力
評估結(jié)果顯示,提供更多文本和圖像信息對 GPT-4V 的異常檢測性能有積極影響。通過增加類別信息、人類專業(yè)知識、參考圖像,模型獲得了更多的上下文信息,異常檢測性能也得到顯著提升。該特點允許用戶通過提供相關(guān)的補充信息來微調(diào)和增強模型的性能。
GPT-4V 在實際應(yīng)用中可能受到限制,但仍具有潛力
本報告發(fā)現(xiàn) GPT-4V 在實際應(yīng)用中仍面臨一些挑戰(zhàn)。例如,GPT-4V 可能在處理工業(yè)應(yīng)用中的復(fù)雜場景時面臨困難,導(dǎo)致其出現(xiàn)錯誤檢測。醫(yī)療領(lǐng)域的倫理約束也使其在判斷腫瘤等異常情況時趨于保守。但我們相信它在各種異常檢測任務(wù)中仍然具有潛力。為了有效解決這些挑戰(zhàn),可能需要進(jìn)一步增強、專門的精細(xì)調(diào)整或補充技術(shù)。總結(jié)而言,GPT-4V 在通用異常檢測中具有明顯潛力,有望開啟異常檢測任務(wù)的高層次感知時代。
應(yīng)用場景展示
工業(yè)圖像異常檢測
工業(yè)圖像異常檢測旨在維護產(chǎn)品質(zhì)量,是制造過程的重要環(huán)節(jié)。近年來,許多方法在此領(lǐng)域蓬勃發(fā)展,其中一些方法著眼于開發(fā)適用于任意產(chǎn)品類別的統(tǒng)一模型。本研究探討了 GPT-4V 在工業(yè)圖像異常檢測中的應(yīng)用,包括對不同類型的信息進(jìn)行測試,以及展示其性能和局限性。
我們從工業(yè)圖像中選擇了幾個示例,如瓶子和蠟燭的圖像。即使只提供簡單的語言提示,GPT-4V 能夠有效地識別這些圖像中的異常,展示了其能力和多樣性。此外,GPT-4V 不僅能夠檢測期望的異常,還能夠識別微觀結(jié)構(gòu)異常。在復(fù)雜情況下,如電路板中的異常檢測,GPT-4V 能夠識別圖像中的細(xì)節(jié),但也存在一定的局限性。總的來說,GPT-4V 在圖像上下文理解和類別特定異常理解方面表現(xiàn)出色。
工業(yè)圖像異常定位
與工業(yè)圖像異常檢測不同,工業(yè)圖像異常定位旨在精確識別異常的位置。為了實現(xiàn)這一目標(biāo),我們采用了與 SoM(Set-of-mark)類似的方法,使用圖像 - 掩模對來提示 GPT-4V。我們研究了 GPT-4V 在不同場景下的表現(xiàn),展示了其在細(xì)粒度異常定位方面的能力和局限性。
我們展示了 GPT-4V 在工業(yè)圖像異常定位中的性能,包括定位彎曲的電線、堅果上的空洞以及識別電路板異常。GPT-4V 在一些情況下能夠準(zhǔn)確識別異常位置,例如能夠有效定位堅果中的空洞,并且由于結(jié)合了視覺提示技術(shù),GPT-4V 將異常定位問題轉(zhuǎn)化為了對掩膜的分類問題,有效降低了問題復(fù)雜度,且提升了定位精度。因此,結(jié)合視覺提示技術(shù)和 GPT-4V 可有效解決工業(yè)圖像異常定位問題。
點云異常檢測
點云異常檢測在工業(yè)領(lǐng)域具有重要作用。CPMF 提出了一種新方法,將點云轉(zhuǎn)化為深度圖像,以利用圖像基礎(chǔ)模型來提高點云異常檢測的性能。我們借助 CPMF,將點云轉(zhuǎn)為深度圖像,從而使得 GPT-4V 可處理點云異常檢測任務(wù)。
我們展示了 GPT-4V 在點云異常檢測中的性能,包括識別袋圈中的小突起、檢測繩子上的異常以及查找工件中的異常。GPT-4V 能夠有效地識別這些異常,但在某些情況下也存在局限性,特別是在渲染質(zhì)量較低的情況下。總的來說,GPT-4V 在點云異常檢測中表現(xiàn)出了潛力。
邏輯異常檢測
邏輯異常檢測任務(wù)由 MVTec LOCO 數(shù)據(jù)集提出。該任務(wù)通常出現(xiàn)在裝配過程中,需要識別各個組件是否正確組合。現(xiàn)有的邏輯異常檢測方法通常依賴于視覺全局 - 局部對應(yīng)關(guān)系,但本質(zhì)上并沒有真正理解圖像內(nèi)容。我們研究了 GPT-4V 在邏輯異常檢測中的應(yīng)用,探討了其對圖像內(nèi)容的理解能力。
我們展示了 GPT-4V 在邏輯異常檢測中的性能,包括識別復(fù)雜的邏輯規(guī)則、檢測邏輯異常并提供詳細(xì)的解釋。盡管 GPT-4V 在大多數(shù)情況下能夠準(zhǔn)確識別邏輯異常,但在某些復(fù)雜情況下存在一定的局限性,尤其是對于細(xì)節(jié)問題。不過,結(jié)合多輪對話和特定語言提示有望顯著改善 GPT-4V 在這些情況下的性能。
醫(yī)學(xué)圖像異常檢測
醫(yī)學(xué)圖像異常檢測是醫(yī)學(xué)影像領(lǐng)域的關(guān)鍵任務(wù),旨在識別不符合預(yù)期數(shù)據(jù)分布的異常值。我們研究了 GPT-4V 在醫(yī)學(xué)圖像異常檢測中的應(yīng)用,包括不同疾病和成像模式的醫(yī)學(xué)圖像。我們測試了 GPT-4V 的泛化能力,揭示了其在醫(yī)學(xué)圖像異常檢測中的性能和局限性。
我們展示了 GPT-4V 在醫(yī)學(xué)圖像異常檢測中的性能,包括識別不同疾病和成像模式的異常圖像。即使只提供簡單的語言提示,GPT-4V 能夠有效地識別異常,并提供詳細(xì)的解釋。此外,引入更多信息,如疾病信息和專業(yè)知識,可以進(jìn)一步提高 GPT-4V 的性能。然而,GPT-4V 在某些情況下可能會產(chǎn)生錯誤的異常檢測,因此仍需要醫(yī)生的最終判斷。
醫(yī)學(xué)圖像異常定位
在檢測到醫(yī)學(xué)異常后,需要進(jìn)一步精確定位醫(yī)學(xué)圖像中存在的異常,例如病灶等。對醫(yī)學(xué)圖像異常的準(zhǔn)確的定位可有效幫助臨床醫(yī)生理解病理的程度和性質(zhì)。然而,在現(xiàn)實世界的醫(yī)學(xué)圖像異常定位任務(wù)中使用 GPT-4V 直接預(yù)測異常掩膜十分困難。受到 SoM 的啟發(fā),我們希望測試 GPT-4V 模型在視覺提示下的異常定位能力。
結(jié)合 SoM,我們標(biāo)定了醫(yī)療圖像中可能存在的異常位置。在圖像中的視覺提示指導(dǎo)下,GPT-4V 傾向于學(xué)習(xí)和描述標(biāo)記周圍的區(qū)域。對于容易識別和定位的案例,GPT-4V 可以清楚地區(qū)分異常區(qū)域和背景。但在一個人工合成異常的案例中,由于感興趣區(qū)域與背景具有相似的紋理和形狀,GPT4V 的判斷出現(xiàn)了偏差。這表明該模型在對抗攻擊和復(fù)雜背景下仍需要增強其檢測和定位能力。
交通檢測
交通檢測是城市交通管理和自動駕駛領(lǐng)域的關(guān)鍵任務(wù),它旨在監(jiān)測交通情況,檢測交通違規(guī)行為和危險情況。我們研究了 GPT-4V 在交通檢測中的應(yīng)用,包括車輛識別、交通標(biāo)志識別和交通違規(guī)檢測。我們測試了 GPT-4V 在不同場景下的性能,展示了其潛力和局限性。
我們展示了 GPT-4V 在交通檢測中的性能,包括識別不同類型的車輛、檢測各種交通標(biāo)志和識別交通違規(guī)行為。GPT-4V 能夠有效地處理這些任務(wù),尤其是在規(guī)范場景下。然而,在復(fù)雜交通環(huán)境中,性能可能會下降,因為它需要理解并解釋復(fù)雜的情境。
行人檢測
行人檢測是自動駕駛、安全監(jiān)控和智能城市等領(lǐng)域的關(guān)鍵任務(wù),它旨在識別圖像或視頻中的行人。我們研究了 GPT-4V 在行人檢測中的應(yīng)用,測試了其對行人的識別能力和性能。
我們展示了 GPT-4V 在行人檢測中的性能,包括檢測行人在不同背景下的能力。GPT-4V 通常能夠識別行人,但在復(fù)雜背景下可能會出現(xiàn)錯誤。與專門的行人檢測模型相比,性能可能相對較差,但它的優(yōu)勢在于它能夠提供更多的語言解釋。
時序檢測
時序檢測是一種涉及到時間序列數(shù)據(jù)的異常檢測任務(wù),例如傳感器數(shù)據(jù)、金融時間序列等。我們研究了 GPT-4V 在時序檢測中的應(yīng)用,測試了其在分析和檢測時間序列異常方面的能力。
我們展示了 GPT-4V 在時序檢測中的性能,包括檢測傳感器數(shù)據(jù)中的異常、金融交易數(shù)據(jù)中的異常等。GPT-4V 在分析時間序列數(shù)據(jù)方面表現(xiàn)出色,能夠識別不同類型的異常情況。然而,需要注意的是,時序檢測通常需要更多的領(lǐng)域?qū)I(yè)知識,而 GPT-4V 在這些情況下可能需要結(jié)合專家的建議。
結(jié)論
GPT-4V 在工業(yè)圖像異常檢測、工業(yè)圖像異常定位、點云異常檢測、邏輯異常檢測、醫(yī)學(xué)圖像異常檢測、交通檢測、行人檢測和時序檢測等領(lǐng)域都展示出了出色的潛力。它能夠理解多模態(tài)數(shù)據(jù),對圖像內(nèi)容進(jìn)行有效理解,并在很多情況下都能準(zhǔn)確檢測并解釋異常。然而,在復(fù)雜場景中,GPT-4V 的異常檢測能力仍然存在一定的局限性。綜合來看,GPT-4V 為通用異常檢測提供了全新的研究范式,但其實際應(yīng)用仍需要進(jìn)一步的研究和改進(jìn)。
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24781 -
GPT
+關(guān)注
關(guān)注
0文章
358瀏覽量
15461 -
OpenAI
+關(guān)注
關(guān)注
9文章
1120瀏覽量
6627
原文標(biāo)題:GPT-4V在異常檢測上有多少強?華科大等最新測評來了!
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論