上海交通大學(xué)自動(dòng)化系圖像處理與模式識(shí)別研究所黃曉霖副教授團(tuán)隊(duì),與魯汶大學(xué)、加州大學(xué)圣克魯茲分校的研究者合作,關(guān)注真實(shí)場(chǎng)景的防御,提出主動(dòng)對(duì)攻擊者實(shí)施攻擊,在保證用戶正常使用模型(無精度/速度損失)的同時(shí),有效阻止黑盒攻擊者通過查詢模型輸出生成對(duì)抗樣本。經(jīng)Rebuttal極限提分(2 4 4 5 -> 7 7 4 7),該研究已被機(jī)器學(xué)習(xí)頂級(jí)會(huì)議 NeurIPS 2022 錄用,代碼已開源。
【研究背景】
基于查詢分?jǐn)?shù)的攻擊(score-based query attacks, SQAs)極大增加了真實(shí)場(chǎng)景中的對(duì)抗風(fēng)險(xiǎn),因?yàn)槠鋬H需數(shù)十次查詢模型輸出概率,即可生成有效的對(duì)抗樣本。
然而,現(xiàn)有針對(duì)worst-case擾動(dòng)的防御,并不適用于真實(shí)場(chǎng)景中,因?yàn)樗麄兺ㄟ^預(yù)處理輸入或更改模型,顯著降低了模型的推理精度/速度,影響正常用戶使用模型。
因此,本文考慮通過后處理來防御,其自帶以下優(yōu)點(diǎn)
·有效防御基于查詢分?jǐn)?shù)的攻擊
· 不影響模型精度,甚至還能使模型的置信度更加準(zhǔn)確
· 是一種輕量化,即插即用的方法
可是在真實(shí)的黑盒場(chǎng)景中,攻擊者和用戶得到的,是相同的模型輸出信息,如何在服務(wù)用戶的同時(shí),防御潛在攻擊者?
【本文方法】
我們的核心思路是,測(cè)試階段主動(dòng)誤導(dǎo)攻擊者進(jìn)入錯(cuò)誤的攻擊方向,也就是對(duì)攻擊者發(fā)動(dòng)攻擊(adversarial attack on attackers, AAA)。如下圖所示,若我們將模型的(未經(jīng)防御的)藍(lán)色損失函數(shù)曲線,輕微擾動(dòng)至橙色或綠色的曲線,那么當(dāng)攻擊者貪婪地沿梯度下降方向搜索對(duì)抗樣本時(shí),將會(huì)被愚弄至錯(cuò)誤的攻擊方向。
具體的,我們的算法分為4步,對(duì)應(yīng)上圖中的4行
1. 計(jì)算未經(jīng)修改的原損失函數(shù)值,也就是上圖中的藍(lán)色曲線
2. 根據(jù)原損失函數(shù)值,計(jì)算出目標(biāo)損失函數(shù)值,即橙色或綠色曲線
3. 根據(jù)預(yù)先標(biāo)定的溫度T,計(jì)算出目標(biāo)置信度
4.優(yōu)化輸出的logits,使其同時(shí)擁有目標(biāo)損失函數(shù)值和目標(biāo)置信度
【實(shí)驗(yàn)結(jié)果】
如下左圖所示,對(duì)比藍(lán)線和橙線,我們的方法AAA,最小程度地?cái)_動(dòng)輸出,卻最大限度保留精度(Acc ↑),提升置信度的準(zhǔn)確度(expected calibration error, ECE ↓)。如右圖和下表所示,AAA相比現(xiàn)有方法,能有效地防止真實(shí)場(chǎng)景攻擊下的精度損失。
同時(shí),AAA能簡單地與現(xiàn)有防御結(jié)合,如對(duì)抗訓(xùn)練。
AAA是極其輕量化的防御,因?yàn)?strong>后處理操作的計(jì)算量很小,如下圖所示。
盡管攻擊者可以對(duì)AAA設(shè)計(jì)自適應(yīng)攻擊(adaptive attacks),但在真實(shí)場(chǎng)景中,自適應(yīng)攻擊的成本非常高。因?yàn)楹诤袌?chǎng)景下,攻擊者完全沒有模型的信息,更不用說其防御策略了。探索模型防御策略以設(shè)計(jì)自適應(yīng)攻擊,需要大量額外的查詢。更重要的是,自適應(yīng)攻擊者也很好愚弄,比如使用正弦類的目標(biāo)損失函數(shù)曲線以迷惑攻擊者,因?yàn)槠洳呗愿y被猜測(cè)。如下表所示,反向搜索和雙向搜索的自適應(yīng)攻擊,都可以被AAA-sine很好的防御。
【文章總結(jié)】
我們指出在真實(shí)場(chǎng)景下,一個(gè)簡單的后處理模塊,就可以形成有效,用戶友好,即插即用的防御。為了專門防御基于查詢分?jǐn)?shù)的攻擊,我們?cè)O(shè)計(jì)了對(duì)攻擊者的攻擊,通過細(xì)微的輸出擾動(dòng)干擾攻擊者。廣泛的實(shí)驗(yàn)表明我們的方法在抵御攻擊,精度,置信度準(zhǔn)確度,速度上,顯著優(yōu)于現(xiàn)有防御。
值得注意的是,抵御其他類型的攻擊并非本文關(guān)注的重點(diǎn)。我們的方法并不提升worst-case robustness,故不能防御白盒攻擊。我們也幾乎不改變模型決策邊界,故不能防御遷移攻擊和基于決策的查詢攻擊(decision-based query attacks)。
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4331瀏覽量
62610 -
模型
+關(guān)注
關(guān)注
1文章
3243瀏覽量
48836
原文標(biāo)題:NeurIPS 2022 | Rebuttal起死回生!對(duì)攻擊者的攻擊:一種真實(shí)場(chǎng)景下的防御
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論