不知道大家有沒有注意到,許多機器學習算法很容易受到幾乎不可察覺的輸入干擾的影響。到目前為止,我們還不清楚這種對抗干擾將為現實世界中機器學習應用的安全性帶來多大的風險,因為用于生成這種干擾的大多數方法要么依賴于詳細的模型信息(基于梯度的攻擊)或者置信度分數,例如類概率(基于分數的攻擊),而這兩種在大多數現實世界中都是不可用的。在許多這樣的情況下,目前我們需要后退到基于遷移的攻擊中,其中它依靠繁瑣的替代模型,需要訪問訓練數據,并可以被防御。在這里,我們強調了純粹依靠最終模型決策的攻擊的重要性。這種基于決策的攻擊是(1)適用于真實世界的黑盒模型,如自動駕駛汽車;(2)需要較少的知識,比基于遷移的攻擊更容易應用;(3)相較于基于梯度或基于分數的攻擊,它對于簡單的防御具有更強健的魯棒性。以往的攻擊只限于簡單的模型或簡單的數據集。而在本文中,我們引入邊界攻擊(Boundary Attack)——一種基于決策的攻擊,它從一個大的對抗性干擾開始,然后力求在保持對抗的同時減少干擾。這種攻擊在概念上是很簡單的,要求接近沒有超參數的調整,并且在像ImageNet這樣的標準計算機視覺任務中,可以與最好的基于梯度的攻擊相媲美。我們將這個攻擊應用于Clarifai.com中的兩個黑盒算法。特別是邊界攻擊以及基于決策的類攻擊,為研究機器學習模型的魯棒性開辟了新的途徑,并提出了關于部署機器學習系統安全性的新問題。這個攻擊的實現可以作為Foolbox的一部分。
圖1 :(左)對抗攻擊方法的分類。邊界攻擊適用于現實世界中機器學習算法,因為它只需要訪問模型的最終決策(例如類標簽或轉錄句子),而不依賴于模型的信息,如梯度或置信度分數。(右)應用于Clarifai品牌識別模型的案例。
一般說來,應用于計算機視覺、語音識別和其他領域中的許多高性能機器學習算法易受到其輸入的微小變化的影響(Szegedy等人于2013年提出)。我們可以舉一個具體的例子來說明這一點,比如像VGG-19這樣一個在目標識別中訓練的先進的深度神經網絡可以將圖像中的主要目標準確地識別為虎貓(tiger cat),但是如果以某種特定的方式對像素值進行輕微的干擾,那么同一網絡的預測結果將會徹底改變(比如將其識別為公交車)。這些所謂的對抗性干擾在許多機器學習模型中是普遍存在的,而且往往不被人類所感知。一般情況下,我們將力求找到這種對抗性干擾的算法稱之為為對抗性攻擊。
這種對抗性干擾引起了人們對于兩個方面的關注。一方面,他們擔心已部署的機器學習算法的完整性和安全性,比如自動駕駛汽車或人臉識別系統。路牌上(例如,將停車標志變成200公里/小時的速度限制)或路燈上(例如,將紅燈變成綠燈)的微小干擾可能造成嚴重的后果;另一方面,對抗性干擾為人類和機器的感官信息處理之間的差距提供了一種關注焦點,并因此為更具魯棒性、更加人性化的體系架構提供了指導。
對抗攻擊大致可以分為三類:基于梯度的、基于分數的和基于遷移的攻擊(參見圖1)。基于梯度的攻擊和基于分數的攻擊通常被分別表示為白盒攻擊和oracle攻擊,但我們試圖盡可能地明確在每個類別中所使用的信息。影響所有這些類別的攻擊的一個嚴重問題是,它們直截了當地進行防御:
?基于梯度的攻擊:大多數現有的攻擊都依賴于詳細的模型信息,包括輸入的損失的梯度。
防御:防御基于梯度的攻擊的一種簡單方法是對梯度進行掩碼操作,例如通過隱式地增加不可微的元素,比如防御性精煉或飽和的非線性,再或者通過明確地添加不可微的分類器。
?基于分數的攻擊:一些攻擊更加不可知,只依賴于模型的預測分數(例如類概率或邏輯)。
防御:通過在模型中加入像dropout這樣的隨機元素,從而可以直接嚴重阻礙對數值梯度的估計。此外,許多魯棒的訓練方法在樣本周圍引入了一個極值點,它們不僅對梯度本身進行了掩碼,而且還對其數值估計進行了掩碼。
?基于遷移的攻擊:基于遷移的攻擊并不依賴于模型信息,而是需要關于訓練數據的信息。該數據用于訓練一個完全可觀察的替代模型,而該模型可以合成對抗干擾。它們依賴于經驗觀察,即對抗樣本經常在模型之間遷移。
防御:最近針對遷移攻擊的一種防御方法,是基于通過對由替代模型的對抗樣本增強的數據集進行的健壯性訓練,而它已經證明,在2017年的Kaggle 對抗攻擊競賽中,它幾乎可以成功防御所有攻擊(https://www.kaggle.com/c/nips-2017-defense-against-adversarial-attack)。
?基于決策的攻擊:直接攻擊,完全依賴于模型的最終決策(例如第一類標簽或被轉錄的句子)。
這個劃分類別是合理的,原因如下:首先,相較于基于分數的攻擊,基于決策的攻擊與真實世界的機器學習應用程序關聯更大,其中,在這些應用程序中,很難獲得置信度分數或logit。與此同時,相較于其他類別的攻擊,基于決策的攻擊有可能對標準防御(如梯度掩碼、固有隨機性或魯棒性訓練)具有更穩健的魯棒性。最后,與基于遷移的攻擊相比,它們所需要的模型(架構和訓練數據)信息要少得多,而且要簡單得多。
目前還沒有有效的基于決策的攻擊能夠擴展到像ImageNet這樣的自然數據集中,且能夠適用于深度神經網絡(DNN)。先前最相關的研究是遷移攻擊的一個變體,其中用于學習替代模型的訓練集被替換為合成數據集。這個合成數據集是由攻擊者以及替代模型的訓練生成的。每個合成樣本的標簽都是從黑盒模型中抽取的。雖然這種方法可以很好地處理內部類的可變性很低的數據集(比如MNIST),但是這并不表明它可以擴展到諸如CIFAR或ImageNet這樣更為復雜的自然數據集中。其他基于決策的攻擊是特定于線性或凸誘導性(convex-inducing classifiers)分類器,并不適用于其他機器學習模型。Biggio等人于2013所進行的研究基本上處于遷移攻擊和基于決策的攻擊之間,其中,替代模型是在從黑盒模型中觀察到的標簽的數據集上進行訓練的。這種攻擊仍然需要關于黑盒模型訓練的數據分布知識,所以我們不認為這是一個純粹的基于決策的攻擊。最后,一些樸素攻擊,比如沿著一個隨機方向偏離原始樣本的路線搜索,我們可以將其稱之為基于決策的攻擊,但它們引發了巨大的、非常明顯的干擾,而這些干擾要比典型的基于梯度的、基于分數的或基于遷移的攻擊要大得多。
在整篇論文中,我們主要關注威脅情景,在這種情景下,攻擊者的目標是通過對樣本產生最小干擾來改變特定輸入樣本的模型的決策(無論是有針對性還是無針對性)。攻擊者可以觀察模型對于任意輸入的最終決策,并且知道至少一個干擾,但是大的干擾樣本是對抗的。
本文的貢獻如下:
?我們強調基于決策的攻擊是與現實應用高度相關的對抗攻擊的一個重要類別,對衡量模型的魯棒性非常重要。
?我們引入了第一個有效的基于決策的攻擊,可擴展到復雜的機器學習模型和自然數據集。 邊界攻擊(1)在概念上非常簡單,(2)極其靈活,(3)只需要很少的超參數調整,(4)在有針對性和無針對性計算機視覺場景中能夠與最好的基于梯度的攻擊相媲美。
?我們表明,邊界攻擊能夠打破以前建議的防御機制,如防御性精煉。
?我們在Clarifai.com網站上展示了邊界攻擊在兩個黑盒機器學習模型上的實用性,用于品牌和名人識別。
由邊界攻擊生成的對抗樣本,三個案例分別基于MNIST、CIFAR、ImageNet。對于MNIST,差異顯示為正(藍色)和負(紅色)變化。對于CIFAR和ImageNet,我們采用顏色通道規范。所有差異都已被放大,以提高能見度。
無針對性攻擊的例子。這里的目標是在錯誤分類(原始圖像被正確分類)的同時,合成與原始圖像盡可能接近的圖像。對于每個圖像,我們報告直到該點(圖像上方)的模型調用(預測)的總數以及對抗及原始(圖像下方)之間的均方誤差。
在本文中,我們強調了一個大多數被忽視的對抗性攻擊類型的重要性——基于決策的攻擊, 可以在模型中找到對抗樣本,其中,只有最后的決策才能被觀察到。我們認為,這個類型的重要性原因有三:首先,這個類型的攻擊與許多真實世界中部署的機器學習系統(如內部決策過程是不可觀測的自動駕駛汽車)高度相關;其次,這個類別的攻擊不依賴于在被攻擊的模型上進行相似的數據訓練的替代模型,從而使實際的應用更加直截了當。第三,這個類別的攻擊有可能對諸如梯度掩碼,內在隨機性或魯棒訓練等常見欺騙行為具有更強的可靠性。
我們還引入了第一個適用于通用機器學習算法和復雜自然數據集的有效攻擊:邊界攻擊。 邊界攻擊的核心是遵循對抗和非對抗樣本之間的決策邊界,采用非常簡單的拒絕抽樣算法(rejection sampling algorithm),結合簡單的建議分布(proposal distribution)和信賴域方法(Trust Region methods)啟發的動態步長調整。其基本的工作原理——從一個大的干擾開始,并逐漸減少——基本上推翻了了所有以前對抗攻擊的邏輯。除了出奇的簡單之外,邊界攻擊在可能的對抗標準方面也是非常靈活的,并且能夠在基于最小干擾大小的標準計算機視覺任務上與基于梯度的攻擊相提并論。
事實上,簡單約束的獨立同分布的高斯分布可以作為邊界攻擊每一步的有效建議干擾是出乎意料的,并揭示了當前計算機視覺體系結構信息處理的脆弱性。盡管如此,邊界攻擊還有很多方法可以更加有效,特別是通過某個特定模型學習適當的建議分布,或者通過對最近成功或失敗的建議歷史進行調整建議分布。
基于決策的攻擊對于評估機器學習模型的魯棒性以及突出像自動駕駛汽車這樣的閉源機器學習系統的安全風險具有高度的相關性。我們希望邊界攻擊能夠促進在這一領域進行更深入的研究。
-
神經網絡
+關注
關注
42文章
4777瀏覽量
100997 -
機器學習
+關注
關注
66文章
8434瀏覽量
132875
原文標題:德國圖賓根大學發布可擴展「對抗黑盒攻擊」,僅通過觀察決策即可愚弄深度神經網絡
文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論