自動駕駛的安全性是非常值得關注的。而最近由北京航空航天大學、悉尼大學和劍橋大學的一項新研究表明,一張紙便可以“迷惑”AI自動駕駛系統。
一張簡單的涂鴉貼畫就能讓AI自動駕駛系統產生致命錯誤乃至車毀人亡!
來自北京航空航天大學(Beihang University)、悉尼大學(University of Sydney)和劍橋大學(University of Cambridge)的一項最新研究成果顯示,將一張用打印機簡單打印出來的涂鴉貼畫貼在路牌上就可以讓AI自動駕駛系統完全誤分類。
圖1 利用對抗補丁在真實世界中攻擊自動駕駛系統
如上圖所示,將生成的涂鴉貼畫貼在北航校園中標為“限速20km/h”的真實路牌上后,AI自動駕駛系統完全被誤分類,將其識別為“No Entry”(禁行)。該涂鴉貼畫在論文中被稱為 “對抗補丁”(adversarial patch),正是這塊補丁 “欺騙” 了 AI 自動駕駛系統,讓系統將該路牌誤分類,在top-5分類中都沒有正確標簽“限速20km/h”。
該團隊發表了題為Perceptual-Sensitive GAN for Generating Adversarial Patches的論文。該論文使用對抗生成網絡(GAN)來生成視覺保真度較好且與場景語義相關度較高的對抗補丁(如:路牌和貼畫,路牌和涂鴉等),可以在數字世界(digital-world)和物理世界(physical-world)完成對深度學習模型的攻擊,目前該論文已在全球人工智能頂級會議AAAI-2019上發表。
論文地址:
https://www.aaai.org/Papers/AAAI/2019/AAAI-LiuA.723.pdf
經實驗證實,用該方法生成的對抗補丁 (adversarial patch)具有穩定的攻擊效果,將其貼在路牌上后,不會影響人類對于路牌語義信息的認知,且由于場景語義相關性人類也不會感覺到“違和”;但是,該對抗補丁對于AI自動駕駛系統則是毀滅性的。例如,這種攻擊可能被惡意地用來攻擊自動駕駛系統,入侵者只要將一小片貼畫貼在路牌上,當自動駕駛汽車駛過時就可能會造成系統的致命錯誤,導致車禍產生。
使用對抗生成網絡(GAN)生成對抗補丁
該論文提出了一種使用對抗生成網絡來生成視覺保真度較好且與場景語義相關度較高的對抗補丁的方法(PS-GAN),并且結合系統分類器注意力信息使得補丁的攻擊具備穩定性。算法模型提出了一種Patch-to-patch translation的過程,將輸入的普通涂鴉圖片轉換生成為具有攻擊性的涂鴉圖片。算法的整體架構如下:
圖 2 算法PSGAN架構圖
為了達成效果,PSGAN的優化目標包含以下幾個部分:
提升視覺保真度和感知相關性
為了提升生成的對抗補丁的視覺保真度,他們引入了GAN損失函數:
同時,為了保持感知相關性并控制擾動在合適的范圍內,他們引入了patch損失函數:
對抗補丁的攻擊性
為了使產生的對抗補丁具有攻擊性,我們引入了attack損失函數的損失函數:
該損失函數的目標是讓生成的對抗補丁貼在圖片上后,深度學習模型分類器對于該圖片的正確類別的預測降低。
整體的優化函數
將整個優化過程轉化為對抗生成的極大極小優化過程:
模型的注意力敏感度
為了進一步提升對抗補丁的攻擊效果和穩定性,該論文選擇讓對抗補丁放置在深度學習模型分類敏感的位置。最直觀的思路是利用注意力機制(attention & saliency),選擇圖片中對于模型分類最敏感最重要的區域去放置對抗補丁實施攻擊。
實驗結果:自動駕駛真的安全嗎?
通過實驗結果評估 生成的對抗補丁的有效性。主要針對GTSRB和ImageNet數據集進行測試。
視覺效果
圖 3 不同算法生成的對抗補丁的視覺效果
通過上圖展示可以看出,作者提出的算法(第三行PSGAN)與其他對比算法相比,生成的對抗補丁具有非常好的視覺效果和語義相關性。對比算法生成對抗補丁一般都是比較雜亂的噪音,放置在圖片中顯得非常突兀;PSGAN生成的對抗補丁視覺效果較好,而且具備較高的語義相關性(如:猩猩與蘋果,路牌與涂鴉貼畫等)。
攻擊效果
為了驗證模型生成的對抗補丁的攻擊性,論文分別從白盒攻擊(white-box)和黑盒攻擊(black-box)的角度進行了測試。
在黑盒攻擊場景下,算法通過在一種模型上生成對抗補丁并遷移攻擊其它模型,可以從下表中看到,由PSGAN產生的對抗補丁具有很好的遷移攻擊性。這說明,入侵者可以不用了解目標AI自動駕駛系統所使用的算法模型,只需要使用該算法生成對抗補丁,就可以利用其遷移性實施攻擊。
圖 4 GTSRB數據集下模型在對抗補丁黑盒攻擊場景下的分類準確率
在白盒攻擊場景下,算法基于給定的模型生成對抗樣本并對該模型實施攻擊。生成的對抗補丁在保持較高語義相關性的同時,仍能具備較強的攻擊性。
與此同時,研究團隊為了驗證生成對抗補丁的攻擊性不是由于遮蓋了目標的關鍵信息,還使用了普通的 patch 進行了實驗。比如他們會使用普通的涂鴉貼畫貼在同樣的位置,通過結果看到,深度學習模型的分類準確率基本上沒有明顯的變化,這更證明了生成的對抗補丁的攻擊性。
圖 5 模型在對抗補丁白盒攻擊場景下的分類準確率(ImageNet只選擇了部分類別)
最后,為了驗證算法生成的對抗補丁的攻擊穩定性,論文還對算法訓練不同周期時生成的對抗補丁的攻擊性的效果進行了測試。如圖所示,可以看到PSGAN的攻擊性較為穩定,攻擊能力持續上升并最終保持穩定;而對比算法產生的對抗補丁的攻擊性則不穩定,訓練了幾百個epoch之后仍會產生較大的波動。
圖 6 算法攻擊穩定性
真實世界(physical-world)中的攻擊性
圖 7 真實世界中的攻擊
為了驗證算法生成的對抗補丁再真實世界中也具有攻擊性,論文選擇在北京航空航天大學校園中的真實路牌上(限速20km/h)進行驗證。作者使用普通的打印機將生成的對抗補丁打印出來,并貼在路牌的合適位置,選擇不同距離(1米,3米,5米)和角度(0°,15°,30°,-15°,-30°)拍照并測試深度學習模型的分類結果,其平均分類準確率從86.7%降低至17.2%。人類對于路牌語義信息沒有任何誤解,也不會對于貼畫感到“違和”,但是深度學習模型則產生了致命分類錯誤。
未來展望
雖然人工智能技術在各個領域都取得了巨大的成功過,但是人工智能安全問題仍不容忽視。近日,清華大學的朱軍教授所帶領的團隊提出了一種基于決策的黑盒攻擊方法——演化攻擊(Evolutionary Attack)來攻擊人臉識別系統[可加鏈接];比利時魯汶大學 (KU Leuven) 幾位研究人員最近的研究發現,借助一張簡單打印出來的對抗補丁,就可以大大降低監控系統對人類的識別率,可以將人隱藏起來。
與此同時,即使AI自動駕駛已經取得了成功并在現實世界中應用,但由北京航空航天大學(Beihang University)、悉尼大學(University of Sydney)和劍橋大學(University of Cambridge)的研究人員提出的算法PSGAN仍可以在黑盒場景下對其系統進行攻擊??梢哉f,這個方法將真實世界自動駕駛存在的安全漏洞極大地暴露了出來。
當然,對抗攻擊技術的進步也將催生更多對于模型魯棒性、穩定性和安全性的研究和發展。未來,如何打造安全、可靠的人工智能系統則顯得至關重要。
-
AI
+關注
關注
87文章
31325瀏覽量
269687 -
自動駕駛
+關注
關注
784文章
13904瀏覽量
166729 -
深度學習
+關注
關注
73文章
5511瀏覽量
121354
原文標題:危險!一張貼畫就能迷惑AI,對抗補丁或讓自動駕駛車毀人亡
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論