對抗攻擊通常會使得神經網絡分類錯誤,但谷歌大腦團隊的Ian Goodfellow 等人的新研究提出一個更加復雜的攻擊目標:對神經網絡重新編程,誘導模型執行攻擊者選定的新任務。該研究首次表明了神經網絡驚人的脆弱性和靈活性。
對抗樣本(adversarial examples)的研究一般是為了預防攻擊者通過對模型的輸入進行微小的修改,從而導致模型的預測產生偏差。這樣的攻擊者可能通過一張貼紙(一個小的擾動)就讓無人駕駛汽車對停車標志產生反應,或者通過精巧地修改損害情況的照片(一個小的擾動)導致保險公司的損失模型高估了事故的賠償值。考慮到這些,研究人員們提出了很多方法來構建以及抵抗這種對抗性攻擊(adversrial attacks)。
迄今為止,大多數的對抗性攻擊主要由無目標攻擊(untargeted attacks)和有目標攻擊(targeted attacks)組成。無目標攻擊旨在降低模型的性能,但不一定需要產生一個特定的輸出;而有目標攻擊旨在對模型設計一個對抗性干擾的輸入,從而產生一個特定的輸出。例如,對一個分類器的攻擊可能是為了針對每張圖像得到特定的輸出類別,或者,對一個強化學習智能體的攻擊可能是為了誘導該智能體進入一個特定的狀態。
近日,谷歌大腦的 Gamaleldin F. Elsayed、Ian Goodfellow 和 Jascha Sohl-Dickstein 等人的新研究考慮了一個更加復雜的攻擊目標:在不需要攻擊者計算特定期望輸出的情況下,誘導模型執行攻擊者選定的一個任務。
對抗性重編程
考慮一個訓練用來執行一些原始任務的模型:對于輸入,它將產生輸出。考慮一個敵人(adversary),它希望執行一個對抗的任務:對于輸入(不一定和x在同一個域),敵人希望計算一個函數。我們證明敵人可以通過學習對抗性重編程函數( adversarial reprogramming? functions)和來實現這一點,這兩個函數是兩個任務之間的映射。這里,hf 將來自x?的域的輸入轉換成的域。
在這項工作中,為了簡單起見,并且為了獲得高度可解釋的結果,我們將定義為小圖像(small images),g是處理小圖形的函數,只包括在大圖像的中心繪制,在邊框中繪制θ,而只是輸出類標簽之間的硬編碼映射。?
然而,這個想法更具通用性;可以是在兩個任務的輸入(輸出)格式之間轉換的任何一致性轉換,并使模型執行對抗性任務。
我們指的是一類攻擊,在這種攻擊中,機器學習算法被重新用于執行一項新的任務,即對抗性重編程(adversarial reprogramming)。我們將θ稱為對抗程序( adversarial program)。與以往大多數對抗樣本的研究相比,這種擾動的幅度不需要受到限制。這種攻擊不需要使人類察覺不到,或是需要很微妙才被認為是成功的。對抗性重編程的潛在后果包括:從公共服務中竊取計算資源,或將AI驅動的助理改造成間諜機器人或垃圾郵件機器人。
在這篇文章中,我們介紹了對抗性重編程的第一個實例。我們提出一種設計對抗程序的訓練過程,對抗程序將導致神經網絡執行新的任務。在實驗部分,我們演示了針對用于ImageNet數據分類的幾個卷積神經網絡的對抗程序。這些對抗程序將網絡的功能從ImageNet分類改變成:對圖像中的方塊進行計數;對MNIST的數字進行分類,對CIFAR-10圖像進行分類。我們還研究了訓練好的和未訓練的網絡對對抗性重編程的易感性。
方法
我們提出的攻擊場景如下:當執行一個特定任務時,敵人已經獲取了神經網絡的參數,并希望通過使用一個可以加入到網絡輸入中的攻擊程序來操縱網絡的函數,以此來執行一個新的任務。在這里,我們假設原始的網絡是用來執行ImageNet分類的,但是本文討論的方法是具有可擴展性的。
我們的對抗性程序將作為網絡輸入的附加貢獻。值得注意的是,不像其他大多數對抗性干擾,我們的對抗性程序并不針對單一的圖像。同樣的對抗性程序將應用到所有的圖像中。我們將對抗性程序定義為:
其中,是將要學到的對抗性程序的參數,n是ImageNet圖像的寬度,M是一個masking矩陣。值得注意的是,M并不是必需的。
讓作為我們所希望應用到對抗性任務中數據集的一個樣本,其中。那么相應的對抗性圖像可表示為:
給定一個輸入圖像,使,它是將對抗性任務中的一個標簽映射到一個ImageNet標簽集合。至此,我們對抗性的目標就是將概率最大化。于是,我們將優化問題設置為:?
實驗結果
1. 計算圖像中的方格數
首先從簡單的對抗性任務開始,即計算圖像中的方格數。結果如圖所示:
圖1:對抗性重編程的說明。
(a)將ImageNet標簽映射到對抗性任務的標簽(圖像中的方塊)。
(b)對抗性任務中的圖像(左側)是嵌入在一個對抗性問題中的(中間),產生對抗性圖像(右側)。
(c)利用對抗性圖像進行推測的說明。
2. MNIST分類
圖2:為MNIST分類進行對抗性編程的例子。
對抗性程序導致6個ImageNet模型轉而用作MNIST分類器。
3. CIFAR-10分類
圖3:CIFAR-10分類中對抗性圖像的例子(圖注)
對抗性程序重新利用一個Inception V3 模型作為CIFAR-10分類器的替代函數。
表:訓練好的ImageNet分類器可以對抗性地再編程來執行多種任務
4. 再次編程未訓練以及對抗性訓練過的網絡
圖4:對抗性程序不論在網絡還是任務中都表現出質的相似性和不同性。
(a)頂部:將在ImageNet上預訓練的網絡重新利用來計算圖像中方塊數量的對抗性程序。
中部:將在ImageNet上預訓練的網絡作為MNIST分類器函數的對抗性程序。
底部:對抗性程序將相同的網絡作為CIFAR-10分類器。
(b)針對具有隨機初始化參數的重組網絡,對抗性程序將其作為MNIST分類器。
-
谷歌
+關注
關注
27文章
6172瀏覽量
105625 -
神經網絡
+關注
關注
42文章
4773瀏覽量
100890 -
圖像
+關注
關注
2文章
1087瀏覽量
40500
原文標題:Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論