機(jī)器學(xué)習(xí)是現(xiàn)在大家都打了雞血想用或者在用的技術(shù)。但是,你以為只有好人能用它嗎?Too young too simple!
接下來,我將揭秘AI技術(shù)黑暗的一面——犯罪份子和人工智能的孽緣。
當(dāng)計(jì)算科學(xué)發(fā)展的不夠完善,還沒能解決啟發(fā)式問題的時(shí)候,很多安全問題都是利用規(guī)則來解決的,這些規(guī)則都是“死”的。
那時(shí)候沒人覺得計(jì)算機(jī)能夠破解密碼、讀出來驗(yàn)證碼內(nèi)容或者掌握馬路交通的規(guī)律。但是現(xiàn)在,人工智能發(fā)展極快,老掉牙的基于規(guī)則的安全保障系統(tǒng)輕而易舉的就被AI秒成渣。
驗(yàn)證碼和AI的不解情緣
當(dāng)我們上網(wǎng)的時(shí)候,最煩的就是驗(yàn)證碼,它老是來讓你填。這是計(jì)算機(jī)在確定你卻是是個(gè)“大活人”,而不是一個(gè)程序在惡意攻擊訪問它。
這樣做是因?yàn)樵蹅內(nèi)祟愑脩敉ㄟ^鼠標(biāo)鍵盤訪問某個(gè)網(wǎng)站或資源的這個(gè)操作,計(jì)算機(jī)都能用一段程序來同樣做到。
比如說,當(dāng)你連續(xù)三次在登陸Facebook的時(shí)候輸錯(cuò)密碼,網(wǎng)站肯定會(huì)跳出來一個(gè)驗(yàn)證碼來確定你是個(gè)活人而不是惡意暴力破解密碼的程序(當(dāng)然了,我會(huì)首先想到梯子被踹了)。Facebook還有很多公司的服務(wù)器都是這種安全措施,而這種安全措施都是用驗(yàn)證碼的,比如常見的驗(yàn)證碼長成這樣:
多年以來,驗(yàn)證碼都能有效的區(qū)分惡意攻擊代碼還有人類用戶。但是現(xiàn)在聰明AI時(shí)代到來了,驗(yàn)證碼在它面前仿佛就是送分題。
CNN(卷積神經(jīng)網(wǎng)絡(luò))就是一個(gè)很簡單的技術(shù)來破解驗(yàn)證碼,只要你能給他大量的驗(yàn)證碼學(xué)習(xí)數(shù)據(jù)集。每張驗(yàn)證碼都有一個(gè)特定的目標(biāo),識(shí)別文字或者識(shí)別物體之類的。
但是,這些問題在CNN面前都將形同虛設(shè)。上述說的只是一個(gè)簡單的栗子,沒太多的技術(shù)術(shù)語,只要知道簡單的神經(jīng)網(wǎng)絡(luò)的原理就能看懂。
既然驗(yàn)證碼的保護(hù)都不起作用了,暴力破解的威脅就更可怕了。你也許會(huì)說,我看到過更難的那種驗(yàn)證碼,就是從一堆圖片里找出個(gè)公交車或者找出路牌兒之類的那種(你肯定沒少上Youtube!) 。但其實(shí),它們對(duì)于AI來說也不難,你肯定聽說過谷歌大法的目標(biāo)檢測(cè)有多偉大,雖然谷歌僅僅把它作為搜索引擎的一個(gè)基礎(chǔ)功能來用。
GAN和密碼的那些事
注:GAN = Generative Adversarial Networks,讀音:干!翻譯是對(duì)抗生成網(wǎng)絡(luò)。
咱們的密碼一般不會(huì)設(shè)的特別奇怪,長這樣的畢竟是少類: 5f2#V0”P?oz3(幾乎就是異類了)。
差不多咱們的密碼都長成這樣:kronebourg1664,名字加數(shù)字大小寫什么好記還好輸入。
當(dāng)然了,也有少部分不怕死的這么設(shè)密碼:password(肯定老被盜)。
對(duì)于猜到第一種密碼,我天,太難了,不論是對(duì)人腦來說還是對(duì)一塊GTX 1080 GPU來說都太難猜中了(GTX 1080是一塊英偉達(dá)家的GPU,不只是能用來玩游戲,現(xiàn)在更多人用來跑深度學(xué)習(xí)工程)。
但是其他的密碼嘛,相對(duì)來說就容易一些了。所以我們?cè)趺床逻@些密碼呢?最簡單的方法就是翻一本厚厚的字典,然后將每個(gè)單詞都當(dāng)成密碼去試。這種情況下如果你也就能猜中用“password”當(dāng)密碼的童鞋了。
什么?你真的拿“password”當(dāng)密碼?哥們兒,英語不錯(cuò)呀,你怎么不試試拼音“mima”當(dāng)密碼?趕緊換一個(gè)靠譜的吧……
現(xiàn)在,來點(diǎn)高科技的,用AI來猜你的密碼。你以為AI還會(huì)翻字典?當(dāng)然不是,神經(jīng)網(wǎng)絡(luò)會(huì)自己產(chǎn)生一大堆密碼候選項(xiàng)。我們就用這堆候選來攻破你的密碼。很玄幻?讀一讀PassGAN這篇文章吧,下面這個(gè)圖講了這堆候選項(xiàng)是怎么產(chǎn)生的。
PassGAN:A Deep Learning Approach for Password Guessing的arxiv鏈接是:
https://arxiv.org/abs/1709.00440
就算你對(duì)神經(jīng)網(wǎng)絡(luò)很熟,這篇論文可能看起來也不是那么輕松。 這不是簡單的通過輸入來預(yù)測(cè)結(jié)果,它是先從數(shù)據(jù)里面學(xué)習(xí)數(shù)據(jù)的特點(diǎn),然后讓生成器生成一些具有類似特點(diǎn)的樣本出來的特殊網(wǎng)絡(luò)結(jié)構(gòu)。
專業(yè)上叫Generative Adversarial Network(對(duì)抗生成網(wǎng)絡(luò),一般簡寫成GAN,提出GAN的就是那個(gè)寫深度學(xué)習(xí)花書的大神古德菲洛)。GAN里面包括了兩個(gè)神經(jīng)網(wǎng)絡(luò),一個(gè)生成器和一個(gè)檢查器。
檢查器用于檢驗(yàn)輸入的數(shù)據(jù)是否合理,生成器用于來回折騰演化自己讓生成的數(shù)據(jù)能在檢查器眼皮子底下蒙混過關(guān)。
譯者注:這里有個(gè)鏈接,我覺得可以不加,因?yàn)榫褪窃谝粋€(gè)門戶里搜了一下神經(jīng)網(wǎng)絡(luò)關(guān)鍵詞的結(jié)果,毫無營養(yǎng)……然后那個(gè)啥,GAN的解釋我沒用原文,因?yàn)樘菰锪伺聞e人看不懂,我就結(jié)合自己的認(rèn)識(shí)寫了一個(gè),如果翻譯的不好的話再聯(lián)系我翻譯這句。
為了使用PassGAN,我們要有一個(gè)不知道哪兒來的真實(shí)的密碼數(shù)據(jù)集(也許是某東某訊某度泄漏的?)。從這個(gè)數(shù)據(jù)集里起碼能知道人們真正使用的數(shù)據(jù)集大概長成什么樣。一般就是有一些大寫字母,一些日期,一些隨機(jī)的數(shù)字,一些名字之類的。
然后呢,我們要用到一個(gè)噪聲產(chǎn)生器,就是生成一些隨機(jī)數(shù)用的。噪聲產(chǎn)生器和密碼數(shù)據(jù)集就是咱們神經(jīng)網(wǎng)絡(luò)模型的輸入了。
網(wǎng)絡(luò)的輸出就是二分類值,也就是說在有監(jiān)督訓(xùn)練的時(shí)候,網(wǎng)絡(luò)模型會(huì)被告訴說這個(gè)密碼是真實(shí)的還是假的。
在每次神經(jīng)網(wǎng)絡(luò)前向傳遞的時(shí)候,網(wǎng)絡(luò)的輸出都會(huì)跟真實(shí)的標(biāo)簽值進(jìn)行比較,然后帶著這個(gè)誤差值反向傳遞回去迭代修改網(wǎng)絡(luò)的權(quán)重。生成器也會(huì)跟著模型的訓(xùn)練而成長,因?yàn)殡S著網(wǎng)絡(luò)模型變化,生成器根據(jù)噪聲所產(chǎn)生的結(jié)果也越接近真實(shí)的密碼。
當(dāng)生成器訓(xùn)練完畢之后,之后我們?cè)佥斎胍粋€(gè)噪聲,網(wǎng)絡(luò)就能輸出一個(gè)特別真實(shí)的密碼。所以我們只要讓PassGAN運(yùn)行幾個(gè)小時(shí),就能得到一堆密碼候選項(xiàng)了。
AI和網(wǎng)絡(luò)釣魚的那些事兒
釣魚是很常見的黑客技術(shù)。你肯定收到過一些看著不太對(duì)勁的郵件,自稱是銀行、移動(dòng)聯(lián)通或者微博的人。然后郵件里面還給你一個(gè)鏈接,跳到一個(gè)能讓你中毒的網(wǎng)頁。
想做這樣一個(gè)釣魚郵件,你只要照著Facebook或者什么其他大公司的郵件樣式外觀和語言仿造一封即可。然后又見里面說你的軟件得更新,或者點(diǎn)開看看這里有什么驚喜,或者讓你填寫登陸信息等。
簡單粗暴還老套。不論你寫了什么,結(jié)果都會(huì)被發(fā)送到不法分子的服務(wù)器上。先不說這個(gè),AI是怎么跟釣魚勾搭上的?
機(jī)器學(xué)習(xí)里面有個(gè)利器叫爬蟲,它能通過爬取目標(biāo)網(wǎng)站的各種信息來改進(jìn)釣魚技術(shù)。通過爬蟲保存下來的數(shù)據(jù),黑客們能夠?qū)W習(xí)到這些網(wǎng)站的外觀,還有文字書寫的風(fēng)格,然后據(jù)此產(chǎn)出大量的假郵件然后大規(guī)模發(fā)送。但是有郵件不知道往哪兒發(fā)也是個(gè)問題。所以聰明的黑客還能通過前面咱們說的GAN技術(shù)來猜測(cè)郵件地址,這就增加了讓人上當(dāng)?shù)臋C(jī)會(huì)。
有的童鞋可能說了,現(xiàn)在我們用的郵箱里面都有反釣魚的安全措施~安全的很。但悲劇的是,現(xiàn)在的機(jī)器學(xué)習(xí)已經(jīng)知道怎么產(chǎn)生能夠通過釣魚檢查的釣魚郵件了!
訓(xùn)練集是這樣?jì)饍旱模淮蠖燕]件,一些郵件是被反釣魚攔住的,還有一些是能成功發(fā)送的。然后我們就能據(jù)此訓(xùn)練處一個(gè)神經(jīng)網(wǎng)絡(luò)模型,來知道釣魚算法是怎么檢測(cè)的。在不久的將來,釣魚郵件也許都是這種反釣魚巨網(wǎng)下的“漏網(wǎng)之魚”。
咳咳,總結(jié)一下
好消息是,目前只有三種被AI攻克的安全領(lǐng)域。壞消息是,還有巨多的場(chǎng)景正面臨著AI黑客的威脅,比如詐騙廣告等。但是我相信AI在合法的領(lǐng)域中應(yīng)用所帶來的好處要遠(yuǎn)大于不法之徒將它們用于作惡上的壞處。
其實(shí),挺諷刺的,現(xiàn)在有很多將人工智能用于偵破犯罪活動(dòng)的案例,從街頭的巡查到網(wǎng)絡(luò)詐騙都有所設(shè)計(jì)。最后總結(jié)一下:
1.如果你覺的自己的密碼能讓GAN給猜到的話,趕緊換個(gè)密碼吧,比如wenzhaizhenshuai就很不錯(cuò)(因?yàn)闆]人覺得文摘菌帥,所以GAN學(xué)不到這個(gè)信息)。
2.別點(diǎn)開不知道誰發(fā)給你的鏈接,除非你十分確定發(fā)郵件的人沒問題;
3.千萬別用AI做惡呀!
-
人工智能
+關(guān)注
關(guān)注
1792文章
47434瀏覽量
238977 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8425瀏覽量
132772
原文標(biāo)題:人工智能黑暗面
文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論