本文是PNAS的一篇特稿,描述了深度學(xué)習(xí)的多種局限,包括易受對抗攻擊、應(yīng)用不穩(wěn)定、缺乏可解釋性等。最終結(jié)論是,深度學(xué)習(xí)不是實現(xiàn)類人智能的途徑,但確實是實現(xiàn)這一目標(biāo)的基礎(chǔ)或雛形,接下來的道路艱難,但一切皆有可能,這也是為何研究人員前仆后繼研究AI。
AI能將一根香蕉照片識別成一臺烤面包機,盡管AI在訓(xùn)練階段可能被展示了數(shù)千張香蕉、蛞蝓、蝸牛以及其他類似物體的照片,就像抽認(rèn)卡一般,讓AI反復(fù)練習(xí),直到完全掌握分類為止。
但是,即便是成千上萬次訓(xùn)練,這個先進的系統(tǒng)也很容易被搞糊涂——只需要將一張小小的貼紙放到圖像的某個角落,就會改變識別結(jié)果。
上面這個被稱為“對抗攻擊”(adversarial attack)的例子是由Google Brain的深度學(xué)習(xí)研究人員發(fā)現(xiàn)的,這項研究突顯了人工智能距離接近人類能力之前還有很長的路要走。
多倫多大學(xué)計算機科學(xué)家Geoffrey Hinton是深度學(xué)習(xí)的先驅(qū)之一,他說:“我最初認(rèn)為對抗樣本只是一個讓人煩惱的問題,但我現(xiàn)在認(rèn)為它們非常深奧。它們會告訴我們做錯了什么。”
這也是AI從業(yè)者普遍的觀點,研究人員中的任何一個人都能輕松說出一長串深度學(xué)習(xí)的弊端,除了易受欺騙之外,還存在嚴(yán)重的低效率問題。
比如說,讓一個孩子學(xué)習(xí)認(rèn)識奶牛,并不需要他的母親說一萬遍“奶牛”,人類通常只需要一兩個例子就能學(xué)習(xí)新概念。但是10000遍是深度學(xué)習(xí)系統(tǒng)通常需要的數(shù)字。
然后是不透明問題。一旦深度學(xué)習(xí)系統(tǒng)被訓(xùn)練完,它是如何做出決定的就不總是那么清楚了。MIT- IBM 沃森人工智能實驗室負(fù)責(zé)人、計算神經(jīng)學(xué)家David Cox說:“在很多情況下,不透明問題是不可接受的,即使它得到了正確的答案。”
假設(shè)一家銀行使用AI來評估你的信用等級,然后拒絕給你貸款,并且說不清楚拒絕的原因,你會覺得合理嗎?
也許最重要的是,它們?nèi)狈ΤWR。深度學(xué)習(xí)系統(tǒng)可能是識別像素級模式的高手,但它們無法理解模式的含義,更不用說對它們進行推理了。DeepMind的AI研究員Greg Wayne表示:“我不清楚,目前的AI系統(tǒng)是否能夠理解沙發(fā)和椅子是用來坐的。”
AI的這些弱點越來越多地引起人們的擔(dān)憂,尤其是自動駕駛方面。自動駕駛汽車使用類似的深度學(xué)習(xí)系統(tǒng)進行導(dǎo)航,已經(jīng)出現(xiàn)了幾起廣為人知的死亡事故。
深度學(xué)習(xí)方法中的明顯缺陷引起了研究人員和大眾的擔(dān)憂,因為自動駕駛等應(yīng)用使用深度學(xué)習(xí)進行導(dǎo)航
“人們已經(jīng)開始說,(深度學(xué)習(xí))系統(tǒng)可能存在問題。”紐約大學(xué)認(rèn)知科學(xué)家加里?馬庫斯(Gary Marcus)說,他是對深度學(xué)習(xí)最直言不諱的懷疑論者之一。他說:“在一年左右之前,一直存在一種感覺,即深度學(xué)習(xí)具有魔力。現(xiàn)在人們已經(jīng)認(rèn)識到深度學(xué)習(xí)不是魔法。”
不過,不可否認(rèn)的是,深度學(xué)習(xí)是一種非常強大的工具——它使部署面部識別和語音識別等應(yīng)用程序變得非常常見,而就在10年前,這些程序幾乎是不可能的。
所以現(xiàn)在的研究人員很難想象,在這個時候深度學(xué)習(xí)會消失。
在過去的2018年,深度學(xué)習(xí)的進展似乎沒有達(dá)到人們的預(yù)期,“深度學(xué)習(xí)至頂”、“深度學(xué)習(xí)已死”的論調(diào)頻現(xiàn)。雖然目前深度學(xué)習(xí)依舊生命力旺盛,但更有可能的是,人們會修改或增強它,并培養(yǎng)出它的下一代接班人。
起底深度學(xué)習(xí):起源“大腦戰(zhàn)爭”
今天的深度學(xué)習(xí)革命起源于上世紀(jì)80年代的“大腦戰(zhàn)爭”(brain wars),當(dāng)時兩種不同人工智能方法的倡導(dǎo)者之間爭論甚大。
一種是現(xiàn)在被稱為“優(yōu)秀的老式人工智能”(good old-fashioned AI)方法,自20世紀(jì)50年代以來一直占據(jù)這個領(lǐng)域的主導(dǎo)地位。
這種方法也被稱為符號AI,使用數(shù)學(xué)符號來表示對象和對象之間的關(guān)系。再加上人類建立的大型知識庫,這些系統(tǒng)被證明在醫(yī)學(xué)等領(lǐng)域的推理和決策方面非常出色。
但到了20世紀(jì)80年代,人們也越來越清楚地認(rèn)識到,符號AI在處理現(xiàn)實生活中的符號、概念和推理方面表現(xiàn)非常糟糕。
為了應(yīng)對這些缺陷,一些研究人員開始提倡人工神經(jīng)網(wǎng)絡(luò),或稱聯(lián)結(jié)主義人工智能(connectionist AI),即今天的深度學(xué)習(xí)系統(tǒng)的前身。
這類系統(tǒng)的想法是通過一個模擬節(jié)點的網(wǎng)絡(luò)來處理信號,這個網(wǎng)絡(luò)類似于人類大腦中的神經(jīng)元。信號通過連接或鏈路從一個節(jié)點傳遞到另一個節(jié)點:類似于神經(jīng)元之間的突觸連接。而學(xué)習(xí),就像在真實的大腦中一樣,是一個調(diào)整“權(quán)重”問題,這個“權(quán)重”會放大或減弱每個連接所攜帶的信號。
在實踐中,大多數(shù)網(wǎng)絡(luò)將節(jié)點排列成一系列的層,大致類似于大腦皮層中的不同處理中心。因此,比如說,一個專門用于圖像識別的網(wǎng)絡(luò)會有一個輸入節(jié)點的層,它對單個像素做出響應(yīng),就像桿狀細(xì)胞和錐體細(xì)胞對照進視網(wǎng)膜的光線做出響應(yīng)一樣。一旦被激活,這些節(jié)點通過加權(quán)連接將其激活級別傳播到下一級別的其他節(jié)點,這些節(jié)點組合輸入信號并依次激活(或不激活)。
這個過程一直持續(xù)到信號到達(dá)節(jié)點的輸出層,其中的激活模式提供一個答案——一個斷言,例如輸入圖像是數(shù)字“9”。如果答案錯誤了——假設(shè)輸入的圖像是“0”——那么“反向傳播”算法就會沿著層反向運行,調(diào)整權(quán)重,以便下次得到更好的結(jié)果。
到20世紀(jì)80年代末,這類神經(jīng)網(wǎng)絡(luò)在處理噪聲或模糊輸入方面已經(jīng)證明比符號AI好得多。
然而,這兩種方法之間的對峙仍未得到解決,主要是因為當(dāng)時能夠裝入計算機的AI系統(tǒng)非常有限。人們?nèi)詿o法確切地知道這些系統(tǒng)能做什么。
一切光榮得益計算力的爆發(fā)
直到2000年,隨著計算能力以數(shù)量級增大的計算機的出現(xiàn),以及社交媒體網(wǎng)站提供大量圖像、聲音和其他訓(xùn)練數(shù)據(jù),這種理解才開始得到發(fā)展。
首先抓住這波機會的是Hinton,他是反向傳播算法的提出者之一,也是20世紀(jì)80年代聯(lián)結(jié)主義的主導(dǎo)者。到2005年左右,他和他的學(xué)生們訓(xùn)練的網(wǎng)絡(luò)不僅比以前的要大得多,而且深得多,層數(shù)從一層或兩層增加到了大約六層。(如今的商業(yè)網(wǎng)絡(luò)經(jīng)常多達(dá)100層以上)
2009年,Hinton和他的兩名研究生證明這種“深度學(xué)習(xí)”比任何其他已知的方法都能更好地識別語音。
Hinton和他的學(xué)生在2009年的論文
2012年,Hinton和另外兩名學(xué)生發(fā)表的實驗表明,深度神經(jīng)網(wǎng)絡(luò)在識別圖像方面可能比標(biāo)準(zhǔn)視覺系統(tǒng)要好得多,“幾乎將錯誤率減半”。
在語音和圖像識別的雙重突破下,深度學(xué)習(xí)應(yīng)用的革命開始了,研究人員改進這項技術(shù)的努力也開始了。
早期的優(yōu)先任務(wù)之一是拓展深度學(xué)習(xí)系統(tǒng)的訓(xùn)練方式,DeepMind公司的Matthew Botvinick說,語音和圖像識別系統(tǒng)都使用了所謂的監(jiān)督學(xué)習(xí),這意味著每幅圖像都有一個正確的答案——比如“貓”——如果網(wǎng)絡(luò)錯了,你就要告訴它正確的答案是什么。然后,網(wǎng)絡(luò)使用反向傳播算法來改進下一個猜測。
實際上,對于大部分的現(xiàn)實世界任務(wù),需要強化學(xué)習(xí)。例如,強化學(xué)習(xí)系統(tǒng)在玩電子游戲時能學(xué)會尋求獎勵(找到寶藏)和避免懲罰(失去錢)。
強化學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)的首次成功實現(xiàn)是在2015年,當(dāng)時DeepMind的一個團隊訓(xùn)練了一個網(wǎng)絡(luò)玩經(jīng)典雅達(dá)利2600街機游戲。
2015年DeepMind發(fā)表在Nature的論文
網(wǎng)絡(luò)在游戲過程中接收屏幕圖像作為輸入,在輸出端是制定操作指令的層,比如如何移動操作桿。在這個游戲中,神經(jīng)網(wǎng)絡(luò)的表現(xiàn)與人類玩家相當(dāng),或超過了人類玩家。
然后在2016年,DeepMind的研究人員在AlphaGo中應(yīng)用了同樣方法的更精細(xì)版本,掌握了復(fù)雜的圍棋游戲,并打敗了人類圍棋世界冠軍李世乭。
接下來的幾年,AI成為全民話題,此處不過多介紹。
深度學(xué)習(xí)窮途末路,誰能引領(lǐng)下一代AI?
不幸的是,這幾個里程碑都沒有解決深度學(xué)習(xí)的根本問題。例如,雅達(dá)利AI需要玩數(shù)千輪才能掌握一款大多數(shù)人類玩家可以在幾分鐘內(nèi)學(xué)會的游戲。即便如此,網(wǎng)絡(luò)也無法理解或解釋屏幕上物體。
因此,Hinton提出的問題依然存在:深度學(xué)習(xí)到底缺少了什么?
也許什么都沒有缺少,也許所需要的只是更多的連接,更多的層,以及更復(fù)雜的訓(xùn)練方法。畢竟,正如Botvinick指出的,神經(jīng)網(wǎng)絡(luò)在數(shù)學(xué)上等同于一臺通用計算機,這意味著它們沒有執(zhí)行不了的計算——至少理論上是這樣,只要你能找到合適的連接權(quán)重。
但是在實踐中,這些可能是致命的——這也是為什么這個領(lǐng)域越來越多的人認(rèn)為,為了解決深度學(xué)習(xí)的缺陷,需要有一些根本性的全新想法。
一種解決方案是簡單地擴展訓(xùn)練數(shù)據(jù)的規(guī)模。例如,在2018年5月發(fā)表的一篇論文中,Botvinick所在的DeepMind小組研究了當(dāng)一個網(wǎng)絡(luò)被訓(xùn)練做不止一項任務(wù)時會發(fā)生什么。
他們發(fā)現(xiàn),只要網(wǎng)絡(luò)有足夠的“循環(huán)”連接從后面的層向更早的層運行,它就能自動吸取它在前一個任務(wù)得到的教訓(xùn),更快的學(xué)習(xí)下一個新任務(wù)。
這至少是一種人類式的“元學(xué)習(xí)”(meta-learning)的雛形,或者稱為learning to learn,這是人類快速掌握事物能力的重要組成部分。
一種更為激進的方法是,放棄僅僅通過訓(xùn)練一個大型網(wǎng)絡(luò)來解決手頭的問題,而是讓多個網(wǎng)絡(luò)協(xié)同工作。
2018年6月,DeepMind團隊發(fā)布了一個他們稱為生成查詢網(wǎng)絡(luò)(Generative Query Network )的架構(gòu),利用兩個不同的網(wǎng)絡(luò),在沒有人工輸入的復(fù)雜虛擬環(huán)境中學(xué)習(xí)。其中一個被稱為“表示網(wǎng)絡(luò)”(representation network),它本質(zhì)上是利用標(biāo)準(zhǔn)的圖像識別學(xué)習(xí)來識別在任何給定時刻AI能看到的東西。
DeepMind在2018年6月發(fā)表在Science上的GQN研究
與此同時,生成網(wǎng)絡(luò)(generation network)學(xué)習(xí)獲取第一個網(wǎng)絡(luò)的輸出,并生成一種整個環(huán)境的3D模型——實際上是對AI看不到的對象和特征進行預(yù)測。例如,如果一張桌子只有三條可見的腿,那么模型將預(yù)測具有相同大小、形狀和顏色的第四條腿。
Botvinick說,這些預(yù)測反過來又能讓系統(tǒng)比使用標(biāo)準(zhǔn)的深度學(xué)習(xí)方法更快地學(xué)習(xí)。一個試圖預(yù)測事物的agent會在每一個時間步上自動得到反饋,因為它可以看到自己的預(yù)測結(jié)果如何。因此,它可以不斷更新自己的模型,讓它們變得更好。
更讓人興奮的是,這種學(xué)習(xí)是自我監(jiān)督的:研究人員不需要給環(huán)境中的任何東西貼上標(biāo)簽,就能讓它起作用,甚至不需要提供獎勵和懲罰。
圖網(wǎng)絡(luò)前途無量,是類人智能的最佳選手嗎?
還有一種更為激進的方法是,不再要求網(wǎng)絡(luò)對每一個問題都從頭開始學(xué)習(xí)。
嬰兒似乎生來就有許多固有的“歸納偏見”,這使他們能夠以驚人的速度學(xué)會某些核心概念。到兩個月大的時候,他們已經(jīng)開始掌握直覺物理學(xué)的原理,包括物體存在的概念,物體傾向于沿著連續(xù)的路徑移動,當(dāng)兩個物體接觸時它們的移動路徑會改變等等。
擁有這種內(nèi)置的歸納偏見可能會有助于深度神經(jīng)網(wǎng)絡(luò)同樣快速地學(xué)習(xí),這就是為什么該領(lǐng)域的許多研究人員現(xiàn)在把這作為優(yōu)先考慮的事情。
事實上,僅僅在過去的一兩年里,這個領(lǐng)域就出現(xiàn)了一種被稱為“圖網(wǎng)絡(luò)”(graph network)的強大潛在方法,引起了人們的極大興趣。Botvinick說:“這些是內(nèi)在地傾向于把事物表示為物體和關(guān)系的深度學(xué)習(xí)系統(tǒng)。”
例如,某些對象,如爪子、尾巴和胡須,可能都屬于一個較大的對象(貓),并且它們之間的關(guān)系是“屬于…的一部分”(a-part-of)。同樣地,一個球A和一個方塊B可能具有“在…旁邊”(next-to)的相互關(guān)系,地球與太陽具有“圍繞軌道轉(zhuǎn)動”(in-orbit-around)的關(guān)系,以此類推,還有許許多多例子。這些關(guān)系都可以用一個抽象的圖(graph)來表示,其中節(jié)點對應(yīng)于“物體”,線對應(yīng)于“關(guān)系”。
因此,圖網(wǎng)絡(luò)是一種神經(jīng)網(wǎng)絡(luò),它將這樣的圖形作為輸入(而不是原始像素或聲波),然后學(xué)習(xí)推理和預(yù)測對象及其關(guān)系如何隨時間演變。
圖網(wǎng)絡(luò)方法已經(jīng)證明了在一系列應(yīng)用實現(xiàn)快速學(xué)習(xí),以及人類水平的能力,包括復(fù)雜的視頻游戲。如果它能像研究人員希望的那樣繼續(xù)發(fā)展,那么它就可以通過提高訓(xùn)練速度和效率來緩解深度學(xué)習(xí)的10000-cow 問題。
Box-World和星際爭霸2的任務(wù)需要對實體及其關(guān)系進行推理
此外,圖網(wǎng)絡(luò)可以使網(wǎng)絡(luò)不那么容易受到對抗性攻擊,原因很簡單,它是一個將事物表示為對象,而不是像素模式的系統(tǒng),不會輕易被一點噪音或無關(guān)的貼紙所干擾。
Botvinick 承認(rèn),在這些領(lǐng)域中,任何一個都不會輕易、快速地取得根本性的進展。但即便如此,他仍然相信,圖網(wǎng)絡(luò)前途無量。“挑戰(zhàn)是真實存在的,但它們并非死路一條。”
-
人工智能
+關(guān)注
關(guān)注
1792文章
47387瀏覽量
238901 -
自動駕駛
+關(guān)注
關(guān)注
784文章
13848瀏覽量
166579 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5506瀏覽量
121265
原文標(biāo)題:深度學(xué)習(xí)已入末路,AI未來是圖網(wǎng)絡(luò)
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論