極市導(dǎo)讀2018圖靈獎(jiǎng)獲得者Yoshua Bengio, Yann LeCun和Geoffrey Hinton再次受ACM邀請(qǐng)共聚一堂,共同回顧了深度學(xué)習(xí)的基本概念和一些突破性成果,講述了深度學(xué)習(xí)的起源、發(fā)展及未來(lái)的發(fā)展面臨的挑戰(zhàn)。
2018年,ACM(國(guó)際計(jì)算機(jī)學(xué)會(huì))決定將計(jì)算機(jī)領(lǐng)域的最高獎(jiǎng)項(xiàng)圖靈獎(jiǎng)?lì)C給Yoshua Bengio、Yann LeCun 和 Geoffrey Hinton,以表彰他們?cè)谟?jì)算機(jī)深度學(xué)習(xí)領(lǐng)域的貢獻(xiàn)。
這也是圖靈獎(jiǎng)第三次同時(shí)頒給三位獲獎(jiǎng)?wù)摺?用于計(jì)算機(jī)深度學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)在上世紀(jì)80年代就已經(jīng)被提出,但是在當(dāng)時(shí)科研界由于其缺乏理論支撐,且計(jì)算力算力有限,導(dǎo)致其一直沒(méi)有得到相應(yīng)的重視。
是這三巨頭一直在堅(jiān)持使用深度學(xué)習(xí)的方法,并在相關(guān)領(lǐng)域進(jìn)行了深入研究。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)了許多驚人的成果,并為證明深度神經(jīng)網(wǎng)絡(luò)的實(shí)際優(yōu)勢(shì)做出了貢獻(xiàn)。
所以說(shuō)他們是深度學(xué)習(xí)之父毫不夸張。 在AI界,當(dāng)Yoshua Bengio、Yann LeCun 和 Geoffrey Hinton 這三位大神同時(shí)出場(chǎng)的時(shí)候,一定會(huì)有什么大事發(fā)生。 最近,深度學(xué)習(xí)三巨頭受ACM通訊雜志之邀,共同針對(duì)深度學(xué)習(xí)的話題進(jìn)行了一次深度專訪,提綱挈領(lǐng)地回顧了深度學(xué)習(xí)的基本概念、最新的進(jìn)展,以及未來(lái)的挑戰(zhàn)。 廣大的AI開(kāi)發(fā)者們,看了高人指點(diǎn)之后是不是對(duì)于未來(lái)之路更加明晰了?下面我們來(lái)看看他們都聊了些什么。
深度學(xué)習(xí)的興起
在2000年代早期,深度學(xué)習(xí)引入的一些元素,讓更深層的網(wǎng)絡(luò)的訓(xùn)練變得更加容易,也因此重新激發(fā)了神經(jīng)網(wǎng)絡(luò)的研究。
GPU和大型數(shù)據(jù)集的可用性是深度學(xué)習(xí)的關(guān)鍵因素,也得到了具有自動(dòng)區(qū)分功能、開(kāi)源、靈活的軟件平臺(tái)(如Theano、Torch、Caffe、TensorFlow等)的增強(qiáng)作用。訓(xùn)練復(fù)雜的深度網(wǎng)絡(luò)、重新使用最新模型及其構(gòu)建塊也變得更加容易。而更多層網(wǎng)絡(luò)的組合允許更復(fù)雜的非線性,在感知任務(wù)中取得了意料之外的結(jié)果。
深度學(xué)習(xí)深在哪里?有人認(rèn)為,更深層次的神經(jīng)網(wǎng)絡(luò)可能更加強(qiáng)大,而這種想法在現(xiàn)代深度學(xué)習(xí)技術(shù)出現(xiàn)之前就有了。但是,這樣的想法其實(shí)是由架構(gòu)和訓(xùn)練程序的不斷進(jìn)步而得來(lái)的,并帶來(lái)了與深度學(xué)習(xí)興起相關(guān)的顯著進(jìn)步。 更深層的網(wǎng)絡(luò)能夠更好地概括「輸入-輸出關(guān)系類型」,而這不僅只是因?yàn)?a target="_blank">參數(shù)變多了。
深度網(wǎng)絡(luò)通常比具有相同參數(shù)數(shù)量的淺層網(wǎng)絡(luò)具有更好的泛化能力。例如,時(shí)下流行的計(jì)算機(jī)視覺(jué)卷積網(wǎng)絡(luò)架構(gòu)類別是ResNet系列,其中最常見(jiàn)的是ResNet-50,有50層。
深度網(wǎng)絡(luò)之所以能夠脫穎而出,是因?yàn)樗昧艘环N特定形式的組合性,其中一層的特征以多種不同的方式組合,這樣在下一層就能夠創(chuàng)建更多的抽象特征。 無(wú)監(jiān)督的預(yù)訓(xùn)練。當(dāng)標(biāo)記訓(xùn)練示例的數(shù)量較小,執(zhí)行任務(wù)所需的神經(jīng)網(wǎng)絡(luò)的復(fù)雜性也較小時(shí),能夠使用一些其他信息源來(lái)創(chuàng)建特征檢測(cè)器層,再對(duì)這些具有有限標(biāo)簽的特征檢測(cè)器進(jìn)行微調(diào)。
在遷移學(xué)習(xí)中,信息源是另一種監(jiān)督學(xué)習(xí)任務(wù),具有大量標(biāo)簽。但是也可以通過(guò)堆疊自動(dòng)編碼器來(lái)創(chuàng)建多層特征檢測(cè)器,無(wú)需使用任何標(biāo)簽。
線性整流單元的成功之謎。早期,深度網(wǎng)絡(luò)的成功,是因?yàn)槭褂昧诉壿媠igmoid非線性函數(shù)或與之密切相關(guān)的雙曲正切函數(shù),對(duì)隱藏層進(jìn)行無(wú)監(jiān)督的預(yù)訓(xùn)練。 長(zhǎng)期以來(lái),神經(jīng)科學(xué)一直假設(shè)線性整流單元,并且已經(jīng)在 RBM 和卷積神經(jīng)網(wǎng)絡(luò)的某些變體中使用。
讓人意想不到的是,人們驚喜地發(fā)現(xiàn),非線性整流通過(guò)反向傳播和隨機(jī)梯度下降,讓訓(xùn)練深度網(wǎng)絡(luò)變得更加便捷,無(wú)需進(jìn)行逐層預(yù)訓(xùn)練。這是深度學(xué)習(xí)優(yōu)于以往對(duì)象識(shí)別方法的技術(shù)進(jìn)步之一。 語(yǔ)音和物體識(shí)別方面的突破。聲學(xué)模型將聲波轉(zhuǎn)換為音素片段的概率分布。Robinson、Morgan 等人分別使用了晶片機(jī)和DSP芯片,他們的嘗試均表明,如果有足夠的處理能力,神經(jīng)網(wǎng)絡(luò)可以與最先進(jìn)的聲學(xué)建模技術(shù)相媲美。
2009年,兩位研究生使用 NVIDIA GPU ,證明了預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)在 TIMIT 數(shù)據(jù)集上的表現(xiàn)略優(yōu)于 SOTA。這一結(jié)果重新激起了神經(jīng)網(wǎng)絡(luò)中幾個(gè)主要語(yǔ)音識(shí)別小組的興趣。
2010 年,在不需要依賴說(shuō)話者訓(xùn)練的情況下,基本一致的深度網(wǎng)絡(luò)能在大量詞匯語(yǔ)音識(shí)別方面擊敗了 SOTA 。2012 年,谷歌顯著改善了 Android 上的語(yǔ)音搜索。這是深度學(xué)習(xí)顛覆性力量的早期證明。
大約在同一時(shí)間,深度學(xué)習(xí)在 2012 年 ImageNet 競(jìng)賽中取得了戲劇性的勝利,在識(shí)別自然圖像中的一千種不同類別的物體時(shí),其錯(cuò)誤率幾乎減半。這場(chǎng)勝利的關(guān)鍵在于,李飛飛及其合作者為訓(xùn)練集收集了超過(guò)一百萬(wàn)張帶標(biāo)簽的圖像,以及Alex Krizhevsky 對(duì)多個(gè) GPU 的高效使用。
深度卷積神經(jīng)網(wǎng)絡(luò)具有新穎性,例如,ReLU能加快學(xué)習(xí),dropout能防止過(guò)度擬合,但它基本上只是一種前饋卷積神經(jīng)網(wǎng)絡(luò),Yann LeCun 和合作者多年來(lái)一直都在研究。 計(jì)算機(jī)視覺(jué)社區(qū)對(duì)這一突破的反應(yīng)令人欽佩。證明卷積神經(jīng)網(wǎng)絡(luò)優(yōu)越性的證據(jù)無(wú)可爭(zhēng)議,社區(qū)很快就放棄了以前的手工設(shè)計(jì)方法,轉(zhuǎn)而使用深度學(xué)習(xí)。
深度學(xué)習(xí)近期的主要成就
三位大神選擇性地討論了深度學(xué)習(xí)的一些最新進(jìn)展,如軟注意力(soft attention)和Transformer 架構(gòu)。 深度學(xué)習(xí)的一個(gè)重大發(fā)展,尤其是在順序處理方面,是乘法交互的使用,尤其是軟注意力的形式。這是對(duì)神經(jīng)網(wǎng)絡(luò)工具箱的變革性補(bǔ)充,因?yàn)樗鼘⑸窠?jīng)網(wǎng)絡(luò)從純粹的矢量轉(zhuǎn)換機(jī)器,轉(zhuǎn)變?yōu)槟軌騽?dòng)態(tài)選擇對(duì)哪些輸入進(jìn)行操作的架構(gòu),并且將信息存儲(chǔ)在關(guān)聯(lián)存儲(chǔ)器中。
這種架構(gòu)的關(guān)鍵特性是,它們能有效地對(duì)不同類型的數(shù)據(jù)結(jié)構(gòu)進(jìn)行操作。 軟注意力可用于某一層的模塊,可以動(dòng)態(tài)選擇它們來(lái)自前一層的哪些向量,從而組合,計(jì)算輸出。這可以使輸出獨(dú)立于輸入的呈現(xiàn)順序(將它們視為一組),或者利用不同輸入之間的關(guān)系(將它們視為圖形)。
Transformer 架構(gòu)已經(jīng)成為許多應(yīng)用中的主導(dǎo)架構(gòu),它堆疊了許多層“self-attention”模塊。同一層中對(duì)每個(gè)模塊使用標(biāo)量積來(lái)計(jì)算其查詢向量與該層中其他模塊的關(guān)鍵向量之間的匹配。匹配被歸一化為總和1,然后使用產(chǎn)生的標(biāo)量系數(shù)來(lái)形成前一層中其他模塊產(chǎn)生的值向量的凸組合。結(jié)果向量形成下一計(jì)算階段的模塊的輸入。
模塊可以是多向的,以便每個(gè)模塊計(jì)算幾個(gè)不同的查詢、鍵和值向量,從而使每個(gè)模塊有可能有幾個(gè)不同的輸入,每個(gè)輸入都以不同的方式從前一階段的模塊中選擇。在此操作中,模塊的順序和數(shù)量無(wú)關(guān)緊要,因此可以對(duì)向量集進(jìn)行操作,而不是像傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中那樣對(duì)單個(gè)向量進(jìn)行操作。例如,語(yǔ)言翻譯系統(tǒng)在輸出的句子中生成一個(gè)單詞時(shí),可以選擇關(guān)注輸入句子中對(duì)應(yīng)的一組單詞,與其在文本中的位置無(wú)關(guān)。
未來(lái)的挑戰(zhàn)
深度學(xué)習(xí)的重要性以及適用性在不斷地被驗(yàn)證,并且正在被越來(lái)越多的領(lǐng)域采用。對(duì)于深度學(xué)習(xí)而言,提升它的性能表現(xiàn)有簡(jiǎn)單直接的辦法——提升模型規(guī)模。 通過(guò)更多的數(shù)據(jù)和計(jì)算,它通常就會(huì)變得更聰明。比如有1750億參數(shù)的GPT-3大模型(但相比人腦中的神經(jīng)元突觸而言仍是一個(gè)小數(shù)目)相比只有15億參數(shù)的GPT-2而言就取得了顯著的提升。
但是三巨頭在討論中也透露到,對(duì)于深度學(xué)習(xí)而言仍然存在著靠提升參數(shù)模型和計(jì)算無(wú)法解決的缺陷。 比如說(shuō)與人類的學(xué)習(xí)過(guò)程而言,如今的機(jī)器學(xué)習(xí)仍然需要在以下幾個(gè)方向取得突破: 1、監(jiān)督學(xué)習(xí)需要太多的數(shù)據(jù)標(biāo)注,而無(wú)模型強(qiáng)化學(xué)習(xí)又需要太多試錯(cuò)。對(duì)于人類而言,像要學(xué)習(xí)某項(xiàng)技能肯定不需要這么多的練習(xí)。
2、如今的系統(tǒng)對(duì)于分布變化適應(yīng)的魯棒性比人類差的太遠(yuǎn),人類只需要幾個(gè)范例,就能夠快速適應(yīng)類似的變化。
3、如今的深度學(xué)習(xí)對(duì)于感知而言無(wú)疑是最為成功的,也就是所謂的系統(tǒng)1類任務(wù),如何通過(guò)深度學(xué)習(xí)進(jìn)行系統(tǒng)2類任務(wù),則需要審慎的通用步驟。在這方面的研究令人期待。 在早期,機(jī)器學(xué)習(xí)的理論學(xué)家們始終關(guān)注于獨(dú)立相似分布假設(shè),也就是說(shuō)測(cè)試模型與訓(xùn)練模型服從相同的分布。
而不幸的是,在現(xiàn)實(shí)世界中這種假設(shè)并不成立:比如說(shuō)由于各種代理的行為給世界帶來(lái)的變化,就會(huì)引發(fā)不平穩(wěn)性;又比如說(shuō)總要有新事物去學(xué)習(xí)和發(fā)現(xiàn)的學(xué)習(xí)代理,其智力的界限就在不斷提升。 所以現(xiàn)實(shí)往往是即便如今最厲害的人工智能,從實(shí)驗(yàn)室投入到實(shí)際應(yīng)用中時(shí),其性能仍然會(huì)大打折扣。
所以三位大神對(duì)于深度學(xué)習(xí)未來(lái)的重要期待之一,就是當(dāng)分布發(fā)生變化時(shí)能夠迅速適應(yīng)并提升魯棒性(所謂的不依賴于分布的泛化學(xué)習(xí)),從而在面對(duì)新的學(xué)習(xí)任務(wù)時(shí)能夠降低樣本數(shù)量。 如今的監(jiān)督式學(xué)習(xí)系統(tǒng)相比人類而言,在學(xué)習(xí)新事物的時(shí)候需要更多的事例,而對(duì)于無(wú)模型強(qiáng)化學(xué)習(xí)而言,這樣的情況更加糟糕——因?yàn)橄啾葮?biāo)注的數(shù)據(jù)而言,獎(jiǎng)勵(lì)機(jī)制能夠反饋的信息太少了。
所以,我們?cè)撊绾卧O(shè)計(jì)一套全新的機(jī)械學(xué)習(xí)系統(tǒng),能夠面對(duì)分布變化時(shí)具備更好的適應(yīng)性呢? 從同質(zhì)層到代表實(shí)體的神經(jīng)元組 如今的證據(jù)顯示,相鄰的神經(jīng)元組可能代表了更高級(jí)別的向量單元,不僅能夠傳遞標(biāo)量,而且能夠傳遞一組坐標(biāo)值。這樣的想法正是膠囊架構(gòu)的核心,在單元中的元素與一個(gè)向量相關(guān)聯(lián),從中可以讀取關(guān)鍵向量、數(shù)值向量(有時(shí)也可能是一個(gè)查詢向量)。
適應(yīng)多個(gè)時(shí)間尺度 大多數(shù)神經(jīng)網(wǎng)絡(luò)只有兩個(gè)時(shí)間尺度:權(quán)重在許多示例中適應(yīng)得非常慢,而行為卻在每個(gè)新輸入中對(duì)于變化適應(yīng)得非常快速。通過(guò)添加快速適應(yīng)和快速衰減的“快速權(quán)重”的疊加層,則會(huì)讓計(jì)算機(jī)具備非常有趣的新能力。
尤其是它創(chuàng)建了一個(gè)高容量的短期存儲(chǔ),可以允許神經(jīng)網(wǎng)絡(luò)執(zhí)行真正的遞歸,,其中相同的神經(jīng)元可以在遞歸調(diào)用中重復(fù)使用,因?yàn)樗鼈冊(cè)诟呒?jí)別調(diào)用中的活動(dòng)向量可以重建稍后使用快速權(quán)重中的信息。 多時(shí)間尺度適應(yīng)的功能在元學(xué)習(xí)(meta-learning)中正在逐漸被采納。
更高層次的認(rèn)知 在考慮新的任務(wù)時(shí),例如在具有不一樣的交通規(guī)則的城市中駕駛,甚至想象在月球上駕駛車輛時(shí),我們可以利用我們已經(jīng)掌握的知識(shí)和通用技能,并以新的方式動(dòng)態(tài)地重新組合它們。 但是當(dāng)我們采用已知的知識(shí)來(lái)適應(yīng)一個(gè)新的設(shè)置時(shí),如何避免已知知識(shí)對(duì)于新任務(wù)帶來(lái)的噪音干擾?
開(kāi)始步驟可以采用Transformer架構(gòu)和復(fù)發(fā)獨(dú)立機(jī)制Recurrent Independent Mechanisms)。 對(duì)于系統(tǒng)1的處理能力允許我們?cè)谟?jì)劃或者推測(cè)時(shí)猜測(cè)潛在的好處或者危險(xiǎn)。但是在更高級(jí)的系統(tǒng)級(jí)別上,可能就需要AlphaGo的蒙特卡羅樹搜索的價(jià)值函數(shù)了。
機(jī)械學(xué)習(xí)依賴于歸納偏差或者先驗(yàn)經(jīng)驗(yàn),以鼓勵(lì)在關(guān)于世界假設(shè)的兼容方向上學(xué)習(xí)。系統(tǒng)2處理處理的性質(zhì)和他們認(rèn)知的神經(jīng)科學(xué)理論,提出了幾個(gè)這樣的歸納偏差和架構(gòu),可以來(lái)設(shè)計(jì)更加新穎的深度學(xué)習(xí)系統(tǒng)。那么如何訓(xùn)練神經(jīng)網(wǎng)絡(luò),能夠讓它們發(fā)現(xiàn)這個(gè)世界潛在的一些因果屬性呢?
在20世紀(jì)提出的幾個(gè)代表性的AI研究項(xiàng)目為我們指出了哪些研究方向?顯然,這些AI項(xiàng)目都想要實(shí)現(xiàn)系統(tǒng)2的能力,比如推理能力、將知識(shí)能夠迅速分解為簡(jiǎn)單的計(jì)算機(jī)運(yùn)算步驟,并且能夠控制抽象變量或者示例。這也是未來(lái)AI技術(shù)前進(jìn)的重要方向。 聽(tīng)完三位的探討,大家是不是覺(jué)得在AI之路上,光明無(wú)限呢?
參考資料:https://cacm.acm.org/magazines/2021/7/253464-deep-learning-for-ai/fulltext
本文亮點(diǎn)總結(jié)
1.深度學(xué)習(xí)的一個(gè)重大發(fā)展,尤其是在順序處理方面,是乘法交互的使用,尤其是軟注意力的形式。這是對(duì)神經(jīng)網(wǎng)絡(luò)工具箱的變革性補(bǔ)充,因?yàn)樗鼘⑸窠?jīng)網(wǎng)絡(luò)從純粹的矢量轉(zhuǎn)換機(jī)器,轉(zhuǎn)變?yōu)槟軌騽?dòng)態(tài)選擇對(duì)哪些輸入進(jìn)行操作的架構(gòu),并且將信息存儲(chǔ)在關(guān)聯(lián)存儲(chǔ)器中。這種架構(gòu)的關(guān)鍵特性是,它們能有效地對(duì)不同類型的數(shù)據(jù)結(jié)構(gòu)進(jìn)行操作。
2.三位大神對(duì)于深度學(xué)習(xí)未來(lái)的重要期待之一,就是當(dāng)分布發(fā)生變化時(shí)能夠迅速適應(yīng)并提升魯棒性(所謂的不依賴于分布的泛化學(xué)習(xí)),從而在面對(duì)新的學(xué)習(xí)任務(wù)時(shí)能夠降低樣本數(shù)量。
—版權(quán)聲明—
來(lái)源:新智元
僅用于學(xué)術(shù)分享,版權(quán)屬于原作者。
若有侵權(quán),請(qǐng)聯(lián)系微信號(hào)刪除或修改!
編輯:jq
-
gpu
+關(guān)注
關(guān)注
28文章
4754瀏覽量
129069 -
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7520瀏覽量
88225 -
人工神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
1文章
120瀏覽量
14647 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5507瀏覽量
121298
原文標(biāo)題:Hinton,Lecun和Bengio三巨頭聯(lián)手再發(fā)萬(wàn)字長(zhǎng)文:深度學(xué)習(xí)的昨天、今天和明天
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論