深度學習的下一站是什么?去年,算法領域沒有重大的突破。本文作者William Vorhies是DataScienceCentral的編輯主任,曾擔任Data-Magnum公司的總裁兼首席數據科學家和EB5C公司的總裁,他對有望在該領域獲得下一大突破的幾種領先技術作了一番調查。
我們被卡住了,或者至少我們處于瓶頸期。
誰還記得算法、芯片或數據處理領域上一次整整一年都沒有重大、顯著的進步是啥時候?幾周前我參加Strata圣何塞大會,卻沒有看到引人注目的新進展,這太不同尋常了。
我之前報道過,我們似乎進入了成熟期,現在我們的主要精力是確保所有強大的新技術很好地協同工作(融合平臺),或者從那些大規模的風險投資獲得回報。
并非只有我一人注意到了這個問題。幾位與會者和參展商的看法與我非常相似。有一天我收到了幾位知名研究人員發來的研究紀要,他們一直在評估不同高級分析平臺的相對優點,得出的結論是,沒有任何不一樣的地方值得報告。
我們為何卡住?卡在哪里?
我們現在的處境實際上并非很糟糕。在過去的兩三年,我們取得的進展都在深度學習和強化學習這個領域。深度學習在處理語音、文本、圖像和視頻方面為我們帶來了出色的功能。加上強化學習,我們在游戲、自動駕駛汽車筆機器人等方面取得了重大進展。
我們現處在基于這些技術的商業爆炸式發展的最初階段,比如通過聊天機器人大大簡化客戶互動、新的個人便利應用(比如個人助理和Alexa),以及私家車中的二級自動化(比如自適應巡航控制、避免事故制動和車道維護)。
Tensorflow、Keras及其他深度學習平臺比以往更易于使用,而且得益于GPU,比以往更高效。
然而,已知的一系列缺點根本沒有解決掉。
需要太多標注的訓練數據。
模型需要花太長的時間或太多的昂貴資源來訓練,但仍有可能根本無法訓練。
尤其是節點和層方面的超參數依然很神秘。自動化或甚至被廣泛接受的經驗法則仍遙遙無期。
遷移學習只意味著從復雜遷移到簡單,而不是從一個邏輯系統遷移到另一個邏輯系統。
我確信問題還有更多。我們卡就卡在了解決這些主要的缺點上。
什么讓我們止步不前?
以深度神經網絡(DNN)為例,眼下的傳統觀點認為,如果我們繼續推進、繼續投入,那么這些缺點就會被克服。比如說,從上世紀80年代到2000年代,我們知道如何使DNN工作,但根本沒有相應的硬件。一旦克服了這個難題,DNN結合新的開源理念就會打破這個新領域的瓶頸。
各種類型的研究都有自己的發展勢頭,尤其是,一旦你往某個特定的方向投入了大量的時間和財力,會一直往這個方向前進。如果你已花費數年來開發這些技能方面的專業知識,不會輕易改弦易轍。
即使并不完全確信什么是正確的方向,也要改變方向
有時候我們需要改變方向,即使我們并不確切知道新的方向是什么。最近領先的加拿大和美國AI研究人員就是這么做的。他們認為自己被誤導了,需要實質上重新開始。
去年秋天,杰弗里?辛頓(Geoffrey Hinton)以實際行動詮釋了這番感悟,他因上世紀80年代在DNN領域的開創性工作而名聲大噪。辛頓現在是多倫多大學名譽教授和谷歌研究員,他表示,現在他對DNN的基礎方法:反向傳播“極其懷疑”。辛頓觀察到人腦不需要所有那些標記的數據就能得出結論,說“我的觀點是,扔掉反向傳播,從頭開始。”
考慮到這一點,下面簡單地調查一下新方向,它們有的很靠譜,有的不太現實,但都不是對我們所知道的深度神經網絡所作的漸進式改進。
描述的內容有意簡短,無疑會引導您進一步閱讀以求充分理解。
看起來像DNN、但實則不是的技術
有一系列研究力挺辛頓抨擊反向傳播的觀點,認為節點和層的基本結構有用,但連接和計算的方法需要大幅修改。
膠囊網絡(CapsNet)
我們先從辛頓自己目前的研究新方向CapsNet開始說起。這與CNN的圖像分類有關;簡單地說,問題是卷積神經網絡(CNN)對于對象的姿態(pose)并不敏感。也就是說,如果識別同一對象,但是位置、大小、方向、變形、速度、反射率、色調和紋理等方面有所不同,就需要為這每一種情況添加訓練數據。
在CNN中,這是通過大量增加訓練數據及/或增加可以泛化的最大池化層來處理的,但完全丟失了實際信息。
下列描述來自CapsNets方面眾多出色的技術描述之一,這個來自Hackernoon。
膠囊是一組嵌套的神經層。所以在普通的神經網絡中,你不斷增加更多的層。在CapsNet中,你會在一個層里面添加更多層。或者換句話說,將一個神經層嵌套在另一個神經層里面。膠囊內神經元的狀態捕獲圖像內一個實體的上述屬性。膠囊輸出一個向量,表示實體的存在。向量的方向代表實體的屬性。該向量被發送給神經網絡中所有可能的父節點(parent)。預測向量則通過自身權重和權重矩陣相乘來計算。無論哪個父節點有最大的標量預測向量乘積,都會加大膠囊鍵(capsule bond),其余父節點減小膠囊鍵。這種采用協議路由機制(routing by agreement)的方法優于當前像最大池化這樣的機制。
CapsNet極大地減小了所需的訓練集,在早期測試中表明:在圖像分類方面,性能更勝一籌。
gcForest
今年2月,我們介紹了南京大學新軟件技術國家重點實驗室的周志華和馮霽的研究成果,他們展示了一種名為gcForest的技術。他們的研究報論文顯示,gcForest在文本分類和圖像分類方面都經常勝過CNN和RNN。優點相當明顯。
只需要一小部分訓練數據。
在普通的臺式機CPU設備上就可以運行,無需GPU。
訓練速度一樣快,在許多情況下甚至更快,適合于分布式處理。
超參數少得多,在默認設置下表現良好。
依賴易于理解的隨機森林,而不是完全不透明的深度神經網絡。
簡而言之,gcForest(多粒度級聯森林)是一種決策樹集成方法,深度網絡的級聯結構保留下來,但不透明的邊緣和節點神經元被與完全隨機的樹森林配對的隨機森林組取而代之。請了解gcForest的更多信息,請參與我們的這篇原始文章(https://www.datasciencecentral.com/profiles/blogs/off-the-beaten-path-using-deep-forests-to-outperform-cnns-and-rnn)。
Pyro和Edward
Pyro和Edward是兩種新的編程語言,將深度學習框架與概率編程融合在一起。Pyro是優步和谷歌的杰作,而Edward脫胎于哥倫比亞大學,得到了美國國防高級研究計劃局(DARPA)的資助。結果是,框架讓深度學習系統可以測量它們對于預測或決策的信心有多大。
在經典的預測分析中,我們可能使用對數損失作為擬合函數,并懲罰自信但錯誤的預測(誤報),以此處理這個問題。到目前為止,對于深度學習而言沒有必然的結果。(So far there’s been no corollary for deep learning.)
比如說,這有望適用于自動駕駛汽車或飛機,好讓控制系統在做出重大的決定之前具有某種自信或懷疑的感覺。這當然是你希望優步的自動駕駛車輛在你上車前要知道的。
Pyro和Edward都處于發展的早期階段。
看起來不像深度網絡的方法
我經常碰到一些小公司,它們開發的平臺其核心使用不同尋常的算法。我發現在大多數情況下,它們一直不愿意提供足夠詳細的資料,好讓我可以為讀者描述平臺算法的概況。這種保密并不影響它們的效用,但是除非它們提供一些基準數字和一些細節,否則我無法真正告訴你內部發生了什么。
目前,我研究過的最先進的非DNN算法和平臺如下:
分層時間記憶(HTM)
分層時間記憶(HTM)使用稀疏分布式表示(SDR)對大腦的神經元進行建模,并執行計算,它在標量預測(商品、能源或股價等方面的未來價值)和異常檢測方面的性能比CNN和RNN更勝一籌。
這是以Palm Pilot成名的杰夫?霍金斯(Jeff Hawkins)在其公司Numenta獲得的成果。霍金斯致力于搞出一種強大的AI模型,該模型基于針對大腦功能的基礎研究,它不是采用DNN中的層和節點那種結構。
HTM的特點是可以非常迅速地發現模式,只需要1000次觀測。相比之下,訓練CNN或RNN需要觀測數十萬次、甚至數百萬次。
此外,模式識別是無監督的,可以基于不斷變化的輸入實時識別模式中的變化,并推而廣之。因而獲得的系統不僅訓練起來非常快,還具有自學習和自適應的特點,不會被數據的變化或干擾信息(noise)所困擾。
我們在2月份的文章中介紹了HTM和Numenta,建議不妨閱讀一下(https://www.datasciencecentral.com/profiles/blogs/off-the-beaten-path-htm-based-strong-ai-beats-rnns-and-cnns-at-pr)。
值得一提的一些漸進式改進
我們力圖關注真正改變這個領域的技術,不過漸進式改進方面至少有兩個例子值得一提。這些顯然仍是典型的CNN和RNN(有著反向傳播的要素),但工作起來效果更好。
使用谷歌云AutoML進行網絡修剪
谷歌和英偉達的研究人員使用一種名為網絡修剪(network pruning)的方法,去除了并不直接影響輸出的神經元,讓神經網絡更小巧、運行起來更高效。最近取得的這一進步緣于谷歌新的AutoML平臺在性能上有了重大改進。
Transformer
Transformer是一種新穎的方法,最初在CNN、RNN和LTSM擅長的領域:語言處理(比如語言到語言的翻譯)中很有用。去年夏天谷歌Brain和多倫多大學的研究人員發布了Transformer,它已在包括這項英語/德語翻譯測試在內的眾多測試中表明準確性有了顯著提高。
RNN具有順序處理的特性,因而更難充分發揮GPU等現代快速計算設備的性能,這類設備擅長并行處理而不是順序處理。CNN的順序處理特性比RNN弱得多,但在CNN架構中,組合來自輸入遠端部分的信息所需要的步驟數量仍隨距離加大而增多。
準確性方面的突破來自開發出“自注意力功能”(self-attention function),該功能將步驟顯著簡化為數量不多且恒定的步驟。在每個步驟,它都會運用自注意力機制,直接對句子中所有單詞之間的關系建立模型,不管它們各自的位置怎樣。
請閱讀此處的原始研究論文(https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf)。
結束語:也許是時候轉變方向了
一個不可忽視的事實是,中國正在大力投資于AI;設定的目標是,在幾年內超過美國,成為全球AI領導者。
斯蒂夫?萊文(Steve LeVine)是Axios的未來欄目編輯,并在喬治城大學任教。他在撰寫的一篇文章中認為,中國可能在迅速跟隨,但恐怕永遠趕不上。原因在于,美國和加拿大的研究人員可以隨時轉變方向、從頭開始。制度上受導向的中國人永遠沒法這么做。以下內容來自萊文的那篇文章:
“在中國,那是無法想象的,”西雅圖Outreach.io的首席執行官曼尼?梅迪納(Manny Medina)說。他表示,像Facebook的雅恩?樂坤(Yann LeCun)和多倫多Vector Institute的杰夫?辛頓(Geoff Hinton)這些AI界的明星“不必征得批準。他們可以開始研究,向前推進工作。”
正如風險投資家們所說,也許是時候轉變方向了。
-
神經網絡
+關注
關注
42文章
4777瀏覽量
100973 -
深度學習
+關注
關注
73文章
5511瀏覽量
121354
發布評論請先 登錄
相關推薦
評論