在深度學習剛剛進入視線時,大多數AI研究人員嗤之以鼻,但短短幾年后,它的觸角已經橫跨醫療、教育、汽車等眾多領域。
AI 在深度學習的加持下,近幾年在人臉識別、圍棋、Dota等任務上屢屢擊敗人類,這種趨勢似乎也在暗示:深度學習就是打開人工智能寶藏的鑰匙。
但也有觀點認為當前深度學習已經走到了死胡同,例如全球人工智能計算機視覺領域奠基人之一、約翰霍普金斯大學教授艾倫·尤爾就曾拋出“深度學習在計算機視覺領域的瓶頸已至”的觀點。
本文作者 Randy Laybourne 比較支持尤爾教授觀點,并盤點了20條理由逐一論述深度學習的研究當前已經走到了死胡同。AI科技評論作了有刪改的編輯,請欣賞~
1、反向傳播技術只適合狹義AI
反向傳播是深度學習的基本技術,它能夠讓神經網絡在訓練過程找到“最優解”。但是如果讓訓練好的神經網絡執行另一項任務或者使用新數據時就會發生災難性遺忘,從而無法完成持續學習的目標。
當然,你可以減少之前學習任務以及調整網絡結構來解決災難性遺忘,但是如果有新數據涌入,則必須增加神經元的數量。
大腦與我們手工設計的神經網絡相比有著更多的神經元,所以你會認為增加人工神經網絡的神經元完全沒有問題對吧?
但是你也要明白,大腦具有功能模塊化的特點,它在執行任務的時候,每次只調用一小部分神經元。而反向傳播在迭代的時候調用的是全部的神經元。
另外,大腦模塊化的特點能讓我們人類學習到不同的東西,而且不同模塊之間信息是可以相互交流的。
那么構造多個深度神經網絡并讓它們之間互相連接能夠解決問題么?
顯然高級智能的功能遠不止這些。
2、無監督學習
大腦在進行學習的時候,并不需要大量的示例,也不需要一個監督者在旁邊“叮囑”。大腦的學習方法更加復雜,例如,即使一些“數據”沒有打標簽,大腦也能從其中學到一些東西。
當然,我們也不是在模仿翅膀的動作來制造飛行器,但是鳥類卻證明了當克服重力時,比空氣重的物體也能夠飛行,這意味著即使通用人工智能沒有大腦一樣的思考方式,也能夠通過無監督的學習方式實現智能。
3、認知圖與路線
當前,深度學習想要掌握更多的是一種認知路線,即從輸入數據到輸出的認知途徑,也就是說,深度學習是輸入和輸出之間關聯記憶的一種形式。
考慮下面一種認知路線的情況:
“徑直穿過森林,看到一條河,然后穿過小河,左轉,在一棵奇怪的樹附近停下來,然后能到山頂上有三塊大石頭的山,最后沿著路上去”
現在的問題是,如果有人砍掉了樹或不知何故搬開了石頭呢?
這就是深度學習的缺點:知識的應用范圍非常狹窄,只適用于一項任務。解決方法是創建一個動態的地圖,即找到從不同起點到無限終點的多條路線。
這就是狹義AI和通用AI的區別,這種區別也深深影響著神經網絡的結構。
4、預測過程
我們的大腦總是嘗試主動預測接下來幾秒所發生的事情,并根據實際情況調整預測細節。這也是人類具有強烈好奇心的原因。
除此之前我們人類還有另一個驅動因素,即當我們有著很好的基礎時,我們總想要改善我們關于心理模型的認知地圖-。
人類在面臨未知的時候總是想要找到一個令人滿意的解釋,否則不會停下來。所以說這種預測過程可以節省我們的精力,也可以激勵我們變得越來越好,能夠擴大我們的知識面和技能,完善我們的知識和技能認知圖。
這也就是說預測性處理是我們直覺的來源。顯然,深度學習缺乏這種預測。
5、高效利用資源
谷歌的TPU
能源的缺乏性沒有人可以否認,我們大腦在處理問題的時候,也會對盡可能多的事情說“不”。具體而言,當大腦處理一個連續的數據流的時候,會經過一層過濾裝置,過濾掉無用信息,將重要的信息發送到大腦皮層。
當在無意識狀態下處理事情的結果足夠好的時候,大腦就不會切換這種狀態。當有重要任務要做的時候,大腦會關閉一些默認狀態下的大型網絡神經元,然后開啟中央執行網絡。
根據研究,大腦大概有86~1000億個神經元,大多數被密集的分布在小腦部分,主要負責人體的各項活動。前面也提到,大腦會有選擇的關閉或開啟某些神經元,而深度學習則在每一次迭代中都會利用所有的神經元,這也是為什么我們至今沒有設計出如此規模的神經元的原因。
另外,深度學習的能源效率很低,以至于在即使最強大的處理器加持下,也無法與運行頻率只有10–40Hz的大腦相提并論。
6、多感官數據表示
目前,語音是人工智能最難啃的硬骨頭。雖然我們可以利用AI設計出色的文本生成系統,也能夠為人類編撰優秀的文本。但這種文本生成系統背后存在“理解”么?還是說只是單詞之間的統計關系。
在小孩子學習語言之前,其實就已經受到了許多感官刺激,小孩所接觸的每種含義特征不是某些數據集中的相鄰單詞,而是豐富的體驗集,包括視覺,聲音,氣味,味道,觸覺,情感等等。
然后,在這些特征的基礎上,我們貼上正確的標簽,教導孩子進餐,去洗手間或其他任何東西。
另外,即使我們不知道某些“東西”確切的名字,也可以根據未知對象的屬性與已知類的相似性對其進行分類。例如聲音很容易引起情緒反應,氣味會帶回記憶。
顯然,當前的深度學習的神經網絡只是具有強大的單獨處理功能,無法匹配類似的連接。
7、經驗豐富
如何向AI解釋這個世界,僅僅讓AI通過靜止圖像或文本數據集了解所處的世界,不考慮上下文、背景啥的么?
假設不曾得知“引力”為何物,那么我們該如何教導AI?
如果我們想要具有類人能力的機器,我們必須認識到至少我們的身體和大腦是生物機器。
人類的大腦將無色,無聲和無味的原子渲染成世界,并“解釋編碼”傳入信號,同時創建一個可以讓我們理解的現實模型。
只有這樣我們才會知道在地球上扔東西時,它就會掉落。但是數字地圖上向下移動的點不受重力影響。顯然數字世界和物理世界的規則非常不同。
深度學習能夠教導AI理解這一點么
8、連續立體聲數據流
我們的身體大致具有對稱性,我么擁有雙眼、雙耳、雙手、雙腿,還有兩個大腦半球。這幫助我們以一種新的方式感知世界并與之互動。
立體視覺可以幫助我們測量視覺場景的深度,聲音可以幫助我們定位視覺的來源,大腦的二元性可以幫助我們應對不同心理能力。。。。。。
同時,大腦的連續性功能使我們確信,前一秒還是你的朋友的那個人仍然是原來的那個人,你不需要通過視覺或聲音屬性再次確認。
大腦會主動預測正在發生的事情,從而節省精力,增強信心,并實時學習。
深度學習在目前顯然無法達到。
9、非隨機初始化
人腦的語義空間
人工神經網絡的初始化是隨機的,我們使用基于梯度的方法來訓練網絡,并使其在所有值都相同時對網絡進行分解。
可以對神經網絡進行優化,并強制指定其初始化的方法。但要注意的是,這在有監督的環境中是可以實現的,要想在現實世界中大規模部署自主AI,顯然隨機初始化可能是最好的選擇。在此類情況下,不管時間和位置如何,我們最好的想法是讓AI以類似方式完成適應過程。
10、將情緒狀態作為一個通用評價系統
我們或許認為情緒是人類所獨有的,甚至不及硬邏輯。
但是它作為人體中的一個通用評價系統,我們能夠很快地通過情緒快速評估自身的狀態:是充滿活力還是歡欣鼓舞,亦或是無比沮喪的低沉狀態。
無論我們何時要做決定,都要基于我們自身的感受。即便我們要考慮斟酌很久來評估不同的選擇,然而最后,我們還是會選擇我們“感覺起來”最好的那個。
我們已經嘗試用強化學習來模擬人類的情緒,然而僅僅也才走出了一小步。
情緒能夠被量化,這是因為他們都是由不同層面的神經化學物質所組成的,例如血清素、多巴胺、腎上腺素等等。
我們做出想要戰斗或航行的反應,是因為多巴胺很高,它能夠刺激我們快速執行一系列動作。而當去甲腎上腺素低時,我們會感受到害怕的情緒從而試圖逃跑;當去甲腎上腺素高時,我們會找到勇氣去戰斗,或者在極端高時,我們會感受到憤怒或強烈的瘋狂的情緒。
11、數字化神經調質
數字化神經調質可以讓自主的 AI 以跟神經調質同樣的方式,打開和關閉大規模的神經子網絡。
在人腦中,高水平的神經調質乙酰膽堿會增加與記憶、內部定向認知、思考和推理相關的神經元活動。
而多巴胺則會增加外部認知的重要性,并更快地選擇足夠好的動作。
食欲素調節能量,當我們處于清晰狀態時,會增加;當我們入睡或產生免疫反應時,則會降低。在自主機器人等設備一直無法連接到電源時,數字化食欲素有助于實現優秀的能量消耗。
人體使用化學物質自動進行自我調節,我認為在這方面,人工智能也存在巨大的可能性。
12、人工直覺
深度學習自身其實僅是處理數據的一種方法,從輸入到輸出的一種非常被動的方法。而人類也賦予深度學習一種非常強大的能力,那就是直覺。
在深度學習中當所有條件都匹配時,網絡中神經單元會被預先激活,但是最終是否會對現實造成一些影響,我們尚未可知,我們只是感覺到,將會產生一些影響。
人類的意識中也盡是與此相同的機制:腦海中蹦出來的想法不知從何而來,但是大腦會認為這些想法將來是有用的。
直覺能夠幫助我們未雨綢繆,也能夠讓數據處理變得更加簡單。例如在深度學習中,如果上下文都是正確的,則可以降低針對目標或聲音識別的閾值,來簡化處理流程。
有時直覺也可能讓我們犯錯,例如我們可能會錯認朋友,或者聽到別人實際上并沒有說過的話。
但是大多數時候,我們利用直覺節省了大量的能源,甚至由于直覺發出了對潛在危險的預警而挽救了數不盡數的生命。
13、隱藏的大腦:神經膠質細胞
多年來,神經膠質細胞一直僅僅被視作大腦的填充物,然而它實際上對大腦的運行有很大的影響作用。人類擁有的神經膠質細胞比神經元還多,它們支持神經元部分、提供營養并通過觸發免疫反應來處理如有毒的代謝衍生物等垃圾和外部危險。
然而當前的人工神經網絡完全不把神經膠質細胞當回事。但是,它們可是實實在在控制著神經元的啊。
它們除了對神經元起到維持作用外,還影響著神經元的尖峰,如果應用到深度學習中,有可能還能夠計算數據預測的誤差。
星型膠質細胞不受短時期內的電刺激,而是受長時期的化學刺激。它們可以在全局范圍內彼此進行交互,并不僅僅為需要更多資源的地方提供資源,還能改進整個系統的運行。
14、皮層下成分
目前的人工神經網絡不僅忽略了星型膠質細胞,而且忽略了皮層下成分。
在處理數據時,人腦除了新皮層,還有大量其他的模塊來對其進行支持,如丘腦、海馬體、紋狀體以及杏仁核等等。
它們都在大腦中扮演中非常重要的角色。
沒有海馬體和內嗅皮質,我們就無法記憶,也很難在物理空間進行定位。丘腦過濾數據,并將數據傳輸到大腦的正確部位。紋狀體和杏仁核則能夠調節對輸入數據做出的反應。
屏狀體也是大腦中一個非常有意思的部分。科學家們發現,當受到電刺激時,它會充當意識的“開關”。
相關閱讀:
https://www.newscientist.com/article/mg22329762-700-consciousness-on-off-switch-discovered-deep-in-brain/
15、因果推理
人類擁有的強大能力之一,便是因果推理。
我們可以通過做心理模擬——想象或回想整個過程的步驟,在大腦中找到導致某個結果可能存在的原因。
而關聯性并不就是指因果關系,正如一句名言所說的:僅僅使用統計學是遠不夠的,我們還需要用到關系、豐富的語境信息和多感官體驗。
16、心理模擬器
如文章開頭所提到的,人腦實際上是從無色、無味、無聲音的原子來呈現現實世界的。
這是因為它如此擅長這種呈現方式,并且還能夠模擬未曾發生過的事情。而這也是我們的想象力之所以存在,并且還會做夢的原因。
它讓我們在現實世界中不受任何損失地體驗和學習。這種心理模擬器也是意識型體驗的基礎。
人類創造了很多抽象的事物,這些都僅存在于我們的腦海中。我們在真正動手發明某些東西前,會先在腦海中進行想象。這也是人類進化擁有比其他生物更好的優勢的源泉所在
在未來的通用人工智能框架中,我們需要用到心理模擬器!
17、增量學習
增量學習的方法,與用固定的數據集來訓練神經網絡的方法完全相反。
這種方法可以讓機器一直學習到新的東西,并且不斷更新現有的知識來進行自我提高。
當然,我們可以總是用新的數據來重新訓練模型,但是這種做法會讓資源利用效率低下,而采用更大的神經架構來訓練模型,則一直以來都存在問題。
直觀上,雖然增量學習會導致所謂的過擬合,但是現在已經有很多技術能夠解決這一問題。并且,將足夠多的數據增量添加到記憶中的增量學習方法,要更簡單得多。
人類并非天地萬物的主宰,我們擅長處理自身已有足夠多經驗的事情,并且還可以隨時更新心理模型來選擇更好的解決方案。
18、終極算法
我認為,我們能夠找到最終算法,開啟推動人工智能發展的鑰匙。
到那時,數據處理將會變得不同,所謂的超參數在不同情況下也會各不相同,然而,整個人工皮層中的算法可能卻是一樣的,它們決定哪些是高度相關、哪些的相關性較低,哪些需要記住、哪些舍棄。以及,哪些要被記成反面案例。
19、硬件:專用處理單元
一般用途的處理單元如CPU,不如專用處理單元的效率高。為了達到復雜的認知結構所需要的效率,處理單元需要足夠的并行性。
由于抽象層諸多,當計算機運行某些任務時,比如圖形用戶界面、框架和開發庫、操作系統以及給機器代碼編程語言等,處理單元會在這些抽象層之間轉換。并且,這樣做非常費時間。
讓它乘以每秒數十億次運行,你就能夠對處理單元的運行情況有一個較為全面的了解。
編程語言有助于原型設計和實驗,能夠讓解決方法適應我們的需求。但是編程語言的重要部分需要在處理單元執行,就像每個CPU內部都有算術邏輯單元一樣。
我們需要在硬件中實現關鍵的算法,現在許多公司都已經開始在嘗試實現這一點,但是他們嘗試的方向是否正確呢?
20、自組裝還是人為構建?
大腦復雜非常,人類至今也尚未能完全理解人腦。不僅如此,現在關于大腦架構的很多研究結果還存在矛盾。我們不能僅僅依靠神經科學來開發通用人工智能。
但是我們可以理解大腦的高級功能,例如這些功能能做什么以及或多或少能怎么做。
由于大腦就是一個自組裝的處理單元,根據自身的生理和心理需求和局限性來做各種事情。許多觀察到的行為或屬性都與該結構運行和生存所需的實際情況,息息相關,而不是因為它需要實現更高水平的智能。
讓神經科學、計算機科學和數學之間達成正確的平衡,有助于我們最終開發出擁有與人類一樣的能力的機器。
總結
尤其是近幾年來,所有這些技術都取得了巨大的進展。我們很容易忽略,與我們未來人類將取得的成就相比,現在 AI 領域還尚處于“石器時代”。
計算時代才剛剛開始,換個看待當下 AI 發展的視角,將為我們帶來更加廣闊的視野。能將我們帶向未來某處的事物,往往與將再度推動我們向前邁進一大步的不同。
當某個人做了一些與其他人稍有不同的事情而擴展了人類的視野時,人類進化往往會實現一次巨大的飛躍。
同樣地,我認為,我們通過盡可能尋找不同的方法來做人工智能研究時,最終能夠讓人工智能領域取得巨大的進展。
責任編輯:ct
評論
查看更多