70年來, 人們?cè)?a href="http://www.xsypw.cn/tags/ai/" target="_blank">AI領(lǐng)域“一直連續(xù)犯著同樣的錯(cuò)誤”。這是“強(qiáng)化學(xué)習(xí)之父”理查德·薩頓(Richard S. Sutton)為同行后輩們敲響的警鐘。
他在博客上發(fā)表最新文章《苦澀的教訓(xùn)》(The Bitter Lesson),總結(jié)了AI發(fā)展史上的怪圈:
人類不斷試圖把自己的知識(shí)和思維方式植入到AI之中,比如用人類的思路教AI下棋、將讓AI按照人類總結(jié)的思路來識(shí)別圖像等等。這些做法能帶來暫時(shí)的性能提升,長(zhǎng)期來看卻會(huì)阻礙研究的持續(xù)進(jìn)步。真正的突破,總是來自完全相反的方向。摒棄人類在特定領(lǐng)域的知識(shí)、利用大規(guī)模算力的方法,總會(huì)獲得最終勝利。靠自我對(duì)弈磨煉圍棋技藝的AlphaGo,基于統(tǒng)計(jì)方法、深度學(xué)習(xí)來識(shí)別語音、圖像的算法,一次次擊敗先前那些濃縮了人類知識(shí)的AI,甚至人類自己。搜索、學(xué)習(xí),充分利用大規(guī)模算力才是王道。用人類在特定領(lǐng)域的知識(shí)來提升AI智能體的能力,都是在走彎路。
薩頓說:“將AI建立在我們對(duì)自身思維方式的認(rèn)知上,是行不通的。”O(jiān)penAI首席科學(xué)家Ilya Sutskever精辟地總結(jié)了薩頓的核心觀點(diǎn):算力常勝。
文章一發(fā)出,就引發(fā)了熱烈的討論,OpenAI CTO Greg Brockman、特斯拉AI總監(jiān)Andrej Karpathy等人都在轉(zhuǎn)發(fā)附議。
DeepMind機(jī)器學(xué)習(xí)團(tuán)隊(duì)主管&牛津大學(xué)教授Nando de Freitas甚至稱之為“周末必讀”。
然而,也有反對(duì)的聲音。牛津大學(xué)計(jì)算機(jī)系教授希蒙·懷特森(Shimon Whiteson)連發(fā)13條Twitter反駁薩頓的觀點(diǎn),表示“堅(jiān)決不同意”,同樣獲得了大量支持。
懷特森認(rèn)為,構(gòu)建AI當(dāng)然需要融入人類知識(shí),問題只在于該何時(shí)、如何、融入哪些知識(shí)。AI的歷史進(jìn)程是一場(chǎng)融入人類知識(shí)的勝利。科學(xué)家們廣泛嘗試,拋棄失敗的99%,留下有用的1%。而這1%,對(duì)現(xiàn)代人工智能算法成功的重要性不亞于薩頓推崇的大量計(jì)算資源。一場(chǎng)隔空論戰(zhàn),就這樣展開了。
我們先讀完“本周末必讀”的薩頓博文,看看正方的觀點(diǎn)。
苦澀的教訓(xùn)
回溯70年的AI研究,從中得出的最大經(jīng)驗(yàn)是,利用計(jì)算力的通用方法最終總是最有效的,而且遙遙領(lǐng)先。出現(xiàn)這種情況的終極原因是摩爾定律,或者寬泛一點(diǎn)來說,是單位算力成本的持續(xù)指數(shù)級(jí)下降。大多數(shù)AI研究都以智能體可用算力恒定為前提進(jìn)行,在這種情況下,利用人類知識(shí)可能是提升性能的唯一方法。但是,將目光投向比一個(gè)典型研究項(xiàng)目更長(zhǎng)遠(yuǎn)的時(shí)間段,就會(huì)發(fā)現(xiàn)必然有更多可用的算力出現(xiàn)。為了尋求短期可見的提升,研究人員會(huì)利用該領(lǐng)域的人類知識(shí),但從長(zhǎng)遠(yuǎn)來看,利用算力才是唯一重要的事。
雖然但這兩者看似沒有必要相互對(duì)立,但實(shí)際上它們往往是對(duì)立的。
在一個(gè)方向上花費(fèi)的時(shí)間,就必然不能花在另一個(gè)方向。對(duì)于某一種方法的投入也會(huì)帶來心理上的承諾。同時(shí),用人類知識(shí)來提升AI會(huì)傾向于使方法復(fù)雜化,讓運(yùn)用算力的通用計(jì)算方法變得不太適用。很多AI研究人員后知后覺地領(lǐng)悟了這種“苦澀的教訓(xùn)”。回顧其中最重要的一些頗有啟發(fā)。
在國際象棋領(lǐng)域,1997年擊敗國際象棋冠軍卡斯帕羅夫的深藍(lán),就是基于大規(guī)模深度搜索。當(dāng)時(shí),大多數(shù)計(jì)算機(jī)國際象棋研究者都以沮喪的眼光看待它,他們追求用人類對(duì)國際象棋特殊結(jié)構(gòu)的理解制勝。當(dāng)一種更簡(jiǎn)單的、有特殊硬件和軟件加持的基于搜索的方法被證明更有效,這些基于人類知識(shí)下國際象棋的研究者輸?shù)靡稽c(diǎn)都“不體面”。他們說,這種“用蠻力”的搜索可能這次能贏,但這終究不是通用策略,無論如何這也不是人類下棋的方式。
他們希望基于人類輸入的方法獲勝,卻事與愿違,只剩失望。計(jì)算機(jī)圍棋領(lǐng)域,研究進(jìn)展也遵循著同樣的模式,只是比國際象棋遲了20年。這一領(lǐng)域最初的眾多努力,都是利用人類知識(shí)或游戲的特殊特性避免搜索,然而,搜索一被大規(guī)模高效應(yīng)用,這些努力都變得無關(guān)緊要,甚至更糟。利用自我對(duì)弈來學(xué)習(xí)一種價(jià)值函數(shù)同樣重要(在許多其他游戲、甚至在國際象棋中也一樣,雖然在1997年的深藍(lán)項(xiàng)目中沒有發(fā)揮很大作用)。通過自我對(duì)弈來學(xué)習(xí),以及學(xué)習(xí)本身,其實(shí)都和搜索一樣,讓大規(guī)模計(jì)算有了用武之地。
搜索和學(xué)習(xí)是AI研究中應(yīng)用大規(guī)模計(jì)算力的兩類最重要技術(shù)。
在計(jì)算機(jī)圍棋和國際象棋項(xiàng)目中,研究人員最初努力的方向是如何去利用人類的理解(這樣就不需要太多的搜索),很久以后,才通過擁抱搜索和學(xué)習(xí)取得了更大的成功。
在語音識(shí)別領(lǐng)域,很早之前曾有一場(chǎng)競(jìng)賽,1970年由DARPA主辦。在這場(chǎng)比賽中,一部分參賽者運(yùn)用那些需要人類知識(shí)(單詞知識(shí)、音素知識(shí)、人類聲道知識(shí)等等)的特殊方法。也有一部分人基于隱馬爾可夫模型(HMMs)完成比賽。這種新方法本質(zhì)上更具統(tǒng)計(jì)性質(zhì),也需要更大的計(jì)算量。
不出所料,最終統(tǒng)計(jì)方法戰(zhàn)勝了基于人類知識(shí)的方法。這場(chǎng)比賽為所有自然語言處理任務(wù)都帶來了巨大的改變,在過去的幾十年里,統(tǒng)計(jì)和算力逐漸占據(jù)主導(dǎo)地位。語音識(shí)別中興起沒多久的深度學(xué)習(xí),也是朝著這一方向邁出的最新一步。深度學(xué)習(xí)方法對(duì)人類知識(shí)的依賴甚至更少,用到了更多的算力。通過在大型訓(xùn)練集上的學(xué)習(xí),能得到更好的語音識(shí)別系統(tǒng)。
就像在棋類游戲中一樣,研究人員總是試圖讓系統(tǒng)按照他們心目中的人類的思維方式工作,試圖把這些知識(shí)放進(jìn)計(jì)算機(jī)的系統(tǒng)里。但最終,當(dāng)摩爾定律帶來大規(guī)模算力,其他人也找到了一種充分利用它的方法時(shí),會(huì)發(fā)現(xiàn)原來的做法適得其反,是對(duì)研究人員時(shí)間的巨大浪費(fèi)。
在計(jì)算機(jī)視覺領(lǐng)域,也有類似的模式。早期的方法,將視覺設(shè)想為搜索邊緣、廣義圓柱體,或者SIFT算法捕捉的特征。但現(xiàn)在,所有這些方法都被拋棄了。現(xiàn)代的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),只使用卷積和某些不變性的概念,而效果要好得多。
這些教訓(xùn)告訴我們,(AI)這個(gè)領(lǐng)域,我們?nèi)匀粵]有完全了解,我們連續(xù)犯著同樣的錯(cuò)誤。為了認(rèn)清狀況,有效防止犯錯(cuò),我們必須理解這些錯(cuò)誤有什么吸引力。我們必須從這”苦澀的教訓(xùn)”中學(xué)習(xí):長(zhǎng)遠(yuǎn)來看,將AI建立在我們對(duì)自身思維方式的認(rèn)知上是行不通的。而突破性進(jìn)展最終會(huì)來自完全相反的方法:基于搜索和學(xué)習(xí)進(jìn)行規(guī)模計(jì)算。最終的成功總是帶來些許怨恨,通常也不被完全理解,因?yàn)樗搅水?dāng)前受歡迎的、以人為中心的方法。
從歷史的教訓(xùn)中,我們能學(xué)到兩點(diǎn)。
第一,通用型方法有強(qiáng)大的力量。即使可用的算力變得非常大,這些方法仍然可以繼續(xù)擴(kuò)展,運(yùn)用增加的算力。似乎可以按照這種方式任意擴(kuò)展的方法有兩種:搜索和學(xué)習(xí)。
第二,思維的實(shí)際內(nèi)容復(fù)雜到非常可怕無可救藥。我們不該再試圖尋找簡(jiǎn)單的方法來思考其內(nèi)容,比如,用簡(jiǎn)單的方式去思考空間、物體、多智能體或者對(duì)稱性。
所有這些,都是隨意、本質(zhì)上非常復(fù)雜的外部世界的一部分。它們不應(yīng)該內(nèi)置在任何一個(gè)AI智能體中,因?yàn)樗鼈儚?fù)雜得沒有盡頭。相反,我們應(yīng)該只構(gòu)建能發(fā)現(xiàn)和捕獲這種任意復(fù)雜性的元方法,這種方法的本質(zhì)是能夠很好地找到近似值。不過,尋找的工作應(yīng)該交給我們的方法,而不是我們自己。我們需要的是能像我們一樣進(jìn)行發(fā)現(xiàn)的AI智能體,而不是包含我們已經(jīng)發(fā)現(xiàn)的東西在內(nèi)的AI。
在我們發(fā)現(xiàn)的基礎(chǔ)上建立AI,只會(huì)讓它更難看到發(fā)現(xiàn)的過程是如何進(jìn)行的。
原文鏈接:
http://www.incompleteideas.net/IncIdeas/BitterLesson.html
“甜蜜的一課”
堅(jiān)決不同意薩頓觀點(diǎn)的懷特森老師認(rèn)為,構(gòu)建AI當(dāng)然需要融入人類知識(shí),問題只在于該何時(shí)、如何、融入哪些知識(shí)。AI歷史上有“甜蜜的一課”(The Sweet Lesson),我們?cè)趪L試尋找正確先驗(yàn)知識(shí)的過程中,推動(dòng)了AI的進(jìn)步。他將薩頓的觀點(diǎn)總結(jié)為:“AI的歷史告訴我們,利用算力最終總是戰(zhàn)勝利用人類知識(shí)。”
以下是懷特森Twitter內(nèi)容的翻譯整理:
我認(rèn)為這是對(duì)歷史的一種特殊解釋。的確,很多把人類知識(shí)融入AI的努力都已經(jīng)被拋棄,隨著其他資源(不僅僅是計(jì)算力,還包括存儲(chǔ)、能源、數(shù)據(jù))的豐富,還會(huì)拋棄更多。但是,由此產(chǎn)生的方法的成功,不能僅僅歸功于這些豐富的資源,其中那些沒有被拋棄的人類知識(shí)也功不可沒。
要是想脫離卷積、LSTM、ReLU、批歸一化(batchnorm)等等做深度學(xué)習(xí),祝你好運(yùn)。要是拋開“圍棋是靜態(tài)、零和、完全可觀察的”這一先驗(yàn)知識(shí),就像搞定這個(gè)游戲,也祝你好運(yùn)。所以,AI的歷史故事并非融入人類知識(shí)一直失敗。恰恰相反,這是融入人類知識(shí)的勝利,實(shí)現(xiàn)的路徑也正是一種完全符合慣例的研究策略:嘗試很多方法,拋棄失敗的99%。剩下的1%對(duì)現(xiàn)代人工智能的成功至關(guān)重要,就和AI所以來的大量計(jì)算資源一樣關(guān)鍵。
薩頓說,世界固有的復(fù)雜性表明,我們不該把先驗(yàn)知識(shí)融入到系統(tǒng)中。但是我的觀點(diǎn)恰恰相反:正是這種復(fù)雜性,導(dǎo)致他推崇的搜索和學(xué)習(xí)方法極度復(fù)雜難解。只有借助正確的先驗(yàn)知識(shí),正確的歸納偏見(inductive biases),我們才能掌握這種復(fù)雜性。他說,“現(xiàn)代的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),只使用卷積和某些不變性的概念,而效果要好得多。”一個(gè)“只”字就凸顯了這種斷言的武斷性。如果沒有這些卷積和不變性,深度學(xué)習(xí)就不會(huì)成功,但它們卻被視作微小、通用到可以接受。
就是這樣,“苦澀的教訓(xùn)”避開了主要問題,這根本不是要不要引入人類知識(shí)的問題(因?yàn)榇鸢革@然是肯定的),而是該問這些知識(shí)是什么,該在何時(shí)、如何使用它。
薩頓說,“我們需要的是能像我們一樣進(jìn)行發(fā)現(xiàn)的AI智能體,而不是包含我們已經(jīng)發(fā)現(xiàn)的東西在內(nèi)的AI。”當(dāng)然。但是我們善于發(fā)現(xiàn)正是因?yàn)槲覀兲焐鷰в姓_的歸納偏見。
AI歷史上的“甜蜜一課”是這樣的:雖然找到正確的歸納偏見很難,但尋找的過程為原本難解的問題帶來了巨大的進(jìn)展。
原文鏈接:
https://twitter.com/shimon8282/status/1106534185693532160
論戰(zhàn)雙方
這場(chǎng)隔空論戰(zhàn)的雙方,分別是“強(qiáng)化學(xué)習(xí)之父”薩頓,和牛津大學(xué)計(jì)算機(jī)系教授希蒙·懷特森。都是強(qiáng)化學(xué)習(xí)領(lǐng)域的科學(xué)家,觀點(diǎn)卻截然相反。
強(qiáng)化學(xué)習(xí)之父:薩頓
薩頓,被認(rèn)為是現(xiàn)代計(jì)算強(qiáng)化學(xué)習(xí)的創(chuàng)始人之一,為強(qiáng)化學(xué)習(xí)做出了許多貢獻(xiàn),比如“時(shí)序差分學(xué)習(xí)”(temporal difference learning)和“策略梯度方法”(policy gradient methods)等等。
1978年,薩頓在斯坦福大學(xué)獲得了心理學(xué)學(xué)士學(xué)位,之后才轉(zhuǎn)向計(jì)算機(jī)科學(xué),在馬薩諸塞大學(xué)安姆斯特分校獲得博士學(xué)位。他與導(dǎo)師Andrew Barto合著的《強(qiáng)化學(xué)習(xí)導(dǎo)論》一書,已經(jīng)成為強(qiáng)化學(xué)習(xí)研究領(lǐng)域的基礎(chǔ)讀物。目前,薩頓任教于阿爾伯塔大學(xué),是計(jì)算機(jī)科學(xué)系的教授和 iCORE Chair,領(lǐng)導(dǎo)強(qiáng)化學(xué)習(xí)和人工智能實(shí)驗(yàn)室。2017年6月,薩頓加入Deepmind,共同領(lǐng)導(dǎo)其位于加拿大埃德蒙頓的辦公室,同時(shí)保持他在阿爾伯塔大學(xué)的教授職位。2001年以來,薩頓一直都是AAAI Fellow,在2003年獲得國際神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)頒發(fā)的President’s Award,并于2013年獲得了馬薩諸塞大學(xué)阿默斯特分校頒發(fā)的杰出成就獎(jiǎng)。
來自牛津大學(xué)的反對(duì)者:懷特森
希蒙·懷特森,是牛津大學(xué)計(jì)算機(jī)系的教授,專注于人工智能和機(jī)器學(xué)習(xí)領(lǐng)域。強(qiáng)化學(xué)習(xí)、讓智能體跟著演示學(xué)習(xí)都是他所研究的課題。他2007年獲得美國德克薩斯大學(xué)奧斯汀分校的計(jì)算機(jī)博士學(xué)位,隨后留校做了一段時(shí)間的博士后,然后任教于丹麥阿姆斯特丹大學(xué)。2015年,懷特森成為牛津大學(xué)副教授,2018年成為教授。
隔空論戰(zhàn),你支持誰?
除了懷特森之外,也有不少人對(duì)薩頓的觀點(diǎn)表示不能完全同意。比如Nando de Freitas認(rèn)為薩頓博文的最后一段非常正確、發(fā)人深省:
我們需要的是能像我們一樣進(jìn)行發(fā)現(xiàn)的AI智能體,而不是包含我們已經(jīng)發(fā)現(xiàn)的東西在內(nèi)的AI。在我們發(fā)現(xiàn)的基礎(chǔ)上建立AI,只會(huì)讓它更難看到發(fā)現(xiàn)的過程是如何進(jìn)行的。
但他也就著懷特森的觀點(diǎn),談了一些自己的想法:帝國理工學(xué)院教授、DeepMind高級(jí)研究員Murray Shanahan雖然支持不能人工手寫特定領(lǐng)域的先驗(yàn)知識(shí),但還是認(rèn)為“應(yīng)該尋找有利于讓AI學(xué)習(xí)這些常識(shí)類別的架構(gòu)上的先驗(yàn)”。
德克薩斯大學(xué)奧斯汀分校的助理教授Scott Niekum說,他大致同意薩頓的觀點(diǎn),但也有值得商榷的地方,比如科學(xué)從來都不是一條直線,很多最重要的發(fā)現(xiàn),可能就來自借助內(nèi)建特定領(lǐng)域知識(shí)來研究那些不夠通用的模型的過程。
這個(gè)問題,你怎么看?
-
AI
+關(guān)注
關(guān)注
87文章
31028瀏覽量
269381 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
267瀏覽量
11266
原文標(biāo)題:只有大規(guī)模算力才能救AI?強(qiáng)化學(xué)習(xí)之父 vs 牛津教授掀起隔空論戰(zhàn)
文章出處:【微信號(hào):mcuworld,微信公眾號(hào):嵌入式資訊精選】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論