今天,機(jī)器學(xué)習(xí)諸多理論的主要奠基人、美國三院院士Michael I. Jordan受聘為清華大學(xué)訪問教授,同時發(fā)表主題報告。Jordan認(rèn)為,大數(shù)據(jù)的增長對傳統(tǒng)的數(shù)據(jù)科學(xué)理論提出了改變的需求,特別是統(tǒng)計學(xué)和計算學(xué)的相關(guān)理論,應(yīng)該呈融合式的發(fā)展。Jordan特別提到,要在明年1月正式發(fā)布他們研究室的分布式機(jī)器學(xué)習(xí)框架Ray,集統(tǒng)計推理、機(jī)器學(xué)習(xí)、大數(shù)據(jù)處理、計算等為一體,超越Spark。
12月20日,清華大學(xué)正式宣布聘請計算機(jī)科學(xué)機(jī)器學(xué)習(xí)領(lǐng)域頂級學(xué)者M(jìn)ichael I. Jordan為訪問教授,聘請儀式在清華大學(xué)主樓進(jìn)行。
除了清華大學(xué)校領(lǐng)導(dǎo),來自人大、北大等高校的代表,以及企業(yè)界代表——百度副總裁王海峰出席了聘請儀式。
Michael I. Jordan是美國國家科學(xué)院院士、美國國家工程院院士以及美國藝術(shù)與科學(xué)院院士。Jordan教授也是美國加州大學(xué)伯克利分校Pehong Chen特聘教授,擔(dān)任大數(shù)據(jù)實(shí)驗(yàn)室(AMPLab)共同主任、統(tǒng)計人工智能實(shí)驗(yàn)室(SAIL)主任、統(tǒng)計系系主任。長期引領(lǐng)著機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)的理論、方法與系統(tǒng)研究,是貝葉斯網(wǎng)絡(luò)、概率圖模型、層次隨機(jī)過程等多個重要方向的主要奠基者之一,也是統(tǒng)計學(xué)與機(jī)器學(xué)習(xí)交叉融合的主要推動者之一。
機(jī)器學(xué)習(xí)領(lǐng)域的“邁克爾·喬丹”
2016年4月,位于美國西雅圖的艾倫人工智能研究院(AI2)名叫Semantic Scholar的程序基于400萬份計算機(jī)領(lǐng)域的論文,計算出了最有影響力的學(xué)者排名。其中在機(jī)器學(xué)習(xí)領(lǐng)域的Michael I. Jordan以1185的得分位居第一。
2015年秋天,由微軟聯(lián)合創(chuàng)始人保羅·艾倫創(chuàng)立的艾倫人工智能研究所(Allen Institute for Artificial Intelligence)發(fā)布了一款名為Semantic Scholar的搜索服務(wù),其瞄準(zhǔn)的競爭對手是Google Scholar、PubMed和其他在線學(xué)術(shù)搜索引擎。這項計劃最初的目標(biāo)是讓這款由人工智能驅(qū)動的搜索引擎能在一定程度上真正理解搜索出來的論文。但后來,Semantic Scholar有了一個新目標(biāo):衡量一位科學(xué)家或一所研究機(jī)構(gòu)對之后研究的影響。
根據(jù)Science報道,Semantic Scholar將不僅僅為論文排名,也會根據(jù)某一影響因素為作者、機(jī)構(gòu)排名。例如,Semantic Scholar發(fā)現(xiàn),MIT是當(dāng)今計算機(jī)科學(xué)領(lǐng)域影響力最大的機(jī)構(gòu)——這并不奇怪。不過,誰是計算機(jī)科學(xué)領(lǐng)域影響力最大的科學(xué)家呢?
如果你要看原始引用次數(shù)最高的人,那么計算機(jī)科學(xué)領(lǐng)域當(dāng)前頂尖科學(xué)家是加州大學(xué)伯克利分校的Scott Shenker。但使用Semantic Scholar得出的結(jié)果是,影響力最大的是Shenker的同事——同樣在加州大學(xué)伯克利分校工作的Michael I. Jordan。Jordan是人工智能領(lǐng)域的先驅(qū),但他的名字極少為外人所知。艾倫人工智能研究所所長、Semantic Scholar的研發(fā)負(fù)責(zé)人Oren Etzioni戲稱其為“機(jī)器學(xué)習(xí)領(lǐng)域的邁克爾·喬丹”。
使用Semantic Scholar搜索Michael I. Jordan的結(jié)果
聘請儀式結(jié)束后,Michael I. Jordan現(xiàn)場作了題為《On Computational Thinking, Inferential Thinking and Data Science》的報告分享。
Jordan演講核心:融合計算理論與統(tǒng)計理論
科學(xué)和技術(shù)界中數(shù)據(jù)集大小和規(guī)模的快速增長,已經(jīng)創(chuàng)造了關(guān)于數(shù)據(jù)科學(xué)的、新穎的基礎(chǔ)性視角的需求,這種視角應(yīng)該是融合了推理(Inferential)和計算機(jī)科學(xué)的。
這些領(lǐng)域中傳統(tǒng)的視角和思路不足以解決“大數(shù)據(jù)”中凸顯的難題,這顯然是由于在基礎(chǔ)性的層面,二者存在突出的分歧。在計算機(jī)科學(xué)中,數(shù)據(jù)點(diǎn)數(shù)量的增長是”復(fù)雜性“的來源,必須通過算法或者硬件來訓(xùn)練。而在統(tǒng)計學(xué)中,數(shù)據(jù)點(diǎn)數(shù)量的增長是”簡單性“的來源,它能讓推理在總體上變得更強(qiáng)大,引出漸進(jìn)式的結(jié)果。
在形式層上,核心的統(tǒng)計學(xué)理論中缺乏計算機(jī)理論中的概念,比如“runtime”(運(yùn)行時)的作用,而在核心的計算理論中,又缺乏統(tǒng)計學(xué)概念,比如“risk”的作用。二者之間的差異(Gap) 顯而易見。
演講展示了幾個研究,用以為計算學(xué)和統(tǒng)計學(xué)搭建起橋梁,其中包括在隱私和交流限制下的推理問題,以及推理的速度和準(zhǔn)確率之間達(dá)成平衡的方法。
值得一提的是,在演講完后的問答環(huán)節(jié)中,有兩位提問的人總想讓Jordan在圖模型(graph model)和深度神經(jīng)網(wǎng)絡(luò)(DNN)上選擇一種。不過,Jordan 認(rèn)為,兩種方法都同樣屬于將統(tǒng)計融入了計算理論,因此——他不做選擇。
此前,新智元特邀編輯小猴機(jī)器人2011年曾對話Michael I. Jordan 教授,并在InfoQ 發(fā)表文章《對話機(jī)器學(xué)習(xí)大神 Michael Jordan:深度模型》。
在5年以前,喬丹教授就認(rèn)為,統(tǒng)計或者機(jī)器學(xué)習(xí)需要更加深入的與計算機(jī)科學(xué)系統(tǒng)和數(shù)據(jù)庫接觸,并不僅僅與具有人工智能的人。這一直是過去的幾十年里正在進(jìn)行的,并且直到現(xiàn)在仍然保持著“機(jī)器學(xué)習(xí)”的熱點(diǎn)。在當(dāng)時的采訪中,小猴機(jī)器人了解到,喬丹教授從2006年到2011年在伯克利分校“RAD實(shí)驗(yàn)室”,直到現(xiàn)在在“AMP實(shí)驗(yàn)室”,在這段時間里一直都做著這樣的事情。
采訪中提到,喬丹教授相對于術(shù)語“神經(jīng)網(wǎng)絡(luò)”用法的重塑形象,更偏向于“深度學(xué)習(xí)”。在其他的工程領(lǐng)域里,利用流水線、流程圖和分層體系結(jié)構(gòu)來構(gòu)建復(fù)雜系統(tǒng)的想法非常根深蒂固。而在機(jī)器學(xué)習(xí)的領(lǐng)域,尤其應(yīng)該研究這些原則來構(gòu)建系統(tǒng)。這個詞“深”僅僅意味著——分層,喬丹教授深深的希望這個語言最終演變成如此簡單的文字。他希望并期待看到更多的人開發(fā)使用其他類型模塊、管道的體系結(jié)構(gòu),并不僅僅限制在“神經(jīng)元”的層次。
神經(jīng)科學(xué)——在接下來幾百年的重大科學(xué)領(lǐng)域之一——我們?nèi)匀徊皇呛芰私庠谏窠?jīng)網(wǎng)絡(luò)中想法是如何產(chǎn)生的,仍然看不到作為思想的主要產(chǎn)生器的神經(jīng)科學(xué),如何能夠在細(xì)節(jié)上打造推理和決策系統(tǒng)。相比之下,計算機(jī)領(lǐng)域的一些假設(shè),比如“并行是好的”或者“分層是好的”,已經(jīng)足以支撐人們對大腦工作機(jī)制的理解。
喬丹教授補(bǔ)充舉例道,在神經(jīng)網(wǎng)絡(luò)的早期他還是一個博士研究生,反向傳播算法還沒有被發(fā)現(xiàn),重點(diǎn)在Hebb規(guī)則和其他的“神經(jīng)合理”的算法,任何大腦不能做的事情都被避免了。他們需要變得很純粹來發(fā)現(xiàn)人們思考的新形式。接著Dave Rumelhart開始探索反向傳播算法——這顯然是跳出于神經(jīng)合理約束的——突然這個系統(tǒng)變得如此強(qiáng)大。這對他產(chǎn)生了很深刻的影響。這告訴我們,不要對主題和科學(xué)的模型強(qiáng)加人工的限制,因?yàn)槲覀內(nèi)匀贿€不懂。
喬丹教授的理解是,許多“深度學(xué)習(xí)成功案例”涉及了監(jiān)督學(xué)習(xí)(如反向傳播算法)和大量的數(shù)據(jù)。涉及到大量線性度、光滑非線性以及隨機(jī)梯度下降的分層結(jié)構(gòu)似乎能夠記住大量模式的數(shù)字,同時在模式之間插值非常光滑。此外,這種結(jié)構(gòu)似乎能夠放棄無關(guān)緊要的細(xì)節(jié),特別是如果在合適的視覺領(lǐng)域加上權(quán)重分擔(dān)。它還有一些總體上的優(yōu)點(diǎn)總之是一個很有吸引力的組合。但是,這種組合并沒有“神經(jīng)”的感覺,尤其是需要大量的數(shù)據(jù)標(biāo)簽。
事實(shí)上,無監(jiān)督學(xué)習(xí)一直被認(rèn)為是圣杯。這大概是大腦擅長什么,和真正需要什么來建立真的“大腦啟發(fā)式電腦”。但是在如何區(qū)分真正的進(jìn)步和炒作上還存有困難。根據(jù)喬丹的理解,至少在視覺方面,非監(jiān)督學(xué)習(xí)的想法并沒有對最近的一些結(jié)果負(fù)責(zé),很多都是機(jī)遇大量數(shù)據(jù)集的監(jiān)督訓(xùn)練的結(jié)果。
接近非監(jiān)督學(xué)習(xí)的一種方式是將好的“特征”或者“表示”的各種正式特點(diǎn)寫下來,并且將他們與現(xiàn)實(shí)世界相關(guān)的各種假設(shè)捆綁在一起。這在神經(jīng)網(wǎng)絡(luò)文學(xué)上已經(jīng)做了很久,在深度學(xué)習(xí)工作背景下的也做出了更多的工作。但是喬丹認(rèn)為,要走的路是將那些正式的特征放進(jìn)放進(jìn)優(yōu)化函數(shù)或者貝葉斯先驗(yàn),并且制定程序來明確優(yōu)化整合它們。這將是很困難的,這是一個持續(xù)的優(yōu)化的問題。在一些近期的深度學(xué)習(xí)工作中,有一個不同的策略——使用自己喜歡的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來分析一些數(shù)據(jù),并且說“看,這表達(dá)了那些想要的、并沒有包括進(jìn)去的性質(zhì)”。這是舊式的神經(jīng)網(wǎng)絡(luò)推理,它被認(rèn)為僅僅是“神經(jīng)”,僅僅包含了某種特殊的調(diào)料。這個邏輯是完全沒有用的。
最后,喬丹教授談到了哲學(xué)的層面,他認(rèn)為神經(jīng)網(wǎng)絡(luò)是工具箱中重要工具之一。但當(dāng)他被業(yè)界咨詢的時候,卻很少提到那種工具。工業(yè)界里人往往期望解決一系列的問題,通常不涉及上文所說的神經(jīng)網(wǎng)絡(luò)的“模式識別”的問題。比如說如下這些問題:
(1) 該怎樣建立一段時間內(nèi)的預(yù)算的模型,能夠讓我得到想要精確程度的結(jié)果,并且不管我有多少數(shù)據(jù)?
(2) 怎樣才能獲得我的數(shù)據(jù)庫所有查詢的表現(xiàn)的有意義的錯誤信息或者其他衡量方法的信息?
(3) 怎樣才能與數(shù)據(jù)庫思維(如連接)合并統(tǒng)計思維,以使我能夠有效地清除數(shù)據(jù)和合并異構(gòu)數(shù)據(jù)源?
(4) 該如何可視化數(shù)據(jù),一般我該如何減少我地數(shù)據(jù)并且將我的推論展示給別人,讓他們理解這是怎么回事?
(5) 該如何做診斷,這樣我就不會推出一個有缺陷地系統(tǒng),或者找出一個現(xiàn)有地系統(tǒng)被損壞了?
(6) 該如何處理非平穩(wěn)性?
(7) 該如何做一些有針對性地實(shí)驗(yàn),其中合并了我巨大地現(xiàn)有數(shù)據(jù)集,以使我能夠斷言一些變量有一些因果關(guān)系?
以下是今天 Jordan 教授清華大學(xué)演講部分演講PPT(編注:部分PPT標(biāo)題顯示不完整,原本如此,非拍攝或后期處理原因):
Jordan 從一個職位描述講起,介紹大數(shù)據(jù)帶來的挑戰(zhàn),引出演講主題:“大數(shù)據(jù)”時代同時需要計算思維和推理思維。
計算思維指的是:提娶建模、擴(kuò)展性、魯棒性等等
推理思維指的是:思考數(shù)據(jù)背后的真實(shí)世界現(xiàn)象;考慮抽樣模型;開發(fā)能從數(shù)據(jù)“回饋”到潛在現(xiàn)象的程序。
隱私與推理:差分隱私
計算與推理
推理質(zhì)量與經(jīng)典的計算資源,比如時間和空間,如何平衡?
很難!
計算與推理的機(jī)制和邊界
Jordan 所在研究機(jī)構(gòu)與合作伙伴
大數(shù)據(jù)軟件的增長情況
Spark 之后的下一個平臺:Ray
Jordan 介紹說,他們研究室開發(fā)的 Ray 將于明年一月份左右發(fā)布。Ray 集統(tǒng)計推理、機(jī)器學(xué)習(xí)、大數(shù)據(jù)處理、計算等為一體。
動力源于構(gòu)建更好的分布式機(jī)器學(xué)習(xí)框架
目標(biāo):
在單機(jī)上運(yùn)行相同的代碼和簇;對既有的代碼進(jìn)行最小化的修正,讓其變得可分布;有效地支持大量的小任務(wù);在任務(wù)間有效地分享數(shù)據(jù)
運(yùn)行模型
例子:遞歸神經(jīng)網(wǎng)絡(luò)計算的依存圖
代碼運(yùn)行案例
系統(tǒng)架構(gòu)
應(yīng)用:商品檢測、欺詐檢測、認(rèn)知助手、物聯(lián)網(wǎng)。
特點(diǎn):低延遲、個性化和快速變化。
評論
查看更多