這兩年人工智能(Artificial Intelligence)領域熱鬧非凡,不僅科技巨頭紛紛發力AI取得技術與產品的突破,還有眾多初創企業獲得風險資本的青睞,幾乎每周都可以看到相關領域初創公司獲得投資的報道。AiphaGo在圍棋游戲中大勝李世石使人們對AI刮目相看的同時也引發了對AI將如何改變我們生活的思考。
其實,人工智能從上世紀40年代誕生至今,經歷了一次又一次的繁榮與低谷,下面我們就來回顧下過去半個世紀里人工智能的發展歷程。
|人工智能發展的七個階段
1.起源階段:人工智能真正誕生于20世紀的40 - 50年代。這段時間里,大量從事數學、工程、計算機等研究領域的科學家們開始探討“人工大腦”的可能性。1950年阿蘭 圖靈(Alan Turing)發表了題為“機器能思考嗎”的著名論文,提出了著名的圖靈測試來定義機器智能。他說只要有30%的人類測試者在5分鐘內無法分辨出被測試對象究竟是人類還是機器,就可以認為機器通過了圖靈測試。
圖1:圖靈測試
2.第一次黃金時期:專業術語“人工智能”(Artificial Intelligence)誕生于1956年的達特矛斯會議,由計算機科學家John McCarthy首次正式提出。達特矛斯會議之后的十多年是人工智能的第一次黃金時代,科學家們對人工智能的前景滿懷激情,大批研究者撲向這一新領域,一些頂尖高校建立的人工智能項目獲得了ARPA等機構的大筆經費,甚至有研究者認為機器很快就能替代人類完成一切工作。
3.第一次低谷:到了70年代,由于計算機性能瓶頸、計算復雜性的增長以及數據量的不足,很多人工智能科研項目的承諾無法兌現,比如計算機視覺根本找不到足夠的數據庫進行訓練,智能也就無從談起。因此,學界將人工智能分為兩種:難以實現的強人工智能和可以嘗試的弱人工智能。強人工智能就是能像人類一樣執行通用任務;弱人工智能則只能處理單一問題。很多項目的進度停滯不前也影響了資助資金的走向,AI陷入了長達數年之久的低谷。
4.專家系統的出現:70年代之后,學術界逐漸接受新的思路:人工智能不光要研究算法,還得引入知識。于是,專家系統誕生了。它利用數字化的知識去推理,模仿某一領域的專家去解決問題。“知識處理”開始成為人工智能的研究重點。,1977年世界人工智能大會提出“知識工程”的啟發,rb的第五代計算機計劃、英國的阿爾維計劃、歐洲的尤里卡計劃和mg的星計劃相繼出臺,帶來專家系統的高速發展。
5.第二次經費危機:20世紀90年代之前的大部分人工智能項目都是靠zf機構資助,經費走向直接影響著人工智能的發展。80年代中期,蘋果和IBM的臺式機性能已經超過了運用專家系統的通用型計算機,專家系統的風光隨之褪去,人工智能研究再次遭遇經費危機。
6.IBM的深藍和Watson:專家系統之后,機器學習成為了人工智能的焦點,其目的是讓機器具備自動學習的能力,通過算法使得機器能夠從大量歷史數據中學習規律并對新的樣本作出判斷識別。。在這一階段,IBM無疑是人工智能領域的領袖,1996年IBM公司的AI系統“深藍”戰勝了國際象棋世界冠軍卡斯帕羅夫,2011年IBM公司的AI系統Watson在電視問答節目中戰勝人類選手。后者涉及到放到現在仍然是難題的自然語言理解,成為機器理解人類語言的里程碑事件。
7.深度學習的強勢崛起:深度學習是機器學習的第二次浪潮。2013年4月,《麻省理工學院技術評論》將深度學習列為2013年十大突破性技術之首。其實,深度學習并非新事物,它是傳統神經網絡(Neural Network)的發展,兩者采用了相似的分層結構,不同之處在于深度學習采用了不同的訓練機制,具備強大的表達能力。傳統神經網絡曾經在機器學習領域火過一陣子,但后來由于參數難于調整和訓練速度慢等問題逐漸淡出了人們的視野。
但是有一位叫Geoffrey Hinton的多倫多大學老教授非常執著于神經網絡的研究,并和Yoshua Bengio、Yann LeCun一起提出了可行的深度學習方案。2012年Hinton的學生在圖片分類競賽ImageNet上打敗了Google,頓時讓學術界和工業界嘩然,吸引了工業界對深度學習的大規模投入。2012年Google Brain用16000個CPU核的計算平臺訓練10億神經元的深度網絡,無外界干涉下自動識別出了“Cat”;Hinton的DNN初創公司被Google收購,Hinton個人也加入了Google;而另一位大牛LeCun加入Facebook,出任AI實驗室主任。不僅科技巨頭們加大對AI的投入,一大批初創公司乘著深度學習的東風涌現,使得人工智能領域熱鬧非凡。
|人工智能之主要引擎:深度學習
機器學習發展分為兩個階段,起源于上世紀20年代的淺層學習(ShallowLearning)和最近幾年才火起來的深度學習(Deep Learning)。淺層學習的算法中最先被發明的是神經網絡的反向傳播算法(back propagation)。為什么稱之為淺層呢,因為當時的訓練模型是只含有一層隱含層的淺層模型。這種模型有個很大的弱點,那就是有限參數和計算單元,特征表達能力弱。
上世紀90年代,學術界提出一系列的淺層機器學習模型,包括風行一時的支撐向量機Support Vector Machine,Boosting等。這些模型相比傳統神經網絡在效率和準確率上都有所提升。但后來人們發現,識別精度到達一定程度后,即使訓練再多的數據,再怎么調整參數,精度也無法繼續提高。
在此期間,Hinton教授一直執著于多隱層神經網絡的算法研究。多隱層神經網絡其實就是淺層神經網絡的深度版本,試圖使用更多的神經元來表達特征,其實現難點主要在于以下三方面:
BP算法中誤差的反向傳播隨著隱層的增加而衰減;很多時候只能達到局部最優解;
模型參數增加,對訓練數據的量有很高要求,如果不能提供龐大的標識數據,可能會導致過度復雜;
多隱層結構的參數多,訓練數據的規模大,需要消耗很多計算資源。
圖2:傳統神經網絡與多隱層神經網絡
2006年,Hinton和他的學生R.R. Salakhutdinov成功訓練出多層神經網絡,在《Science》上發表文章(Reducingthe dimensionality of data with neural networks),改變了整個機器學習的格局。這篇文章有兩個主要觀點:1)多隱層神經網絡有更強大的學習能力,可以表達更多特征來描述對象;2)訓練深度神經網絡時,可通過降維(pre-training)來實現。Hinton教授設計的Autoencoder網絡能夠快速找到好的全局最優點,采用無監督的方法先分開對每層網絡進行訓練,然后再進行微調。
圖3:圖像的與訓練,編碼→解碼→微調
從圖3我們可以看到,深度神經網絡是逐層進行預訓練,得到每一層的輸出;同時引入編碼器和解碼器,通過原始輸入與編碼→再解碼之后的誤差來訓練,這兩步都是無監督訓練過程;最后引入有標識樣本,通過有監督訓練來進行微調。逐層訓練的好處是讓模型處于一個接近全局最優的位置去獲得更好的訓練效果。
以上就是Hinton在2006年提出的著名的深度學習框架,而我們實際運用深度學習網絡的時候,不可避免的會碰到卷積神經網絡(Convolutional Neural Networks, CNN)。CNN的原理是模仿人類神經元的興奮過程:大腦中的一些神經細胞只有在特定方向的邊緣存在時才能做出反應。打個比方,當我們非常近距離地觀察一張人臉圖片時,這時候我們的大腦中只有一部分神經元是被激活的,我們也只能看到人臉上的像素級別點,當我們把距離一點點拉開,大腦其他部分的神經元將會被激活,我們也就可以觀察到人臉的線條→圖案→局部→整個人臉,這就是一步步獲得高層特征的過程。
圖4:基本完整的深度學習流程
深度學習的好處是顯而易見的 – 特征表達能力強,有能力表示大量的數據;預訓練是無監督訓練,節省大量人力標識工作;相比傳統的神經網絡,通過逐層訓練的方法降低了訓練難度,如信號衰減的問題。深度學習在很多領域比淺層學習算法往往有20-30%的提高,驅使研究者發現新大陸一般涌向深度學習這一領域。
|深度學習的重要發展領域
深度學習首先在圖像、聲音和語義識別取得了長足的進步,特別是在圖像和聲音領域相比傳統算法大大提升了識別率。其實也很容易理解,深度學習是模仿人類大腦神經感知外部世界的算法,而最常見的外部自然信號莫過于圖像、聲音和文字(非語義)。
圖像識別:圖像是深度學習最早嘗試的領域。YannLeCun早在1989年就開始了卷積神經網絡的研究,取得了在一些小規模(手寫字)的圖像識別的成果,但在大像素圖片識別上遲遲沒有突破,直到2012年Hinton和他學生在ImageNet上的突破,才使識別精度提高了一大截。2014年,xg中文大學教授湯曉鷗領導的計算機視覺研究組開發了名為DeepID的深度學習模型,在人臉識別上獲得了99.15%的識別率,超過了人類肉眼的的識別率(97.52%)。
語音識別:語音識別長期以來都使用混合高斯模型來建模,盡管降低了語音識別的錯誤率,但在有噪音的實際自然環境中達不到可用的級別。直到深度學習的出現,使得識別錯誤率在以往最好的基礎上相對下降30%以上,達到商業可用的水平。
自然語言處理(NLP):即使到現在,深度學習在NLP領域并沒有取得像圖像識別或者語音識別領域那樣的成就,基于統計的模型仍然是NLP的主流,先通過語義分析提取關鍵詞、關鍵詞匹配、算法判定句子功能(找出距離這個句子最近的標識好的句子),最后再利用提前準備的數據庫提供用戶輸出結果。顯然,這明顯談不上智能,只能算一種搜索功能的實現,而缺乏真正的語言能力。
為什么深度學習在NLP領域進展緩慢?這是因為,對語音和圖像來說,其構成元素(輪廓、線條、語音幀)不用經過預處理都能清晰反映出要識別的對象,可以直接放到神經網絡里進行識別。而語義識別大不相同:人說的每句話并非自然信號,含有豐富多變的語義,對它的理解需要參考上下文語境的,有時候還會涉及到大量的文化背景知識。因此,仿人類大腦識別機制建立的深度學習,對經過我們人類大腦處理的文字信號的理解,效果反而差強人意。根本上來說,現在的算法還屬于弱人工智能,可以去幫人類快速的自動執行(識別),卻不能理解這件事情本身。
|深度學習的挑戰和發展方向
受益于計算能力的提升和大數據的出現,深度學習在計算機視覺和語音識別領域成就斐然,不過我們也看到了一些深度學習的局限性,亟待解決:
深度學習在學術領域取得了不錯的成果,但在商業上對企業幫助并不明顯。因為深度學習是一個映射的過程,從輸入A映射到輸出B,而在企業活動中如果我已經擁有了這樣的A→B映射,為什么還需要機器學習來推斷呢?讓機器自己在數據中尋找這種映射關系或者進行yc,目前還存在很大難度。
缺乏理論基礎,這是困擾著研究者的問題。比如說,AlphaGo這盤棋贏了,你很難弄懂它是怎么贏的。可以說,深度學習是一個黑箱子,神經網絡需要多少個隱層來訓練,到底需要多少有效的參數等,都沒有很好的理論解釋。
深度學習需要大量的訓練樣本。由于深度學習的多層網絡結構,模型的參數也會增加,如果訓練樣本不夠大是很難實現的,需要海量的標記數據,避免產生過擬合現象(overfitting)而不能很好的表示整個數據。
深度學習在NLP領域還面臨很大挑戰,目前的模型缺乏理解及推理能力。
因此,深度學習將來的發展方向也將涉及到以上問題的解決。Hinton、LeCun和Bengio三位AI領袖曾在合著的一篇論文(Deep Learning)的結尾提出了深度學習的未來發展方向:
無監督學習。雖然監督學習在深度學習中表現不俗,超過了無監督學習在預訓練中的效果,但人類和動物的學習都是無監督學習方式,我們感知世界都是通過我們自己的觀察,因此若要更加接近人類大腦的學習模式,無監督學習需要得到更好的發展。
強化學習。增強學習指的是從外部環境到行為映射的學習,通過基于回報函數的試錯來發現最優行為。由于在實際運用中數據量是遞增的,在新數據中能否學習到有效的數據并做出修正非常重要,深度+強化學習可以提供獎勵的反饋機制讓機器自主的學習,典型案例是AlphaGo。
理解自然語言。老教授們說:趕緊讓機器讀懂人類的語言吧!
遷移學習。把利用大數據訓練好的模型遷移運用到有效數據量小的任務上,也就是把學到的知識有效的解決不同但相關領域的問題。這事情看起來很美好,但難點在于已訓練好的模型存在自我偏差,需要高效算法去消除這些偏差。根本上來說,就是讓機器像人類一樣具備快速學習新知識的能力。
自深度學習被Hinton在《Science》發表以來,短短的不到10年時間里,帶來了人工智能在視覺、語音等領域的突破性進步,再一次掀起來人工智能的熱潮。雖然目前仍然存在很多差強人意的地方,距離強人工智能還有很大差距,但深度學習是目前最接近人類大腦運作原理的算法。相信在將來,隨著算法的完善以及數據的積累,甚至硬件層面仿人類大腦神經元材料的出現,深度學習將會更進一步推動人工智能的發展。
審核編輯 黃昊宇
-
人工智能
+關注
關注
1792文章
47497瀏覽量
239214 -
深度學習
+關注
關注
73文章
5510瀏覽量
121338
發布評論請先 登錄
相關推薦
評論