在韓國首爾舉行的圍棋賽的中途,世界級頂尖圍棋選手李世石和谷歌人工智能阿爾法狗的較量中,人工智能阿爾法狗走出了超越人類令人不安的神秘的一步棋。
在第37步,AlphaGo選擇把一塊黑色的棋子放在一開始就像一個荒謬的位置。它看起來肯定會放棄一個實質性的領域 - 這是圍棋中控制棋盤空間的一個新手錯誤。兩位電視評論員想知道他們是否誤讀了這一舉措,或者機器出了故障。事實上,與傳統智慧相反,第37步將使AlphaGo在棋盤中心建立一個強大的基礎。谷歌程序高效地贏得了這場比賽,采取了一個沒有人會想出的走法。
關于藝術
理解語言對計算機和人工智能系統(AI)如此困難的一個原因是,單詞通常具有基于上下文的含義,甚至需要考慮字母和單詞的表達方式。在這個圖片的故事中,幾位藝術家展示了使用各種視覺上的細節來傳達超越實際字母的意義。
這個故事是我們2016年9/10月的問題的一部分
阿爾法狗的勝利特別令人印象深刻,因為圍棋經常被看作是對直覺式智能的測試。規則很簡單。兩名球員輪流在棋盤上的水平線和垂直線交叉處放置黑色或白色棋子,試圖圍繞對手的棋子并將棋子從場上移開。然而,要玩的好是非常困難的。
盡管棋手能夠預測之后的幾??步棋,但是圍棋游戲開始之后卻會展現出無比的復雜性,而且沒有經典的博弈。衡量優勢也沒有直接的方法,即使是大師也很難解釋為什么他下了這一步棋。這使得用一套簡單的規則編寫專家級圍棋計算機程序是不可能的。
沒有人告訴阿爾法狗怎么玩圍棋。相反,該程序分析了數十萬場比賽,并和自己打了數百萬場比賽。在一些人工智能技術中,它使用了一種越來越受歡迎的深度學習方法,這種方法涉及的數學計算非常簡單,通過神經元的在大腦中的相互連接,它可以學習如何理解新的信息。該程序通過幾個小時的練習來教導自己,逐漸磨練出一個直觀的戰略意識。當時它能夠擊敗世界上最好的圍棋選手之一時,代表了人工智能(AI)的真正里程碑。
勞倫斯·韋納橡 膠球扔到海里 1970 / 2014
第37步之后的幾個小時,AlphaGo贏得了兩場比賽的勝利,在五人制比賽中連勝。之后,李世石站在一群記者和攝影師面前,禮貌地道歉由于人類的失敗。“我無話可說,”他說,透過閃光的攝影機。
AlphaGo令人驚訝的成功指出,過去幾年人工智能取得了多大的進步,經過幾十年的挫折和挫折,即常常被形容為“人工智能冬天”的那段時間。深度學習意味著機器可以越來越多地自學如何執行那些在幾年前才被認為需要人類獨特的智慧的復雜任務。自駕汽車已經是可預見的了。在不久的將來,基于深度學習的系統將用于診斷疾病和推薦治療。
然而,盡管取得了令人印象深刻的進步,但其中一個基本能力仍然是難以捉摸的:自然語言 像Siri和IBM的Watson這樣的系統可以理解簡單的口頭表達并回答基本的問題,但是他們不能進行對話,也不能真正理解他們使用的單詞。如果人工智能要真正具有變革性,這種情況就必須改變。
即使AlphaGo不能說話,它使用的技術可能會促進更好的語言理解。在谷歌,臉書和亞馬遜這樣的公司以及領先的人工智能實驗室中,研究人員試圖最終解決這個看似棘手的問題,使用一些類似的使得阿爾法狗成功的人工智能(AI)工具(包括深度學習)。它們是否成功將決定現在正在進行的人工智能的革命的規模和性質。這將有助于確定我們是否會擁有我們可以輕松地與其進行溝通的機器 (機器成為我們日常生活中的一部分 )或者人工智能(AI)系統是否仍然是神秘的黑匣子,即使它們變得更加自動化。“你不可能擁有一個人性化的沒有自然語言理解能力的人工智能(AI)系統,“麻省理工學院認知科學與計算學教授Josh Tenenbaum說,“這是區分人類智慧的最明顯的事情之一。”
也許使阿爾法狗攻克圍棋的技術最終將使計算機掌握語言,或者也許還需要點別的技術。但是沒有語言理解,人工智能的影響將會大為不同。當然,我們仍然可以擁有非常強大和智能的類似阿爾法狗的軟件。但是我們與人工智能的關系可能遠遠不夠和諧,遠沒有那么友好。“從一開始這就是一個令人頭痛的問題,”如果你有那些在有些方面是很有效的東西,但是卻和我們不同。“斯坦福大學名譽教授Terry Winograd說。“你可以想象運行世界機器不是基于人類的智慧,而是基于這個大數據的東西。
機器低語者
在阿爾法狗勝利幾個月后,我前往硅谷,這是人工智能最新潮的核心。我想拜訪那些在人工智能的實際應用上取得顯著進步的研究人員,他們現在正試圖讓機器更好地理解語言。
我從Winograd開始,他住在郊區,在帕洛阿爾托斯坦福大學校園南端,離谷歌,臉書和蘋果公司總部不遠。他卷曲的白頭發和濃密的胡須,看起來是一個古老的學者,他有著傳染病般的熱情。
早在1968年,Winograd就成為教機器交談的先驅者之一。作為一位數學神童,他著迷于語言,他來到麻省理工學院新的人工智能實驗室學習他的博士學位,并決定通過文字提示,用日常語言建立一個與人交談的程序。當時這看起來似乎是一個很古怪的想法。人工智能正在取得令人難以置信的進展,麻省理工學院的其他人正在構建復雜的計算機視覺系統和未來的機器人手臂。他回憶說:“人工智能有一種未知的,無限的可能性。
四種顏色 四個字母 Joseph Kosuth 1966
盡管不是每個人都相信,語言可以很容易掌握。包括有影響力的語言學家和麻省理工學院教授諾姆·喬姆斯基(Noam Chomsky)在內的一些批評家認為,由于對人類的語言機制知之甚少,人工智能研究人員很難使得機器理解語言。Winograd記得參加一個派對的時候,喬姆斯基的一個學生聽到他說自己在人工智能實驗室工作,就走開了。
但是也有理由保持樂觀。德國出生的麻省理工學院教授Joseph Weizenbaum在幾年前建立了第一個聊天機器人程序。被稱為ELIZA,它被編程為一個卡通心理治療師,重復聲明關鍵的部分或提出的問題,將促進進一步的交流。例如,如果你告訴程序,你對你的母親生氣,就會說:“當你想到你的母親時,還想到了什么?”一個簡單的伎倆,但它工作的出人意料的好。當一些學科開始向他的機器承認他們最黑暗的秘密時,魏澤鮑姆感到非常震驚。
將深度學習應用于語言存在明顯的問題。語言是抽象的,它們與圖像存在著本質的差異。
Winograd想要創造一些真正似乎理解語言的東西。他從縮小問題的范圍開始。他創造了一個簡單的虛擬環境,一個“方塊世界”,由一些想象中的物體放在一張虛構的桌子上組成。然后他創建了一個名為SHRDLU的程序 ,這是能夠解析所有名詞,動詞,和簡單的語法規則,這些規則被用來描述這個精簡的虛擬世界。SHRDLU(由Linotype機器上的第二列鍵組成的無意義的單詞)可以描述對象,回答它們之間的關系的問題,并根據輸入的命令對塊世界進行更改。它甚至有一種記憶,所以如果你告訴它移動“紅色圓錐體”,然后再提到“圓錐體”,它會認為你的意思是移動紅色的,而不是另一種顏色。
SHRDLU被認為是AI的領域正在取得深刻進展的一個標志。但這只是一個錯覺。當Winograd試圖使程序的方塊世界更大時,必要的詞匯和語法規則的復雜性將變得難以管理。就在幾年之后,他放棄了,并且最終他放棄了人工智能(AI),專注于其他領域的研究。他說:“這個限制比當時看起來要更加接近了“。
Winograd總結說,使用當時可用的工具讓機器真正理解語言是不可能的。加州大學伯克利分校哲學系教??授Hubert Dreyfus在1972年的一本名為“ What Computers Can not Do”的書中認為,問題在于,人類所做的許多事情都需要一種本能的直覺,而這種直覺不能夠被簡單的規則所掌控。這正是為什么在李世石和阿爾法狗之間的比賽之前,許多專家懷疑機器會掌握圍棋。
純美 John Baldessari 1966-68
但是,即使德雷福斯提出這樣的觀點,事實上上,一些研究人員正在開發一種方法,最終會使機器具備這種智能。他們從神經科學中獲得了靈感,他們正在試驗人工神經網絡 (數學建模成的神經元層,可以訓練它們響應某些輸入而激活)。首先,這些系統的速度非常緩慢,并且這種方法在邏輯上被認為是不切實際的。然而,至關重要的是,神經網絡可以學習做不能被手工編程的東西,后來這種方法被證明對于一些簡單任務是有效的,例如識別手寫字符,這是一種在20世紀90年代商業化的技術,用于 讀取支票上的數字。支持者認為,神經網絡最終會讓機器做得更多。有一天,他們聲稱,這項技術甚至會理解語言。
在過去的幾年里,神經網絡變得越來越復雜和強大。這種方法得益于關鍵的數學方法的改進,更重要的是,現在出現了更快的計算機硬件和更多的數據。到2009年,多倫多大學的研究人員已經證明,多層深度學習神經網絡模型能夠準確的識別語音。然后在2012年,同樣的一個小組使用深度學習算法贏得了機器視覺比賽,這個算法非常準確。
深度學習神經網絡使用簡單的技巧識別圖像中的對象。第一層模擬的神經元以圖像的形式接收輸入,并且這些神經元中的一些將響應于各個像素的強度而激活。所得到的信號在到達輸出層之前經過更多層相互連接的神經元,這表示該物體已經被看見。一種稱為反向傳播的數學方法被用來調整網絡神經元的靈敏度以使其產生正確的響應。正是這一步讓系統有了學習的能力。網絡中的不同層將響應邊緣,顏色或紋理等特征。這樣的系統現在可以擁有與人類相媲美的精度識別物體,動物或面部特征。
將深度學習應用于語言存在明顯的問題。語言是抽象的,它們與圖像存在著本質的差異。例如,兩個單詞在意義上可以相似,但是包含完全不同的字母; 同一個詞在不同的語境中可能意味著各種各樣的事物。
在20世紀80年代,研究人員提出了一個關于如何將語言轉化為神經網絡可以解決的問題的巧妙思路。他們證明,單詞可以表示為數學向量,允許計算相關單詞之間的相似性。例如,“船”和“水”在向量空間上很接近,盡管它們看起來很不一樣。由Yoshua Bengio領導的蒙特利爾大學的研究人員以及谷歌的另一個團隊利用這種洞察力建立了網絡,使用一個句子中的每個單詞可以用來構建一個更復雜的表示 (多倫多大學和的教授兼谷歌深度學習研究人員Geoffrey Hinton稱之為“思維向量”)。
通過使用兩個這樣的網絡,可以在兩種語言之間以極高的精度進行翻譯。通過將這種類型的網絡與旨在識別圖像中的物體的網絡結合起來,可以得出令人驚訝的效果。
生活的目的
坐在繁華的加州山景城的谷歌總部的是該公司的研究人員Quoc Le,正在考慮開發可以進行一個適當的談話的機器的想法。他的雄心壯志表明了為什么能夠語言交流的機器有用。他說:“我想要一種在機器上模擬思想的方法。“如果你想模擬思想,那么你應該需要知道機器究竟在想什么。”
谷歌已經在教計算機語言的基礎知識。今年五月,該公司宣布了一個名為Parsey McParseface的系統,可以看語法格式,識別名詞,動詞和其他文本元素。不難看出,機器的語言理解能力對公司有多大價值。谷歌的搜索算法用于簡單地跟蹤網頁之間的關鍵字的鏈接。現在,使用名為RankBrain的系統,它會讀取頁面上的文字,收集意義并提供更好的結果。Le想進一步發展這種算法。應用用于翻譯和圖像識別的算法,他和他的同事們構建了Smart Reply,它可以讀取Gmail郵件的內容,并提出一些可能的答復建議。
最近,Le建立了一個能夠對開放式問題做出回答的程序; 它通過18,900部電影的對話進行訓練。它的一些回答看起來很奇怪。例如,樂問:“生活的目的是什么?”該程序回答說:“為了更好的服務。”這是一個很好的答案,“他笑著回憶說,“可能比我的更好。”
只有一個問題,它很快就會顯現出來,當你看到更多的系統答案時。當Le問道:“貓有多少條腿?”他的系統回答說:“我認為是四條腿。”然后他試著說:“蜈蚣有多少條腿?”這引起了一個奇怪的回答:“八條”。 當然,Le的程序不知道它在說什么。它理解某些符號的組合,但是它不能理解現實世界。它不知道蜈蚣實際上是什么樣子,或者它是如何移動的。這仍然只是一種智慧的幻覺,沒有人類理所當然的那種常識。深度學習系統通常可以這樣做到。谷歌為圖像生成所創建的程序會產生奇怪的錯誤,例如將路牌描述為充滿食物的冰箱一樣。
Le問:“生活的目的是什么?”該方案回應說:“為了更好的服務”。
奇怪的巧合是,Terry Winograd在帕洛阿爾托的隔壁鄰居是一個能幫助計算機更好地理解單詞實際意義的人。斯坦福大學人工智能實驗室主任李飛飛在我拜訪時正在休產假,但她邀請我到她家,自豪地向我介紹了她美麗的三個月大的嬰兒鳳凰。“看看她怎么看你比我更厲害,”李在鳳凰盯著我時說。“那是因為你是新來的; 這是早期的面部識別。“
李在研究機器學習和計算機視覺方面花費了大量的時間。幾年前,她領導建立一個包含數百萬個對象圖像的數據庫,每個數據庫都標有一個適當的關鍵字。但李相信,機器需要對世界上發生的事情有更深入的了解,而今年她的團隊又發布了另一個圖像數據庫,注釋的內容更為豐富。每幅圖像都被人用幾十個描述符標記:“一只滑滑板的狗”,“一條蓬松波浪的毛皮”,“有裂紋的道路”等等。希望機器學習系統能學會更多地了解物理世界。“大腦的語言部分可以得到大量的信息,包括從視覺系統,”李說。人工智能的一個重要組成部分就是整合這些系統。“
通過將單詞與對象,關系和行為聯系起來,這將更接近兒童學習的方式。但是,與人類學習的類比僅僅就走到了這一步。幼兒不需要看滑板狗就能想象或口頭描述。事實上,李相信今天的機器學習和人工智能工具不足以帶來真正的人工智能。她說:“這不僅僅是因為這是基于大數據的深度學習”。李相信人工智能研究人員需要考慮情緒和社交智能等問題。她說:“我們(人類)在用大量數據進行計算的時候非常糟糕,但我們在抽象和創造力方面非常出色。”
沒有人知道如何給機器提供這些人的技能 (如果這是可能的,會不會存在那些超出AI范圍的品質,例如獨特的人性?)
像麻省理工學院的Tenenbaum這樣的認知科學家理論上認為,今天的神經網絡中不存在思想的重要的組成部分,不管這些網絡有多大。人類能夠從相對較少的數據中快速學習,并且具有內置的三維世界建模能力。Tenenbaum說:“語言是建立在其他能力之上的,這些能力可能是更基本的,在擁有語言能力之前就存在于嬰幼兒身上:通過視覺來感知世界,反饋給我們的運動系統,理解物理世界和其他。
如果他是對的,那么就很難在機器和人工智能系統中不模仿人類,心智模型和心理學而重新建立語言。
自己解釋一下
諾亞古德曼在斯坦福大學心理學系的辦公室實際上幾乎是空的,只有一些抽象繪畫支撐在一堵墻和幾棵雜草叢生的植物上。當我到達時,古德曼在一臺筆記本電腦上打字,赤腳站在桌子上。我們漫步在陽光普照的校園里喝冰咖啡。他解釋說:“語言的特殊之處在于它依賴于大量有關語言的知識,但它也依賴于世界的大量常識性知識,而這兩種知識以非常微妙的方式結合在一起。
古德曼和他的學生們開發了一種編程語言,稱為Webppl,可以用來給計算機一種基于概率的常識,這在對話中變得非常有用。一個實驗版本可以理解雙關語,另一個可以應付夸張語句。如果它被告知有些人不得不在餐廳“永遠”等候一張桌子,就會自動判定這個字面意思是不可能的,很可能只是表示等了很久而變得很生氣。這個系統遠非真正的智能化,但它顯示了新的方法如何幫助使AI程序以更逼真的方式進行交談。
與此同時,古德曼的例子也表明,教機器語言是多么困難。理解“永遠”的語境意義是人工智能系統需要學習的東西,但這是一個相當簡單和基本的成果。
他說:“我想要一種在機器上模擬思想的方法。“如果你想模擬思想,那么你需要知道機器究竟在想什么。”
不過,盡管這個問題有困難和復雜性,研究人員使用深度學習技術來識別圖像并在圍棋這樣的游戲中表現的優秀性,至少給了人們語言方面取得突破的希望。如果是這樣,這些進展將會很快到來。如果人工智能是一個無處不在的工具,人們用它來增強自己的智慧,讓它以無縫協作的方式接管任務,語言將是關鍵。隨著人工智能系統越來越多地使用深度學習和其他技術來自我編程,情況尤其如此。
研究自動駕駛的麻省理工學院教授John Leonard說:“總的來說,深度學習系統令人驚嘆。“但另一方面,他們的表現真的很難理解。”
正在研究一系列自主駕駛技術的豐田公司,在人工智能和編程語言專家杰拉爾德·蘇斯曼(Gerald Sussman)的領導下,在麻省理工學院(MIT)發起了一個研究項目,開發自動駕駛系統用于自我解釋為什么會采取特定的行動。而這樣做的一個顯而易見的方法就是通過談話。領導豐田支持的另一個項目的倫納德說:“建立知道它們在做什么的系統是一個非常難的問題。“但是,理想情況下,他們不僅僅給出答案,而是給出解釋。”
從加利福尼亞回來后的幾個星期,我看到設計阿爾法狗的谷歌DeepMind研究員David Silver在紐約的一次學術會議上討論了與李世石的比賽。Silver解釋說,當這個節目在第二場比賽中出現殺手時,他的團隊和其他人一樣驚訝。他們所能看到的只是阿爾法狗預測的獲勝幾率,即使在第37步之后也幾乎沒有變化。僅僅幾天后,經過仔細分析,谷歌團隊發現:通過學習以前的對局,該程序計算了人類選手移動同一步萬分之一的概率。其練習局也表明,這提供了一個異常強大的優勢。
所以在某種程度上,機器知道李世石會完全被騙過。
Silver表示,谷歌正在考慮將該技術商業化的幾個選項,包括某種智能助理和醫療保健工具。之后,我問他與這樣的系統背后的人工智能交流的重要性。“這是一個有趣的問題,”他停了一下說。“對于某些應用,這可能很重要。就像在醫療保健方面一樣,了解為什么做出決定可能很重要。“
事實上,隨著人工智能系統變得越來越復雜,我們很難設想如何在沒有語言的情況下與他們進行合作而不能問他們“為什么”。除此之外,與計算機毫不費力地溝通的能力將使它們更有用,使得它不那么神奇。畢竟,語言是我們理解世界和與之互動的最強大的方式。現在該我們的機器抓緊時間擁有這項能力了。
評論
查看更多