9月20日,在新智元AI WORLD 2018世界人工智能峰會上,倫敦大學(xué)學(xué)院計算機系教授汪軍作了《論機器意識的可能和實現(xiàn)》的演講。汪軍教授的研究方向之一是多智體強化學(xué)習(xí),由于最近在研究“機器意識”這個課題,汪軍教授的演講也從“意識”講起,最后討論了機器是否也能擁有“意識”,如果答案是肯定的,那我們又該如何通過數(shù)學(xué)和計算機程序來實現(xiàn)這一點?
我們是誰?我們從哪里來?到哪里去?
這是一個永恒的問題。
9月20日,在新智元AI WORLD 2018世界人工智能峰會上,倫敦大學(xué)學(xué)院計算機系教授汪軍作了《論機器意識的可能和實現(xiàn)》的演講。
倫敦大學(xué)學(xué)院計算機系教授汪軍
汪軍教授的研究方向之一是多智體強化學(xué)習(xí),也就是有多個“agent”互動,包括溝通、協(xié)作與競爭。由于最近在研究“機器意識”這個課題,汪軍教授的演講也從“意識”講起,最后討論了機器是否也能擁有“意識”,如果答案是肯定的,那我們又該如何通過數(shù)學(xué)和計算機程序來實現(xiàn)這一點。
汪軍教授介紹了他們團隊研究用AI打橋牌的例子。相比完全信息博弈的圍棋和不完全信息但只需要一對一的德州撲克,橋牌是一種不完全信息博弈,而且需要選手兩兩組隊,相互合作與競爭。這個游戲更貼近于現(xiàn)實世界發(fā)生的情況。
研究結(jié)果表明,AI在打橋牌時,能夠?qū)W會相互隱秘地溝通,最終取勝。也是這一點,讓汪軍教授想到機器意識興起與實現(xiàn)的可能。
“很多原理實際上并沒有那么復(fù)雜,”汪軍教授說:“只要你去研究并做出來的話?!碑?dāng)然,現(xiàn)在還都是非常初步的探索,因為首先,目前學(xué)界對“意識”還沒有統(tǒng)一的定義。
以下是汪軍教授在新智元AI WORLD 2018世界人工智能峰會上發(fā)表的演講實錄。
機器意識的興起和實現(xiàn)不是沒有可能
汪軍:我給大家放個好玩的視頻。
我想通過這個視頻引出我今天要講的話題:我們自己到底是誰?我們從哪里來?到哪里去?這個話題非常非常大。讓我們先看看哲學(xué)家的理解。
有一點是很有意思的:我們作為個體,我們自己會有感情,我們會有愛,有恨。當(dāng)我們聽到王菲的歌,會覺得是天籟之音;當(dāng)我們聽到搖滾樂,我們會非常興奮;當(dāng)我們閱讀一本書的時候,我們會隔空和作者進行心靈上的溝通。
這一切就定義了我們?nèi)祟?,它其實跟人的意識有關(guān)。關(guān)于意識,17世紀(jì)的時候哲學(xué)家笛卡爾已經(jīng)做過一些系統(tǒng)的研究和學(xué)說。比如他提出“二元論”的理論,認(rèn)為人作為個體存在兩個世界,一個是靈魂世界,一個是肉體世界,通過大腦里一個叫松果體的部位進行交互。通過這種交互,產(chǎn)生了人的各種各樣的行為。這個理論非常有局限性,無法解釋很多比較高級的認(rèn)知智能,所以最后也就流于唯心主義的理論了。
人的意識到底是什么?現(xiàn)在學(xué)術(shù)圈普遍認(rèn)同的一個定義是“主觀的經(jīng)驗”,就是說意識和現(xiàn)實可能不一樣,是你自己主觀的感受。有一個好的評判方法是可以用某種方式去表達,告訴別人。
例如,請看上面這張圖。如果大家聚焦視線,把注意力放在中間的+上,會發(fā)現(xiàn)邊上的圓圈會逐漸消失,當(dāng)把眼睛挪到別的地方,邊上的圓圈又出現(xiàn)了。說明你看到的東西并不代表就是真實的,它們之間有差別。通過大腦能給出一定的解釋。
意識作為科學(xué)的一個學(xué)科或作為科學(xué)的一個研究課題,其實也只是在上世紀(jì)90年代大家才開始非常嚴(yán)肅去研究。有兩位比較主要的貢獻者,一位是Francis Crick,他是英國的生物學(xué)家、物理學(xué)家和神經(jīng)科學(xué)家。他最大的成就是和他的同事James Watson發(fā)現(xiàn)了DNA的分子結(jié)構(gòu),并因此共同獲得了諾貝爾生理及醫(yī)學(xué)獎。他們兩個一起提出了一系列實驗方法去測量當(dāng)有意識時,大腦里面的神經(jīng)活動是怎樣形成關(guān)聯(lián)。這從某種意義上證明了意識是有一種機制存在于大腦中的。
之后其他研究人員繼續(xù)在這個范圍研究。法國有一位科學(xué)家研究發(fā)現(xiàn)在控制人的身體時,其實有兩種不同的機制。做相同的動作,可以是潛意識的,也可以是有意識的。他設(shè)計了一個比較巧妙的實驗方法,可以把潛意識和有意識的動作分開,然后用腦電波或大腦造影做測試,看大腦神經(jīng)元的激活狀態(tài)。他發(fā)現(xiàn)在有意識和無意識情況下,神經(jīng)元的激活是不一樣的。有意識時候,神經(jīng)元激活的位置是在大腦比較高級的部位,而且比較全面、多方面;潛意識的時候,神經(jīng)元激活的位置是在比較低級的地方。
另外一個很有意思的研究,科學(xué)家發(fā)現(xiàn)了條件反射的機制,提出其實這個機制跟計算機里的強化學(xué)習(xí)方法其實是一樣的,即通過一個多巴胺神經(jīng)元,預(yù)測到有一個錯誤,對這個錯誤不斷進行更正。
人和機器其實都是信息處理系統(tǒng)。既然是信息處理系統(tǒng),可以從三個不同的層次去理解:
1. 計算理論是什么,到底需要計算什么。
2. 表征和具體算法。
3. 具體硬件實現(xiàn)。
我個人認(rèn)為前面兩點,人和機器是非常相似的,甚至?xí)柾瑯拥膯栴}。只有到第三個層次,硬件的狀態(tài),人和機器是不太一樣的。
計算理論。意識到底是什么?目前還不是那么明晰,但是有一些不同的理論提出來,這里我講兩個可以接受的理論:
1.Global Neuronal Workspace,就是認(rèn)為意識是在大腦里進行的全局的互相的信息共享,比如在工作臺上你可以拿出以前的記錄,比如內(nèi)存,可以去看一些低層次的視覺上的結(jié)果,有一些獎勵機制。通過這些信息共享把大腦各個部門及時調(diào)動起來,這時候就有意識了。
2.從信息集成度來解釋意識。集成信息理論是解釋大腦內(nèi)部信息之間交換的一個理論,也就是說如果這個系統(tǒng)在全局里的信息量大于任何內(nèi)部小子集的信息量,就可以認(rèn)為信息集成度高的有可能產(chǎn)生意識。
如果它們之間能夠交換,有空間跟時間上的關(guān)系,比如有內(nèi)存的話,比較簡單的模型有意識的可能是比較高的。
元世界模型:對世界建模
有了這個理論,看看現(xiàn)在機器學(xué)習(xí),特別是強化學(xué)習(xí)方面到底做了什么,我們有什么缺陷,再去提高理論和實際算法。
比如說,這是微信的跳一跳小游戲,我們將圖像作為輸入,用算法做判斷,機械臂點按屏幕來玩這個游戲。我買了這個機器臂,沒玩兩個星期就折了,我在微信里發(fā)了一下,一個深圳廠家說,汪老師你這個太爛了,我送你一個。然后就送我一個,我玩了大概一個月左右又壞了。
這個小東西很有意思,可以理解神經(jīng)網(wǎng)絡(luò)從一個圖像進去,最后一個決策出來,是怎么回事。圖上亮點的地方指示系統(tǒng)的注意力在哪里,左邊兩個圖是做正確的決策,取決于知道自己位置在哪里,知道前方目標(biāo)在哪里。而右邊兩個都是錯誤決策,我們會看到方向判斷錯了。比如第二幅圖目標(biāo)放到了相反的方向,所以最后按鍵計算就是錯誤的,目標(biāo)也是錯誤的。
當(dāng)計算出兩個目標(biāo)以后,神經(jīng)元激活了,激活以后,每個神經(jīng)元控制一個目標(biāo),這個目標(biāo)就是在它的范圍內(nèi)激活的,到最后一層時,把信息結(jié)合起來,就能算出到底應(yīng)該按多長時間。
這跟我們做分類其實是一樣的,就是從輸入一直到輸出。用集成信息理論來講,它是不可能產(chǎn)生跟人一樣的智慧的,就算能夠做成ALphaGo,能夠超過人類,也是沒有人的意識的。
那么強化學(xué)習(xí)的弱點如何解決?我們的思路是Agent內(nèi)部算法有不同的層次,我們要潛意識拿一些統(tǒng)計數(shù)據(jù)過來,然后通過所謂的Global Neuronal Workspace把各個信息集成起來,再去決策。主要兩個部分,一是對周圍環(huán)境的建模,一是對敵人(對手)的建模。
人每天都經(jīng)歷不同的環(huán)境,環(huán)境世界是有個性的,我們就給單個Agent做了一個Meta-World Model,就是多個世界集合在一起,發(fā)現(xiàn)它的共性。當(dāng)我們學(xué)到Meta-World Model以后,Agent就可以想像了,可以做夢了,可以在它的腦子里面去運轉(zhuǎn)了。這個不是從外面采集的,是Agent在它的算法里面不斷玩這個游戲的狀態(tài),通過它,我們可以去做決策。
我們有一個很有意思的發(fā)現(xiàn),當(dāng)建立一個世界模型時,特別是Meta-World Model,Agent就知道它在這個圖像里面處于哪個位置了。如果看以前任何玩游戲的模型,其實Agent不知道它是在圖像里哪個部位的,但我們用這個Meta-World Model就可以知道。
多智能體如何合作
我們知道BP算法是主流的深度學(xué)習(xí)算法,但用在多智能體時,卻失敗了。例如,這是一個非常簡單的matrix game,左圖是用BP去計算的,認(rèn)為Agent之間是獨立的,是不可以收斂的。當(dāng)對其他對手建模時,發(fā)現(xiàn)非常快就可以收斂到中間。我們建了對敵方建模的方法來玩多Agent的游戲。
我們讓Agent去打橋牌,這個任務(wù)很有意思,跟AlphaGo相比有兩個大的技術(shù)難點:
1. Agent之間是合作關(guān)系,而圍棋只是一個Agent。
2. 不完全信息。在打牌時,對方手上的牌你是不知道的,所以在建模時,要不斷預(yù)測。
在這個環(huán)境下,如何去理解兩個Agent之間如何合作?
我們聚焦在叫牌這個階段,目前為止還沒有人可以解決。上圖左邊是專業(yè)選手在玩橋牌時,兩個人會坐下來定一個規(guī)矩,比如出2紅心時,告訴你我的牌是什么,出3黑桃時,告訴我你的牌是什么,他們倆約定好,打牌時把信息就傳給對方。
我們讓Agent去學(xué)習(xí)時,開始不知道,通過我們這個模型就學(xué)出來了它們自己不明晰的通訊方式,通過互相叫牌,把信息傳給對方,這是他們之間約定的一個Code,它是一個最優(yōu)的解。
例如,剛開始,北家的Agent是紅桃,當(dāng)兩者不停叫牌時,最后通過通訊方式知道其實兩個加在一起時,黑桃會更好,就改變了叫的花色。如果玩的是兩個Agent,Agent多的情況下怎么辦?我們把一個多Agent到上百萬轉(zhuǎn)換成兩個Agent,相當(dāng)于一個Agent和周圍其他人的平均值做一個交互。
最后講一下應(yīng)用。對其他Agent做一個模型,包括對世界建一個模型,從意識里更進一步,并不代表它就有意識了。但是我們只往前走了一小步,實際應(yīng)用里有更多以前無法解決的場景可以解決,比如互聯(lián)網(wǎng)廣告里,廣告主去排名競價時會考慮到其他廣告主的行為。
我們現(xiàn)在正在探討多智能體在無人車領(lǐng)域的應(yīng)用。在某些特定場景,比如說過匝道時,怎樣在擁擠的情況下對其他車輛進行模擬,以及對匝道環(huán)境模擬,怎樣有效地在堵車情況下通過。另外一個應(yīng)用場景是在交通路口紅綠燈的時候,怎樣通過跟別人的交互,高效地通過交通路口。
-
計算機
+關(guān)注
關(guān)注
19文章
7511瀏覽量
88090 -
人工智能
+關(guān)注
關(guān)注
1791文章
47352瀏覽量
238791 -
機器
+關(guān)注
關(guān)注
0文章
783瀏覽量
40744
原文標(biāo)題:UCL汪軍:論機器意識的可能和實現(xiàn)
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論