當前人工智能最大的挑戰(zhàn)之一,是如何讓多個智能體學(xué)會一起完成同一個任務(wù),學(xué)會彼此合作和相互競爭。在發(fā)表于ICML 2018的一項研究中,倫敦大學(xué)學(xué)院汪軍教授團隊利用平均場論來理解大規(guī)模多智能體交互,極大地簡化了交互模式。他們提出的新方法,能夠解決數(shù)量在成百上千甚至更多的智能體的交互,遠遠超過了所有當前多智能體強化學(xué)習(xí)算法的能力范圍。
柯潔揮淚烏鎮(zhèn)一周年,AI已經(jīng)重新書寫了圍棋的歷史。而創(chuàng)造出地球上最強棋手AlphaGo系列的DeepMind,早已經(jīng)將目光轉(zhuǎn)向下一個目標——星際爭霸。
玩星際爭霸,需要AI在不確定的情況下進行推理與規(guī)劃,涉及多個智能體協(xié)作完成復(fù)雜的任務(wù),權(quán)衡短中長期不同的收益。相比下圍棋這樣的確定性問題,星際爭霸的搜索空間要高出10個數(shù)量級。
從現(xiàn)實意義上來說,研究多智能體協(xié)作也具有廣泛的應(yīng)用場景。例如,股票市場上的交易機器人博弈,廣告投標智能體通過在線廣告交易平臺互相競爭,電子商務(wù)協(xié)同過濾推薦算法預(yù)測用戶興趣,等等。
倫敦大學(xué)學(xué)院(UCL)計算機科學(xué)系教授汪軍博士及其團隊一直從事多智能體協(xié)作的研究。汪軍教授認為,目前通用人工智能(AGI)研究有兩個大方向,一是大家熟知的AlphaGo,這是單智體,其背后的經(jīng)典算法是深度強化學(xué)習(xí);另一個就是多智體(Multi-agent),也可以理解為集體智能,這是人工智能的下一個大方向。
目前,人工智能最大的挑戰(zhàn)之一,就是如何讓多個智能體學(xué)會一起完成同一個任務(wù),學(xué)會彼此合作和相互競爭。如何利用一套統(tǒng)一的增強學(xué)習(xí)框架去描述這個學(xué)習(xí)過程。
研究負責(zé)人、倫敦大學(xué)學(xué)院(UCL)的汪軍教授
在一項最新的研究中,汪軍和他的團隊利用平均場論來理解大規(guī)模多智能體交互,極大地簡化了交互模式,讓計算量大幅降低。他們提出的新方法,能夠解決數(shù)量在成百上千甚至更多的智能體的交互,遠遠超過了所有當前多智能體強化學(xué)習(xí)算法的能力范圍。相關(guān)論文已經(jīng)被ICML 2018接收,作者將在7月13日下午5點在ICML會場做報告,歡迎大家去現(xiàn)場交流。
“我們發(fā)現(xiàn)在處理大規(guī)模智能體學(xué)習(xí)時,把多體問題抽象成二體問題是一種有效的方法,”論文作者Yaodong Yang告訴新智元:“這個想法的初衷異常簡單,就是把環(huán)境中所有領(lǐng)域內(nèi)其他智能體對中心個體的影響,僅僅用一個它們的均值來抽象,而不用一一分別考慮建模?!?/p>
他們設(shè)計的平均場Q-learning算法成功模擬并求解了物理領(lǐng)域的伊辛模型(ising model)。Yaodong表示:“用強化學(xué)習(xí)的框架可以解決物理學(xué)中的伊辛模型,這一發(fā)現(xiàn)非常令人振奮。”
上海交通大學(xué)張偉楠助理教授團隊也積極參與了此次工作,張偉楠認為:“使用平均場計算領(lǐng)域智能體的行動分布,并整合于強化學(xué)習(xí)中在計算上十分高效,在不同算法互相對戰(zhàn)的實驗中,平均場Q-learning算法能穩(wěn)定提高群體智能的效果,在battle中碾壓傳統(tǒng)多智能體強化學(xué)習(xí)的算法。”
在一個混合式的合作競爭性戰(zhàn)斗游戲中,研究人員證明了平均場MARL相對其他多智能體系統(tǒng)的基線獲得了更高的勝率。其中,藍方是平均場Q-learning算法,紅方是傳統(tǒng)的強化學(xué)習(xí)算法DQN。
對戰(zhàn)局部,agent彼此間的合作與競爭。
對戰(zhàn)結(jié)果:經(jīng)過2000多輪比較實驗,新提出的平均場Q-learning算法(MF-Q)相對于其他傳統(tǒng)強化學(xué)習(xí)算法的勝率(綠色)。很明顯,在所有的指標中,MF-Q的勝率都高出一大截。
由于大幅降低了計算量,他們的方法可以推廣用于很多實際場景,比如終端通訊設(shè)備流量分配,互聯(lián)網(wǎng)廣告競價排名,智能派單等大規(guī)模分布式優(yōu)化場景中。
用平均場論解決大規(guī)模多智能體交互,大幅簡化計算
多智體強化學(xué)習(xí)(Multi-agent reinforcement learning, MARL)假設(shè)有一組處在相同環(huán)境下的自主智能體。在MARL中學(xué)習(xí)非常困難,因為agent不僅與環(huán)境交互,而且還會相互作用:一個agent的策略變化會影響其他agent的策略,反之亦然。
例如,在星際爭霸中,讓一組20個agent去攻擊另外一組的20個agent,每個agent就要考慮周圍39個agents的行為從而做出最優(yōu)決策。對于每個個體來說,要學(xué)會理解的狀態(tài)空間是很龐大的,這還不包括其他智能體在探索環(huán)境時產(chǎn)生的噪聲。當agent增多到1000乃至上萬個時,情況就變得超級復(fù)雜,現(xiàn)有的多智能體強化學(xué)習(xí)算法有很大局限性,也沒有那么大的計算力。
但是,推測其他agent的策略來計算額外的信息,對每個agent自身是有好處的。研究表明,一個學(xué)習(xí)了聯(lián)合行動效應(yīng)的agent,比那些沒有學(xué)習(xí)的agent表現(xiàn)更好,無論是在合作博弈、零和隨機博弈和一般和隨機博弈中,情況都是如此。這也很好理解,知彼知己,才能百戰(zhàn)不殆。
因此,結(jié)果就是,現(xiàn)有的均衡求解方法雖然可行,但只能解決少數(shù)agent的問題,大部分的實驗還局限于兩個agent之間的博弈。而在實踐當中,卻常常會需要有大量agent之間的策略互動。
如何解決這個問題?UCL的研究者想到了平均場論。
平均場論(Mean Field Theory,MFT)是一種研究復(fù)雜多體問題的方法。在物理學(xué)場論和機器學(xué)習(xí)的變分推斷中,平均場論是對大且復(fù)雜的隨機模型的一種簡化。未簡化前的模型通常包含巨大數(shù)目的含相互作用的小個體。平均場理論則做了這樣的近似:對某個獨立的小個體,所有其他個體對它產(chǎn)生的作用可以用一個平均的量給出,這樣,簡化后的模型對于每個個體就成了一個單體問題。
在他們的研究中,UCL團隊沒有去分別考慮單個智能體對其他個體產(chǎn)生的不同影響,而是將領(lǐng)域內(nèi)所有其他個體的影響用一個均值來代替。這樣,對于每個個體,只需要考慮個體和這個均值的交互作用就行了。這種抽象的方法,當研究對象大到無法表達的時候尤其有用。
平均場論的方法能快速收斂,用強化學(xué)習(xí)解決伊辛模型
應(yīng)用平均場論后,學(xué)習(xí)在兩個智能體之間是相互促進的:單個智能體的最優(yōu)策略的學(xué)習(xí)是基于智能體群體的動態(tài);同時,集體的動態(tài)也根據(jù)個體的策略進行更新。
在此基礎(chǔ)上,研究人員提出了平均場Q-learning算法(MF-Q)和平均場Actor-Critic算法(MF-AC),并通過伊辛模型驗證了它們的解是否能夠快速收斂。
易辛模型(Ising model),是一個以物理學(xué)家恩斯特·易辛為名的數(shù)學(xué)模型,用于描述物質(zhì)的鐵磁性。該模型中包含了可以用來描述單個原子磁矩的參數(shù),其值只能為+1或-1,分別代表自旋向上或向下(在多智能體的情況下,就是向上或者向下移動)。這些磁矩通常會按照某種規(guī)則排列,形成晶格,并在模型中引入特定交互作用的參數(shù),使得相鄰的自旋互相影響。
平均場近似。每個agent都表示為網(wǎng)格中的一個節(jié)點,它只受鄰居(藍色區(qū)域)的平均效果影響。多個agents相互作用被有效地轉(zhuǎn)換為兩個代理的相互作用。
雖然伊辛模型相對于物理現(xiàn)實是一個相當簡化的模型,但它卻和鐵磁性物質(zhì)一樣,在不同溫度下會產(chǎn)生相變。事實上,一個二維的方晶格易辛模型是已知最簡單而且會產(chǎn)生相變的物理系統(tǒng)。在這個場景下, 雖然每一個磁矩對整個磁體的性質(zhì)的影響非常有限, 但是通過微觀的相互作用, 磁矩之間卻會形成宏觀的趨勢, 而這種趨勢能夠決定我們所關(guān)心的整體磁場的性質(zhì)。
在多智體強化學(xué)習(xí)這個領(lǐng)域,特定的任務(wù)可以被有效的抽象為同質(zhì)智能體(homogeneous agent)之間的相互學(xué)習(xí)以及博弈的過程。
在平均場多智體伊辛模型中,網(wǎng)格中的每個agent向上和向下的獎勵是不同的,如果最終能讓所有agent都朝同一個方向移動(都變?yōu)楹谏?,也就表明了平均場方法能夠比較快速的收斂。通過下面的動圖,可以更直觀地看到這種快速收斂的效果。
研究難點及未來方向
研究人員表示,這項工作有兩方面的難點。首先是理論部分,只有一套嚴格自洽的理論才能作為后續(xù)實驗以及分析的基礎(chǔ)。在將平均場論融入多智體強化學(xué)習(xí)的過程中,他們利用了不同領(lǐng)域里的多項理論,包括平均場論的近似化方法,在stochastic games中的納什均衡學(xué)習(xí)理論(nash q learning),不動點分析,以及最優(yōu)化理論中的壓縮映射(contraction mapping)。最后,理論證明了他們所提出的平均場強化學(xué)習(xí)在一些溫和條件的收斂性,并且提供了近似化中誤差的上下界 。
另一方面的難點在于實驗,由于目前沒有良好的針對多智體強化學(xué)習(xí)的測試平臺,團隊設(shè)計構(gòu)建了一個實驗環(huán)境,用于提供必要的測試條件。
研究人員表示,據(jù)他們所知,某些大廠已經(jīng)在實驗室階段實現(xiàn)了他們的算法,用于大規(guī)模派單和通訊設(shè)備流量分配。因為這個算法適合處理的特定問題是大規(guī)模智能體,并且每個智能體都有相同程度的相似性,實際應(yīng)用的場景會非常廣闊,例如廣告競價、智能城市等等。
目前,關(guān)于多智能體的深度強化學(xué)習(xí)上,理論層面還是沒有看到太多的發(fā)展。這個領(lǐng)域缺乏一個大家都認可的理論框架。例如,多智能體在學(xué)習(xí)的時候目標函數(shù)到底應(yīng)該是什么,是否應(yīng)該是納什均衡,還有很多爭論。
更有學(xué)者認為,多智能體學(xué)習(xí)不應(yīng)該專注個體的決策,反而應(yīng)該從種群的角度去理解,也就是演化博弈論(evolutionary game theory)的理論框架。演化博弈論認為,關(guān)注的重心應(yīng)該是一個種群里選擇某些行動的agent的比例是不是在進化意義上是穩(wěn)定的,也就是evolutionary stable strategies的想法。
對此,UCL團隊的研究人員認為,他們接下來將進一步完善理論和實驗方法,探索潛在的實際應(yīng)用。
論文:平均場多智體強化學(xué)習(xí)
摘要
現(xiàn)有的多智體(multi-agent)強化學(xué)習(xí)方法通常限制于少數(shù)的智能體(agent)。當agent的數(shù)量增加很多時,由于維數(shù)以及agent之間交互的指數(shù)級的增長,學(xué)習(xí)變得很困難。
在這篇論文中,我們提出平均場強化學(xué)習(xí)(Mean FieldReinforcement Learning),其中,agent群體內(nèi)的交互以單個agent和總體或相鄰agent的平均效應(yīng)之間的交互來近似;兩個實體之間的相互作用是相互加強的:個體agent的最佳策略的學(xué)習(xí)取決于總體的動態(tài),而總體的動態(tài)則根據(jù)個體策略的集體模式而變化。
我們提出了使用的平均場 Q-learning 算法和平均場 Actor-Critic算法,并分析了納什均衡解的收斂性。Gaussian squeeze、伊辛模型(Ising model)和戰(zhàn)斗游戲的實驗,證明了我們的平均場方法的學(xué)習(xí)有效性。此外,我們還通過無模型強化學(xué)習(xí)方法報告了解決伊辛模型的第一個結(jié)果。
-
人工智能
+關(guān)注
關(guān)注
1792文章
47483瀏覽量
239162 -
智能體
+關(guān)注
關(guān)注
1文章
160瀏覽量
10599 -
強化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
268瀏覽量
11273
原文標題:UCL汪軍團隊新方法提高群體智能,解決大規(guī)模AI合作競爭
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論