雖然人類已經(jīng)無(wú)望在電子競(jìng)技中打敗AI多智能體,但DeepMind的研究仍在繼續(xù)往前推進(jìn)。最近他們公布了在強(qiáng)化學(xué)習(xí)方面的最新進(jìn)展,并對(duì)未來(lái)進(jìn)行了展望。AI智能體的能力還會(huì)繼續(xù)提高嗎?會(huì)有極限嗎?
是的是的我們都知道,已經(jīng)沒(méi)有什么電子競(jìng)技能夠讓人類抱有哪怕1%穩(wěn)贏的希望了。但是!你有沒(méi)有想過(guò),AI會(huì)不會(huì)有一個(gè)極限?它的潛力還有多少,無(wú)窮大?還是最終止步于某個(gè)境界?DeepMind的科學(xué)家也想知道。
他們最近更新了博客,以雷神之錘為例,為我們重新介紹了強(qiáng)化學(xué)習(xí)的最新發(fā)展、AI在《雷神之錘3·奪旗》中達(dá)到了什么樣的程度,以及未來(lái)的期望。
多智能體最大的挑戰(zhàn):既要獨(dú)自打拼,還要團(tuán)隊(duì)協(xié)作
掌握多人游戲中涉及到的策略、戰(zhàn)術(shù)、團(tuán)隊(duì)配合,是AI研究的關(guān)鍵挑戰(zhàn)。而DeepMind的科學(xué)家已經(jīng)將AI調(diào)教到了和人類相當(dāng)?shù)乃剑@一點(diǎn)在《雷神之錘3·奪旗》體現(xiàn)的淋漓盡致。
AI智能體在游戲中,無(wú)論是跟同類打配合,還是跟人類組團(tuán),完全天衣無(wú)縫,表現(xiàn)的不像個(gè)機(jī)器人。DeepMind的科學(xué)家已經(jīng)在籌劃將奪旗中的方法,應(yīng)用在雷神之錘3的全部游戲模式中。
Quake III有非常多的游戲模式。自身提供4種,分別是Free For All(競(jìng)技場(chǎng)模式)、Team Deathmatch(紅藍(lán)兩隊(duì)對(duì)戰(zhàn)模式)、Tournament(Duel)(單挑模式)、奪旗(紅藍(lán)兩隊(duì)奪旗模式)。其他包括MOD和以其開(kāi)源游戲引擎衍生出的獨(dú)立游戲也非常多。
https://zh.wikipedia.org/wiki/%E9%9B%B7%E7%A5%9E%E4%B9%8B%E9%94%A4III%E7%AB%9E%E6%8A%80%E5%9C%BA
作為社群生物,我們幾十億人類共同生活在同一個(gè)地球上,每個(gè)人都有自己獨(dú)立的目標(biāo)和行為,但仍然能夠通過(guò)團(tuán)隊(duì)、組織和社會(huì)聚集在一起,展示出令人驚嘆的集體智慧。這樣的設(shè)置,我們稱之為多智能體學(xué)習(xí):每個(gè)智能體獨(dú)立行動(dòng),同時(shí)要學(xué)會(huì)與其他智能體的互動(dòng)以及合作。
參考系都是動(dòng)態(tài)的,自由度非常高。想想我們?nèi)祟愔g團(tuán)隊(duì)配合的難度,就知道設(shè)計(jì)這樣的多智能體有多難了!
多智能體克服難題的秘訣
具體到《雷神之錘3·奪旗》中,智能體面臨的挑戰(zhàn)是直接從原始像素中學(xué)習(xí)以產(chǎn)生動(dòng)作。這種復(fù)雜性使得第一人稱多人游戲成為AI社區(qū)內(nèi)富有成效且活躍的研究領(lǐng)域。
奪旗原本是一項(xiàng)廣受歡迎的戶外運(yùn)動(dòng),被廣泛的應(yīng)用于電子游戲中。在一張給定的地圖中,紅藍(lán)雙方保護(hù)自己的旗子并搶奪對(duì)方旗子,5分鐘時(shí)間內(nèi),奪旗次數(shù)最多的隊(duì)伍獲勝。在游戲中,還可以標(biāo)記敵方隊(duì)員并將其送回出生點(diǎn)。
越是簡(jiǎn)單的規(guī)則,越能衍生出多種多樣的玩法,在人類來(lái)說(shuō)是增加了趣味性,在多智能體來(lái)講就是增加了難度。為了繼續(xù)刁難多智能體,游戲地圖被設(shè)置成每局一換,以防止多智能體靠著優(yōu)于人類的記憶來(lái)獲得地利優(yōu)勢(shì)。
多智能體應(yīng)對(duì)時(shí)局變化的訣竅,來(lái)自基于強(qiáng)化學(xué)習(xí)的三個(gè)概念:
訓(xùn)練一組多智能體而非只訓(xùn)練單一個(gè)體,使其能夠在游戲中互相學(xué)習(xí),提供多樣化的隊(duì)友和對(duì)手
每個(gè)智能體都學(xué)習(xí)自己的內(nèi)部獎(jiǎng)勵(lì)信號(hào),刺激智能體產(chǎn)生他們自己的內(nèi)在目標(biāo)比如搶到旗子。然后使用雙層優(yōu)化流程直接優(yōu)化智能體的內(nèi)部獎(jiǎng)勵(lì)以獲勝,同時(shí)利用內(nèi)部獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)來(lái)了解智能體的政策。
智能體以快速和慢速兩種速度運(yùn)行,這提高了它們使用內(nèi)存和生成一致動(dòng)作序列的能力
由此產(chǎn)生的智能體,被稱為For The Win(獨(dú)孤求勝)智能體,學(xué)會(huì)了以非常高的水平來(lái)玩奪旗。至關(guān)重要的是,學(xué)到的智能體政策,對(duì)地圖的大小、隊(duì)友的數(shù)量以及團(tuán)隊(duì)中的其他玩家都很有用。
DeepMind組織了40個(gè)人,和多智能體一起隨機(jī)組隊(duì)。最終獨(dú)孤求勝智能變得比強(qiáng)基線方法強(qiáng)大得多,超過(guò)了人類玩家的勝率。事后調(diào)查顯示,智能體相比我們?nèi)祟悾朴诖蚺浜希∷宰璧K人類勝利的關(guān)鍵是人類不會(huì)好好打配合咯。
智能體在訓(xùn)練期間的游戲表現(xiàn)。我們訓(xùn)練的新智能體FTW游戲模式下的Elo得分比人類玩家和自游戲+ RS、自游戲的基線方法更高,該分?jǐn)?shù)反映出游戲獲勝的概率。
除了對(duì)游戲表現(xiàn)進(jìn)行評(píng)估之外,了解這些智能體的行為和內(nèi)部表示的復(fù)雜度也很重要。
為了理解智能體如何表示游戲狀態(tài),我們來(lái)看一下在平面上表示的智能體神經(jīng)網(wǎng)絡(luò)的激活模式。下圖中的點(diǎn)集群表示在游戲期間與附近表示類似激活模式的點(diǎn)的游戲情況。這些點(diǎn)按照智能體發(fā)現(xiàn)自己的高級(jí)CTF游戲狀態(tài)著色:在哪個(gè)房間?旗幟的狀態(tài)是什么?可以看到哪些隊(duì)友和對(duì)手?我們觀察到相同顏色的聚類,表明智能體以類似的方式表示類似的高級(jí)游戲狀態(tài)。
我們的智能體在游戲世界中的表示。在上圖中,根據(jù)神經(jīng)的相似程度繪制出給定時(shí)間的神經(jīng)激活模式:圖中兩點(diǎn)在空間中距離越近,表明它們的激活模式越相似。然后根據(jù)實(shí)時(shí)比賽情況對(duì)它們進(jìn)行上色:顏色相同,表示情況相同。這些神經(jīng)激活模式是有組織的,形成了顏色簇,表明智能體以刻板、有組織的方式表示出有意義的游戲玩法。訓(xùn)練后的智能體甚至展示了一些人工神經(jīng)元,用于直接針對(duì)游戲中的特定情形。
智能體從未被告知有關(guān)游戲規(guī)則的任何內(nèi)容,但卻了解基本的游戲概念,并對(duì)CTF產(chǎn)生了有效的直覺(jué)。事實(shí)上,我們可以找到直接為某些最重要的游戲狀態(tài)編碼的特定神經(jīng)元,例如在智能體一方的旗子被奪時(shí)激活的神經(jīng)元,或者當(dāng)智能體的隊(duì)友拿著旗幟時(shí)激活的神經(jīng)元。本文對(duì)此提供了進(jìn)一步的分析,包括了智能體對(duì)記憶和視覺(jué)注意力的應(yīng)用。
超強(qiáng)智能體:強(qiáng)加反應(yīng)延遲,游戲中仍然勝過(guò)人類
我們的智能體在游戲中表現(xiàn)如何?首先,它們的反應(yīng)時(shí)間非常短。由于人類的生物信號(hào)傳導(dǎo)速度較慢,人類處理和作用于感官輸入的速度也就相對(duì)較慢。因此,我們的智能體在游戲中的卓越表現(xiàn),可能是因?yàn)樗鼈兙邆涓斓囊曈X(jué)處理能力和運(yùn)動(dòng)控制的結(jié)果。
然而,在我們?nèi)藶榻档土酥悄荏w的瞄準(zhǔn)精度和反應(yīng)時(shí)間后,發(fā)現(xiàn)這其實(shí)只是其表現(xiàn)優(yōu)秀的其中一個(gè)因素。在進(jìn)一步的研究中,我們訓(xùn)練了內(nèi)置延遲約四分之一秒(267毫秒)的智能體,也就是說(shuō),它們?cè)谟^察世界之前存在267毫秒的延遲,這與人類游戲玩家的反應(yīng)時(shí)間差不多。但這些自帶反應(yīng)延時(shí)的智能體仍然在游戲中的表現(xiàn)仍然優(yōu)于人類玩家,后者的勝率只有21%。
人類玩家面對(duì)響應(yīng)延遲的智能體的勝率仍然很低,這表明,即使被加上了與人類相當(dāng)?shù)姆磻?yīng)延時(shí),智能體的游戲表現(xiàn)依然勝過(guò)人類玩家。此外,通過(guò)查看人類和相應(yīng)延時(shí)的智能體的平均游戲事件數(shù)量,雙方的標(biāo)記事件數(shù)量差不多,表明這些智能體在這方面沒(méi)有占據(jù)優(yōu)勢(shì)。
通過(guò)無(wú)監(jiān)督學(xué)習(xí),我們建立了代理人和人類的典型行為,發(fā)現(xiàn)智能體實(shí)際上學(xué)習(xí)了類似人類的行為,比如跟隨隊(duì)友并在對(duì)手的基地安營(yíng)扎寨等。
訓(xùn)練后的智能體做出的幾種行為:防守己方基地、騷擾敵方基地、跟隨隊(duì)友。
這些行為在強(qiáng)化學(xué)習(xí)的訓(xùn)練過(guò)程中逐步出現(xiàn),智能體能夠逐漸學(xué)會(huì)以更加互補(bǔ)的方式進(jìn)行合作。
一群獨(dú)孤求勝智能體的訓(xùn)練進(jìn)程。左上角:30個(gè)智能體的Elo評(píng)分,它們之間可以互相訓(xùn)練和進(jìn)化。右上:進(jìn)化事件樹(shù)。下圖顯示了在整個(gè)智能體訓(xùn)練過(guò)程中知識(shí)進(jìn)展、一些內(nèi)部獎(jiǎng)勵(lì)機(jī)制和行為概率。
《星際爭(zhēng)霸2》并不是極限,多智能體將繼續(xù)前進(jìn)
AI智能體在《雷神之錘》中的成功經(jīng)驗(yàn),被DeepMind應(yīng)用在更復(fù)雜的即時(shí)戰(zhàn)略游戲中。比如基于人口信息學(xué)的多智能體強(qiáng)化學(xué)習(xí),構(gòu)成了面向《星際爭(zhēng)霸2》的AlphaStar智能體構(gòu)建的基礎(chǔ)。這款游戲被稱為“人類最后的尊嚴(yán)”,但最終也沒(méi)能擋住AIphaStar稱霸的腳步。
而且,《星際爭(zhēng)霸2》不會(huì)成為AI多智能體能力的極限,DeepMind還在不斷給多智能體加大難度,利用多智能體訓(xùn)練中總結(jié)出的經(jīng)驗(yàn),用于開(kāi)發(fā)高魯棒性的、甚至可以與人類合作的強(qiáng)大智能體。
智能體在全尺寸地圖上玩《雷神之錘3》其他多人游戲模式
-
AI
+關(guān)注
關(guān)注
87文章
31493瀏覽量
270096 -
智能體
+關(guān)注
關(guān)注
1文章
166瀏覽量
10609 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
268瀏覽量
11286
原文標(biāo)題:DeepMind制霸《雷神之錘3》!碾壓人類的超級(jí)多智能體這樣訓(xùn)練
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論