完美世界辰东小说下载,风凌天下,盗墓笔记txt全集下载

雖然人類已經(jīng)無(wú)望在電子競(jìng)技中打敗AI多智能體，但DeepMind的研究仍在繼續(xù)往前推進(jìn)。最近他們公布了在強(qiáng)化學(xué)習(xí)方面的最新進(jìn)展，并對(duì)未來(lái)進(jìn)行了展望。AI智能體的能力還會(huì)繼續(xù)提高嗎？會(huì)有極限嗎？

是的是的我們都知道，已經(jīng)沒(méi)有什么電子競(jìng)技能夠讓人類抱有哪怕1%穩(wěn)贏的希望了。但是！你有沒(méi)有想過(guò)，AI會(huì)不會(huì)有一個(gè)極限？它的潛力還有多少，無(wú)窮大？還是最終止步于某個(gè)境界？DeepMind的科學(xué)家也想知道。

他們最近更新了博客，以雷神之錘為例，為我們重新介紹了強(qiáng)化學(xué)習(xí)的最新發(fā)展、AI在《雷神之錘3·奪旗》中達(dá)到了什么樣的程度，以及未來(lái)的期望。

多智能體最大的挑戰(zhàn)：既要獨(dú)自打拼，還要團(tuán)隊(duì)協(xié)作

掌握多人游戲中涉及到的策略、戰(zhàn)術(shù)、團(tuán)隊(duì)配合，是AI研究的關(guān)鍵挑戰(zhàn)。而DeepMind的科學(xué)家已經(jīng)將AI調(diào)教到了和人類相當(dāng)?shù)乃剑@一點(diǎn)在《雷神之錘3·奪旗》體現(xiàn)的淋漓盡致。

AI智能體在游戲中，無(wú)論是跟同類打配合，還是跟人類組團(tuán)，完全天衣無(wú)縫，表現(xiàn)的不像個(gè)機(jī)器人。DeepMind的科學(xué)家已經(jīng)在籌劃將奪旗中的方法，應(yīng)用在雷神之錘3的全部游戲模式中。

Quake III有非常多的游戲模式。自身提供4種，分別是Free For All（競(jìng)技場(chǎng)模式）、Team Deathmatch（紅藍(lán)兩隊(duì)對(duì)戰(zhàn)模式）、Tournament（Duel）（單挑模式）、奪旗（紅藍(lán)兩隊(duì)奪旗模式）。其他包括MOD和以其開(kāi)源游戲引擎衍生出的獨(dú)立游戲也非常多。

https://zh.wikipedia.org/wiki/%E9%9B%B7%E7%A5%9E%E4%B9%8B%E9%94%A4III%E7%AB%9E%E6%8A%80%E5%9C%BA

作為社群生物，我們幾十億人類共同生活在同一個(gè)地球上，每個(gè)人都有自己獨(dú)立的目標(biāo)和行為，但仍然能夠通過(guò)團(tuán)隊(duì)、組織和社會(huì)聚集在一起，展示出令人驚嘆的集體智慧。這樣的設(shè)置，我們稱之為多智能體學(xué)習(xí)：每個(gè)智能體獨(dú)立行動(dòng)，同時(shí)要學(xué)會(huì)與其他智能體的互動(dòng)以及合作。

參考系都是動(dòng)態(tài)的，自由度非常高。想想我們?nèi)祟愔g團(tuán)隊(duì)配合的難度，就知道設(shè)計(jì)這樣的多智能體有多難了！

多智能體克服難題的秘訣

具體到《雷神之錘3·奪旗》中，智能體面臨的挑戰(zhàn)是直接從原始像素中學(xué)習(xí)以產(chǎn)生動(dòng)作。這種復(fù)雜性使得第一人稱多人游戲成為AI社區(qū)內(nèi)富有成效且活躍的研究領(lǐng)域。

奪旗原本是一項(xiàng)廣受歡迎的戶外運(yùn)動(dòng)，被廣泛的應(yīng)用于電子游戲中。在一張給定的地圖中，紅藍(lán)雙方保護(hù)自己的旗子并搶奪對(duì)方旗子，5分鐘時(shí)間內(nèi)，奪旗次數(shù)最多的隊(duì)伍獲勝。在游戲中，還可以標(biāo)記敵方隊(duì)員并將其送回出生點(diǎn)。

越是簡(jiǎn)單的規(guī)則，越能衍生出多種多樣的玩法，在人類來(lái)說(shuō)是增加了趣味性，在多智能體來(lái)講就是增加了難度。為了繼續(xù)刁難多智能體，游戲地圖被設(shè)置成每局一換，以防止多智能體靠著優(yōu)于人類的記憶來(lái)獲得地利優(yōu)勢(shì)。

多智能體應(yīng)對(duì)時(shí)局變化的訣竅，來(lái)自基于強(qiáng)化學(xué)習(xí)的三個(gè)概念：

訓(xùn)練一組多智能體而非只訓(xùn)練單一個(gè)體，使其能夠在游戲中互相學(xué)習(xí)，提供多樣化的隊(duì)友和對(duì)手

每個(gè)智能體都學(xué)習(xí)自己的內(nèi)部獎(jiǎng)勵(lì)信號(hào)，刺激智能體產(chǎn)生他們自己的內(nèi)在目標(biāo)比如搶到旗子。然后使用雙層優(yōu)化流程直接優(yōu)化智能體的內(nèi)部獎(jiǎng)勵(lì)以獲勝，同時(shí)利用內(nèi)部獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)來(lái)了解智能體的政策。

智能體以快速和慢速兩種速度運(yùn)行，這提高了它們使用內(nèi)存和生成一致動(dòng)作序列的能力

由此產(chǎn)生的智能體，被稱為For The Win（獨(dú)孤求勝）智能體，學(xué)會(huì)了以非常高的水平來(lái)玩奪旗。至關(guān)重要的是，學(xué)到的智能體政策，對(duì)地圖的大小、隊(duì)友的數(shù)量以及團(tuán)隊(duì)中的其他玩家都很有用。

DeepMind組織了40個(gè)人，和多智能體一起隨機(jī)組隊(duì)。最終獨(dú)孤求勝智能變得比強(qiáng)基線方法強(qiáng)大得多，超過(guò)了人類玩家的勝率。事后調(diào)查顯示，智能體相比我們?nèi)祟悾朴诖蚺浜希∷宰璧K人類勝利的關(guān)鍵是人類不會(huì)好好打配合咯。

智能體在訓(xùn)練期間的游戲表現(xiàn)。我們訓(xùn)練的新智能體FTW游戲模式下的Elo得分比人類玩家和自游戲+ RS、自游戲的基線方法更高，該分?jǐn)?shù)反映出游戲獲勝的概率。

除了對(duì)游戲表現(xiàn)進(jìn)行評(píng)估之外，了解這些智能體的行為和內(nèi)部表示的復(fù)雜度也很重要。

為了理解智能體如何表示游戲狀態(tài)，我們來(lái)看一下在平面上表示的智能體神經(jīng)網(wǎng)絡(luò)的激活模式。下圖中的點(diǎn)集群表示在游戲期間與附近表示類似激活模式的點(diǎn)的游戲情況。這些點(diǎn)按照智能體發(fā)現(xiàn)自己的高級(jí)CTF游戲狀態(tài)著色：在哪個(gè)房間？旗幟的狀態(tài)是什么？可以看到哪些隊(duì)友和對(duì)手？我們觀察到相同顏色的聚類，表明智能體以類似的方式表示類似的高級(jí)游戲狀態(tài)。

我們的智能體在游戲世界中的表示。在上圖中，根據(jù)神經(jīng)的相似程度繪制出給定時(shí)間的神經(jīng)激活模式：圖中兩點(diǎn)在空間中距離越近，表明它們的激活模式越相似。然后根據(jù)實(shí)時(shí)比賽情況對(duì)它們進(jìn)行上色：顏色相同，表示情況相同。這些神經(jīng)激活模式是有組織的，形成了顏色簇，表明智能體以刻板、有組織的方式表示出有意義的游戲玩法。訓(xùn)練后的智能體甚至展示了一些人工神經(jīng)元，用于直接針對(duì)游戲中的特定情形。

智能體從未被告知有關(guān)游戲規(guī)則的任何內(nèi)容，但卻了解基本的游戲概念，并對(duì)CTF產(chǎn)生了有效的直覺(jué)。事實(shí)上，我們可以找到直接為某些最重要的游戲狀態(tài)編碼的特定神經(jīng)元，例如在智能體一方的旗子被奪時(shí)激活的神經(jīng)元，或者當(dāng)智能體的隊(duì)友拿著旗幟時(shí)激活的神經(jīng)元。本文對(duì)此提供了進(jìn)一步的分析，包括了智能體對(duì)記憶和視覺(jué)注意力的應(yīng)用。

超強(qiáng)智能體：強(qiáng)加反應(yīng)延遲，游戲中仍然勝過(guò)人類

我們的智能體在游戲中表現(xiàn)如何？首先，它們的反應(yīng)時(shí)間非常短。由于人類的生物信號(hào)傳導(dǎo)速度較慢，人類處理和作用于感官輸入的速度也就相對(duì)較慢。因此，我們的智能體在游戲中的卓越表現(xiàn)，可能是因?yàn)樗鼈兙邆涓斓囊曈X(jué)處理能力和運(yùn)動(dòng)控制的結(jié)果。

然而，在我們?nèi)藶榻档土酥悄荏w的瞄準(zhǔn)精度和反應(yīng)時(shí)間后，發(fā)現(xiàn)這其實(shí)只是其表現(xiàn)優(yōu)秀的其中一個(gè)因素。在進(jìn)一步的研究中，我們訓(xùn)練了內(nèi)置延遲約四分之一秒（267毫秒）的智能體，也就是說(shuō)，它們?cè)谟^察世界之前存在267毫秒的延遲，這與人類游戲玩家的反應(yīng)時(shí)間差不多。但這些自帶反應(yīng)延時(shí)的智能體仍然在游戲中的表現(xiàn)仍然優(yōu)于人類玩家，后者的勝率只有21%。

人類玩家面對(duì)響應(yīng)延遲的智能體的勝率仍然很低，這表明，即使被加上了與人類相當(dāng)?shù)姆磻?yīng)延時(shí)，智能體的游戲表現(xiàn)依然勝過(guò)人類玩家。此外，通過(guò)查看人類和相應(yīng)延時(shí)的智能體的平均游戲事件數(shù)量，雙方的標(biāo)記事件數(shù)量差不多，表明這些智能體在這方面沒(méi)有占據(jù)優(yōu)勢(shì)。

通過(guò)無(wú)監(jiān)督學(xué)習(xí)，我們建立了代理人和人類的典型行為，發(fā)現(xiàn)智能體實(shí)際上學(xué)習(xí)了類似人類的行為，比如跟隨隊(duì)友并在對(duì)手的基地安營(yíng)扎寨等。

訓(xùn)練后的智能體做出的幾種行為：防守己方基地、騷擾敵方基地、跟隨隊(duì)友。

這些行為在強(qiáng)化學(xué)習(xí)的訓(xùn)練過(guò)程中逐步出現(xiàn)，智能體能夠逐漸學(xué)會(huì)以更加互補(bǔ)的方式進(jìn)行合作。

一群獨(dú)孤求勝智能體的訓(xùn)練進(jìn)程。左上角：30個(gè)智能體的Elo評(píng)分，它們之間可以互相訓(xùn)練和進(jìn)化。右上：進(jìn)化事件樹(shù)。下圖顯示了在整個(gè)智能體訓(xùn)練過(guò)程中知識(shí)進(jìn)展、一些內(nèi)部獎(jiǎng)勵(lì)機(jī)制和行為概率。

《星際爭(zhēng)霸2》并不是極限，多智能體將繼續(xù)前進(jìn)

AI智能體在《雷神之錘》中的成功經(jīng)驗(yàn)，被DeepMind應(yīng)用在更復(fù)雜的即時(shí)戰(zhàn)略游戲中。比如基于人口信息學(xué)的多智能體強(qiáng)化學(xué)習(xí)，構(gòu)成了面向《星際爭(zhēng)霸2》的AlphaStar智能體構(gòu)建的基礎(chǔ)。這款游戲被稱為“人類最后的尊嚴(yán)”，但最終也沒(méi)能擋住AIphaStar稱霸的腳步。

而且，《星際爭(zhēng)霸2》不會(huì)成為AI多智能體能力的極限，DeepMind還在不斷給多智能體加大難度，利用多智能體訓(xùn)練中總結(jié)出的經(jīng)驗(yàn)，用于開(kāi)發(fā)高魯棒性的、甚至可以與人類合作的強(qiáng)大智能體。

智能體在全尺寸地圖上玩《雷神之錘3》其他多人游戲模式

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
31493

瀏覽量
270096
智能體

智能體

+關(guān)注

關(guān)注
1

文章
166

瀏覽量
10609
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
268

瀏覽量
11286

原文標(biāo)題：DeepMind制霸《雷神之錘3》！碾壓人類的超級(jí)多智能體這樣訓(xùn)練

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

深圳云棲大會(huì)人工智能專場(chǎng)：探索視頻+AI，玩轉(zhuǎn)智能視頻應(yīng)用

提高視頻生產(chǎn)制作的效率的。傳統(tǒng)的編輯是人來(lái)做的，當(dāng)AI和視頻采集生產(chǎn)環(huán)節(jié)結(jié)合，我們可以引入智能編輯技術(shù)，快速生產(chǎn)視頻。天下武功，唯快不破，應(yīng)用在視頻領(lǐng)域也是一樣的。設(shè)想我們很快的生產(chǎn)視頻，第一時(shí)間發(fā)布

發(fā)表于 03-30 15:15

全球首家！訊飛AI電話能力平臺(tái)開(kāi)放合作！

能力的機(jī)器人。科大訊飛AI電話機(jī)器人平臺(tái)使得傳統(tǒng)客服平臺(tái)能夠在最短的時(shí)間內(nèi)，以極少成本集成訊飛AI電話機(jī)器人全部功能，為自己產(chǎn)品新增一個(gè)聰明的人工智能機(jī)器人。幫助平臺(tái)客戶實(shí)現(xiàn)業(yè)務(wù)知識(shí)自

發(fā)表于 09-10 09:47

新能力｜AI為腦 · AR為眼，訊飛能力星云助你看見(jiàn)智能未來(lái)

星云計(jì)劃——除了自研能力，科大訊飛還會(huì)與業(yè)內(nèi)優(yōu)秀的技術(shù)廠商進(jìn)行合作，實(shí)現(xiàn)戰(zhàn)略互補(bǔ)。訊飛開(kāi)放平臺(tái)經(jīng)過(guò)8年的積累，現(xiàn)已開(kāi)放近百項(xiàng)AI能力，賦能88萬(wàn)開(kāi)發(fā)者團(tuán)隊(duì)。在

發(fā)表于 09-14 10:23

微型微控制器與強(qiáng)大的人工智能（AI）世界有什么關(guān)系

嵌入式應(yīng)用可能的極限，嵌入式設(shè)計(jì)已經(jīng)能夠提高網(wǎng)絡(luò)攻擊的實(shí)時(shí)響應(yīng)能力和設(shè)備安全性。支持AI的MCU云計(jì)算推動(dòng)了對(duì)具有AI功能的MCU的需求；它減少了數(shù)據(jù)傳輸所需的帶寬，并節(jié)省了云服務(wù)器的

發(fā)表于 11-01 08:55

用嵌入式AI技術(shù)提升智能硬件應(yīng)用能力

，更有人工智能開(kāi)放平臺(tái)MAGIK。X2000 建立在其圖像、視頻、互聯(lián)等各方面的強(qiáng)大的能力組合之上的 AI 能力，必將使其成為智能互聯(lián)時(shí)代不

發(fā)表于 10-09 14:33

AI 人工智能的未來(lái)在哪？

人工智能、AI智能大模型已經(jīng)孵化；繁衍過(guò)程將突飛猛進(jìn)，ChatGPT已經(jīng)上線。世界首富馬斯克認(rèn)為AI對(duì)人類是一種威脅；谷歌前CEO施密特認(rèn)為AI

發(fā)表于 06-27 10:48

AI智能呼叫中心

可以自動(dòng)識(shí)別和響應(yīng)來(lái)電，通過(guò)分析用戶的語(yǔ)音、文字和情緒等信息，并給出針對(duì)性的應(yīng)答，與傳統(tǒng)的人工處理相比，AI智能呼叫中心能夠?qū)崿F(xiàn)24/7不間斷的服務(wù)，大幅提高了處理效率和用戶滿意度。二、個(gè)性化服務(wù)

發(fā)表于 09-20 17:53

AI時(shí)代到來(lái) 如何提高孩子創(chuàng)造未來(lái)的能力

之前分享過(guò)創(chuàng)新工場(chǎng)人工智能工程院執(zhí)行院長(zhǎng)王詠剛的《AI時(shí)代，提高孩子創(chuàng)造未來(lái)的能力，陪孩子玩什么游戲？》一文。很多家長(zhǎng)看了文章后，想知道玩這些游戲到底有什么用？

發(fā)表于 05-09 11:03 ?2908次閱讀

極視角發(fā)布首款軟硬一體極光幫助客戶低成本擁有應(yīng)用AI能力

極光是一款集平臺(tái)、算法、存儲(chǔ)為一體的智能邊緣計(jì)算產(chǎn)品，基于極視角強(qiáng)大算法能力，結(jié)合高算力AI模塊，致力于幫助客戶低成本擁有應(yīng)用AI的

發(fā)表于 05-25 14:30 ?2512次閱讀

大模型不夠用，還有“AI智能體”？

前不久，在一場(chǎng)活動(dòng)中有人工智能專家圍繞“AI智能體”的話題展開(kāi)了討論，他們表示，AI智能

發(fā)表于 05-12 08:04 ?344次閱讀

智能體逼近大爆發(fā)？李彥宏再談AI應(yīng)用

AI時(shí)代的未來(lái)，為什么是智能體？

發(fā)表于 06-20 16:08 ?465次閱讀

長(zhǎng)虹發(fā)布滄海智能體AI TV與智匯家AI大模型

2024年德國(guó)柏林消費(fèi)電子展覽會(huì)（IFA2024）盛大啟幕，長(zhǎng)虹集團(tuán)攜全球首款滄海智能體AI TV與長(zhǎng)虹美菱智匯家AI大模型驚艷亮相。滄海智能

發(fā)表于 09-10 18:21 ?929次閱讀

使用全新NVIDIA AI Blueprint開(kāi)發(fā)視覺(jué)AI智能體

為提高生產(chǎn)力、優(yōu)化流程和創(chuàng)造更加安全的空間，埃森哲、戴爾科技和聯(lián)想等公司正在使用全新 NVIDIA AI Blueprint 開(kāi)發(fā)視覺(jué) AI 智能體

發(fā)表于 11-06 13:58 ?500次閱讀

AI智能體生態(tài)圈和軟件棧

原文鏈接：https://www.letta.com/blog/ai-agents-stack 一，理解AI智能體盡管市面上有許多關(guān)于智能

發(fā)表于 12-03 15:49 ?185次閱讀

AI智能體是什么_AI智能體如何重塑企業(yè)業(yè)務(wù)流程

AI技術(shù)的飛速發(fā)展令人矚目。就在企業(yè)領(lǐng)導(dǎo)者們剛開(kāi)始熟悉AI助手時(shí)，AI智能體Agent（國(guó)際版）已經(jīng)迅速成為討論的焦點(diǎn)。它們之所以受到廣泛關(guān)

發(fā)表于 12-19 17:55 ?362次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

AI智能體的能力還會(huì)繼續(xù)提高嗎？

評(píng)論

深圳云棲大會(huì)人工智能專場(chǎng)：探索視頻+AI，玩轉(zhuǎn)智能視頻應(yīng)用

全球首家！訊飛AI電話能力平臺(tái)開(kāi)放合作！

新能力｜AI為腦 · AR為眼，訊飛能力星云助你看見(jiàn)智能未來(lái)

微型微控制器與強(qiáng)大的人工智能（AI）世界有什么關(guān)系

用嵌入式AI技術(shù)提升智能硬件應(yīng)用能力

AI 人工智能的未來(lái)在哪？

AI智能呼叫中心

AI時(shí)代到來(lái) 如何提高孩子創(chuàng)造未來(lái)的能力

極視角發(fā)布首款軟硬一體極光幫助客戶低成本擁有應(yīng)用AI能力

大模型不夠用，還有“AI智能體”？

智能體逼近大爆發(fā)？李彥宏再談AI應(yīng)用

長(zhǎng)虹發(fā)布滄海智能體AI TV與智匯家AI大模型

使用全新NVIDIA AI Blueprint開(kāi)發(fā)視覺(jué)AI智能體

AI智能體生態(tài)圈和軟件棧

AI智能體是什么_AI智能體如何重塑企業(yè)業(yè)務(wù)流程