在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI的由5個(gè)神經(jīng)網(wǎng)絡(luò)組成的OpenAI Five,已經(jīng)開始擊敗Dota 2的業(yè)余玩家隊(duì)伍

DPVg_AI_era ? 來(lái)源:未知 ? 作者:李倩 ? 2018-06-27 12:01 ? 次閱讀

剛剛,OpenAI宣布了一個(gè)大新聞——他們的一個(gè)由5個(gè)神經(jīng)網(wǎng)絡(luò)組成的OpenAI Five,已經(jīng)開始擊敗Dota 2的業(yè)余玩家隊(duì)伍。

剛剛,OpenAI 宣布了一個(gè)大新聞——還記得去年他們的AI在 Dota2 1v1 比賽中戰(zhàn)勝了人類職業(yè)玩家 Dendi嗎?現(xiàn)在,OpenAI的由5個(gè)神經(jīng)網(wǎng)絡(luò)組成的OpenAI Five,已經(jīng)開始擊敗Dota 2的業(yè)余玩家隊(duì)伍。

4月23日,OpenAI Five首次擊敗了腳本基線。5月15日,OpenAI Five與第一隊(duì)平分秋色,贏得了一場(chǎng)比賽并輸?shù)袅肆硪粓?chǎng)。6月6日,OpenAI Five在與隊(duì)伍1、2、3的比賽中全部獲勝。之后,我們又與第4和第5隊(duì)進(jìn)行了非正式的比賽,預(yù)計(jì)會(huì)輸?shù)煤軕K,但OpenAI Five在前3場(chǎng)比賽中贏得了兩場(chǎng)。

OpenAI表示,雖然他們現(xiàn)在玩的是有限制的游戲,但他們的目標(biāo)是在8月份擊敗國(guó)際頂級(jí)職業(yè)團(tuán)隊(duì)(不過(guò)只限于一組有限的英雄)。同時(shí),他們也坦承這個(gè)任務(wù)艱巨——“我們可能不會(huì)成功:Dota 2是世界上最流行和最復(fù)雜的電子競(jìng)技游戲之一,每年都有來(lái)自全世界最富有創(chuàng)造力和積極性的專業(yè)人員參賽,競(jìng)爭(zhēng)Dota年度價(jià)值4000萬(wàn)美元的獎(jiǎng)金(這也是所有電子競(jìng)技游戲中份額最大的獎(jiǎng)金)。

如今,OpenAI Five每天都通過(guò)自我對(duì)戰(zhàn)(self-play)來(lái)學(xué)習(xí),而每天自我對(duì)戰(zhàn)的量是180年的游戲——沒(méi)錯(cuò),是180年。它使用OpenAI提出的算法“近端策略優(yōu)化”(PPO)的擴(kuò)展版,在256個(gè)GPU和128,000個(gè)CPU內(nèi)核上進(jìn)行訓(xùn)練。每個(gè)英雄都使用單獨(dú)的LSTM,不使用人類數(shù)據(jù),最終AI能夠?qū)W會(huì)識(shí)別策略。這表明,強(qiáng)化學(xué)習(xí)能夠進(jìn)行大但卻可實(shí)現(xiàn)規(guī)模(large but achievable scale)的長(zhǎng)期規(guī)劃,而不發(fā)生根本性的進(jìn)展,這與OpenAI開始項(xiàng)目時(shí)的預(yù)期相悖。

為了對(duì)他們所取得的進(jìn)步衡量基準(zhǔn),OpenAI將在7月28日舉行一場(chǎng)比賽,歡迎觀看直播甚至親臨現(xiàn)場(chǎng)。

OpenAI Five與OpenAI玩DOTA最好的團(tuán)隊(duì)競(jìng)賽。比賽由暴風(fēng)游戲的專業(yè)評(píng)論員和OpenAI Dota團(tuán)隊(duì)成員Christy Dennison進(jìn)行了評(píng)論,也得到了玩家的觀戰(zhàn)。

國(guó)內(nèi)首家決策智能公司創(chuàng)始人兼CEO袁泉點(diǎn)評(píng):

Dota游戲是一個(gè)典型的AI難題,它綜合了決策周期長(zhǎng),空間大而且敵我雙方是在非完全信息下博弈。OpenAI繼去年解決1v1的問(wèn)題后,1年內(nèi)能在5v5的更復(fù)雜情況下,完全依靠自我對(duì)抗學(xué)習(xí)、無(wú)顯式通訊信道的前提下,即展現(xiàn)出了類似于人的長(zhǎng)期規(guī)劃協(xié)作能力,代表了多智能體決策智能的國(guó)際最高水準(zhǔn),也體現(xiàn)了大規(guī)模算力帶來(lái)的美感。

Dota2究竟有多難?復(fù)雜程度超乎想象

玩星際爭(zhēng)霸或Dota,需要AI在不確定的情況下進(jìn)行推理與規(guī)劃,涉及多個(gè)智能體協(xié)作完成復(fù)雜的任務(wù),權(quán)衡短中長(zhǎng)期不同的收益。相比下圍棋這樣的確定性問(wèn)題,星際爭(zhēng)霸/Dota的搜索空間要高出10個(gè)數(shù)量級(jí)。

因此,攻克星際爭(zhēng)霸或者Dota這樣的復(fù)雜電子競(jìng)技游戲,是AI的最大挑戰(zhàn)之一,也將是AI的一個(gè)里程碑式的成就。

Dota 2 是一個(gè)實(shí)時(shí)競(jìng)技電子游戲,有兩支5人隊(duì)伍組成,每個(gè)人都控制一個(gè)英雄,能玩Dota的AI,必須掌握以下技巧:

很長(zhǎng)的時(shí)間線。Dota游戲以每秒30幀的速度運(yùn)行,平均時(shí)間為45分鐘,因此每場(chǎng)游戲的時(shí)間tick為80,000次。大多數(shù)行為(例如命令英雄移動(dòng)到某個(gè)位置)單獨(dú)產(chǎn)生的影響較小,但有些個(gè)別的行為,比如在城市間移動(dòng)(回城卷軸),可能會(huì)在戰(zhàn)略上影響游戲。還有一些策略,則能影響整個(gè)戰(zhàn)局。OpenAI Five每4幀觀察一次,產(chǎn)生20,000次移動(dòng)。相比之下,國(guó)際象棋通常在40次移動(dòng)之前就結(jié)束,圍棋則是150手移動(dòng)前結(jié)束,而且?guī)缀趺恳淮我苿?dòng)都是戰(zhàn)略性的。

部分觀察狀態(tài)。在Dota過(guò)程中,隊(duì)伍(units)和建筑物只能看到他們周圍的區(qū)域。地圖的其他部分隱藏在霧中,敵人和他們的戰(zhàn)略也是隱藏的。因此,比賽需要根據(jù)不完整的數(shù)據(jù)進(jìn)行推斷,并且需要對(duì)對(duì)手的最佳狀態(tài)進(jìn)行建模。相比之下,國(guó)際象棋和圍棋都是信息完全顯露出來(lái)的游戲。

高維連續(xù)動(dòng)作空間。在Dota中,每個(gè)英雄可以采取數(shù)十個(gè)動(dòng)作,而許多動(dòng)作都是針對(duì)另一個(gè)單位(unit)或地面上的某個(gè)位置。OpenAI將每個(gè)英雄的空間分割成170,000個(gè)可能的行動(dòng);不計(jì)算連續(xù)部分,每個(gè)tick平均有大約1000次有效操作。國(guó)際象棋中的平均動(dòng)作數(shù)為35,在圍棋中,這是數(shù)字也只有250。

高維連續(xù)的觀察空間。Dota在包含十個(gè)英雄,幾十個(gè)建筑物,幾十個(gè)NPC以及諸如符文、樹木和病房等游戲長(zhǎng)尾特征。OpenAI的模型通過(guò)Valve的Bot API觀察Dota游戲的狀態(tài),其中20,000(大多是浮點(diǎn))數(shù)字表示允許人類訪問(wèn)的所有信息。相比之下,國(guó)際象棋棋盤有大約70個(gè)枚舉值(8x8的棋盤加6種棋子類型和其他一些的歷史信息),而圍棋則有大約400個(gè)枚舉值(19x19的棋盤加黑白兩種棋子)。

Dota規(guī)則也非常復(fù)雜。這是一個(gè)已經(jīng)被積極開發(fā)了十多年的游戲,游戲邏輯在幾十萬(wàn)行代碼中實(shí)現(xiàn)。這個(gè)邏輯需要幾毫秒的時(shí)間才能執(zhí)行,而對(duì)于國(guó)際象棋或圍棋引擎則只需要幾納秒。游戲也每?jī)芍芨乱淮危粩喔淖儹h(huán)境語(yǔ)義。

完全從自我對(duì)戰(zhàn)中學(xué)習(xí),128000CPU+256 P100GPU

OpenAI的系統(tǒng)使用Proximal Policy Optimization的大規(guī)模版本進(jìn)行學(xué)習(xí)。OpenAI Five和OpenAI早期的1v1 bot都是完全從自我對(duì)戰(zhàn)中學(xué)習(xí)。它們從隨機(jī)參數(shù)開始,不使用來(lái)自人類回放(replay)的搜索或引導(dǎo)。

RL研究人員(包括OpenAI自己)一般認(rèn)為,長(zhǎng)時(shí)間視野(long time horizons)需要從根本上取得新的進(jìn)展,比如分層強(qiáng)化學(xué)習(xí)。結(jié)果表明,實(shí)際上現(xiàn)如今的算法已經(jīng)足夠,至少當(dāng)它們以足夠的規(guī)模和合理的探索方式運(yùn)行時(shí)。

OpenAI的agent經(jīng)過(guò)訓(xùn)練,可以最大化未來(lái)獎(jiǎng)勵(lì)的指數(shù)衰減總和,并由稱為γ的指數(shù)衰減因子加權(quán)。在最新的OpenAI Five訓(xùn)練中,他們從0.998(評(píng)估未來(lái)獎(jiǎng)勵(lì)的半衰期為46秒)到0.9997(評(píng)估未來(lái)獎(jiǎng)勵(lì)的半衰期為五分鐘)退化γ。相比之下,PPO論文中最長(zhǎng)的half-life是0.5秒,Rainbow論文中最長(zhǎng)的半衰期為4.4秒。

盡管當(dāng)前版本的OpenAI Five在最后一擊時(shí)表現(xiàn)不佳,但其objective prioritization已經(jīng)堪比一個(gè)常見的專家。獲得戰(zhàn)略地圖控制等長(zhǎng)期回報(bào)往往需要犧牲短期回報(bào),例如從農(nóng)業(yè)獲得的黃金,因?yàn)榻M建攻擊塔需要時(shí)間。這表明系統(tǒng)真正在進(jìn)行長(zhǎng)期的優(yōu)化。

模型結(jié)構(gòu)

每個(gè)OpenAI Five網(wǎng)絡(luò)都包含一個(gè)單層的、1024-unit的LSTM,它可以查看當(dāng)前的游戲狀態(tài)(從Valve的Bot API中提取),并通過(guò)幾個(gè)可能的action heads發(fā)出動(dòng)作。每個(gè) head都具有語(yǔ)義含義,例如,延遲動(dòng)作的刻度數(shù),選擇一個(gè)動(dòng)作時(shí),該動(dòng)作在單元周圍網(wǎng)格中的X或Y坐標(biāo)等。Action heads是獨(dú)立計(jì)算的。

OpenAI Five使用觀察空間和動(dòng)作空間進(jìn)行交互式演示。OpenAI Five將世界視為20000個(gè)數(shù)字的列表,并通過(guò)發(fā)出一個(gè)包含8個(gè)枚舉值的列表來(lái)采取行動(dòng)。選擇不同的行動(dòng)和目標(biāo)以了解OpenAI Five如何編碼每個(gè)動(dòng)作,以及它如何觀察世界。下圖顯示了人類會(huì)看到的場(chǎng)景。

OpenAI Five可以對(duì)丟失的與它所看到的相關(guān)的狀態(tài)片段做出反應(yīng)。例如,直到最近,OpenAI Five的觀察都還沒(méi)有包括彈片區(qū)域(彈片落在敵人身上的區(qū)域),人類在屏幕上能看到這些區(qū)域。然而,我們觀察到OpenAI Five學(xué)習(xí)走出(雖然不能避免進(jìn)入)活躍的彈片區(qū)域,因?yàn)楫?dāng)進(jìn)入彈片區(qū)時(shí),它可以看到它的健康狀況在下降。

探索

盡管有學(xué)習(xí)算法能夠處理較長(zhǎng)的視野,我們?nèi)匀恍枰剿鳝h(huán)境。即使我們?cè)O(shè)了限制,仍然有數(shù)百個(gè)物品,幾十種建筑,法術(shù)和單元類型,以及需要了解的復(fù)雜的游戲機(jī)制——其中許多產(chǎn)生了強(qiáng)大的組合。要有效地探索這個(gè)巨大的空間并不容易。

OpenAI Five從自我玩游戲(self-play)過(guò)程中學(xué)習(xí)(從隨機(jī)權(quán)重開始),這為探索環(huán)境提供了一個(gè)自然的設(shè)置。為了避免“戰(zhàn)略崩潰”,agent在80%的游戲中進(jìn)行自我訓(xùn)練,其余20%的游戲則與過(guò)去的自己對(duì)戰(zhàn)。在第一場(chǎng)比賽中,英雄漫無(wú)目的地在地圖上漫步。經(jīng)過(guò)幾個(gè)小時(shí)的訓(xùn)練后,出現(xiàn)了諸如laning、farming或中期戰(zhàn)斗等概念。幾天之后,它們一直采用基本的人類策略:試圖從對(duì)手手中奪取神符,步行到一級(jí)塔去農(nóng)場(chǎng),并在地圖周圍旋轉(zhuǎn)英雄以獲得lane優(yōu)勢(shì)。通過(guò)進(jìn)一步的訓(xùn)練,它們變得精通5-hero push 這樣的高級(jí)戰(zhàn)略了。

在2017年3月,我們的第一個(gè)agent擊敗了bot,但仍然搞不定人類。為了強(qiáng)制在戰(zhàn)略空間進(jìn)行探索,在訓(xùn)練期間(并且只在訓(xùn)練期間),我們對(duì)這些單元的屬性(健康,速度,啟動(dòng)級(jí)別等)進(jìn)行了隨機(jī)化,然后用它開始能與人類對(duì)打。后來(lái),當(dāng)一名測(cè)試玩家一直不斷地?fù)魯∥覀兊?v1 bot時(shí),我們?cè)黾恿穗S機(jī)訓(xùn)練,測(cè)試玩家開始出現(xiàn)失敗。(我們的機(jī)器人團(tuán)隊(duì)同時(shí)將類似的隨機(jī)化技術(shù)應(yīng)用于物理機(jī)器人身上,以便從模式世界轉(zhuǎn)換到現(xiàn)實(shí)世界。)

OpenAI Five使用我們?yōu)?v1 bot編寫的隨機(jī)數(shù)據(jù)。它還使用一個(gè)新的“l(fā)ane assignment”。在每次訓(xùn)練游戲開始時(shí),我們隨機(jī)地將每個(gè)英雄“分配”給一些lane的子集,并在它發(fā)生偏離是對(duì)其進(jìn)行懲罰,直到游戲中隨機(jī)選擇的時(shí)間。

這樣的探索得到了很好的回報(bào)。我們的獎(jiǎng)勵(lì)主要由衡量人類如何在游戲中做決定的指標(biāo)組成:凈價(jià)值,kills,死亡,助攻,上次命中等等。我們通過(guò)減去另一組的平均獎(jiǎng)勵(lì)后處理每個(gè)agent的獎(jiǎng)勵(lì),以防止agent找到 positive-sum 的情況。

我們硬編碼項(xiàng)目和技能構(gòu)建(最初為我們的腳本基準(zhǔn)編寫),并選擇隨機(jī)使用哪些構(gòu)建。

協(xié)調(diào)

OpenAI Five不包含英雄神經(jīng)網(wǎng)絡(luò)之間的明確通信渠道。團(tuán)隊(duì)合作由我們稱為“團(tuán)隊(duì)精神”(team spirit)的超參數(shù)控制。team spirit的范圍從0到1,對(duì)OpenAI Five的每個(gè)英雄應(yīng)該關(guān)心其個(gè)人獎(jiǎng)勵(lì)函數(shù)與團(tuán)隊(duì)獎(jiǎng)勵(lì)函數(shù)的平均值賦予權(quán)重。我們?cè)谟?xùn)練中將它的值從0降到1。

快速

我們的系統(tǒng)是一個(gè)稱為Rapid的通用RL訓(xùn)練系統(tǒng),可用于任何Gym環(huán)境。我們已經(jīng)使用Rapid解決了OpenAI的其他一些問(wèn)題,包括競(jìng)爭(zhēng)性的自我對(duì)戰(zhàn)。

訓(xùn)練系統(tǒng)分為運(yùn)行游戲副本的rolloutworker和收集經(jīng)驗(yàn)的agent,以及optimizer節(jié)點(diǎn),這些節(jié)點(diǎn)在整個(gè)GPU隊(duì)列中執(zhí)行同步梯度下降。 rollout worker通過(guò)Redis將它們的經(jīng)驗(yàn)同步到optimizer每個(gè)實(shí)驗(yàn)還包括訓(xùn)練好的agent進(jìn)行評(píng)估,以及監(jiān)控軟件,如TensorBoard,Sentry和Grafana。

在同步梯度下降過(guò)程中,每個(gè)GPU計(jì)算batch部分的梯度,然后對(duì)梯度進(jìn)行全局平均。下圖顯示了不同數(shù)量的GPU同步58MB數(shù)據(jù)的延遲。

我們?yōu)镽apid實(shí)施了Kubernetes,Azure和GCP后端。

游戲結(jié)果

到目前為止,OpenAI Five已經(jīng)(在我們的限制下)與這些對(duì)手進(jìn)行了比賽:

最佳OpenAI員工團(tuán)隊(duì):2.5k MMR(46th percentile)

觀看OpenAI員工比賽的最佳觀眾(包括第一次OpenAI員工比賽的解說(shuō)員Blitz):4-6k MMR(90th-99th percentile),盡管他們從來(lái)沒(méi)有作為一個(gè)團(tuán)隊(duì)參賽。

Valve employee團(tuán)隊(duì):2.5-4k MMR(46th-90th percentile)。

業(yè)余團(tuán)隊(duì):4.2k MMR(93rd percentile),訓(xùn)練為一支隊(duì)伍。

半專業(yè)團(tuán)隊(duì):5.5k MMR(99th percentile),訓(xùn)練為一支隊(duì)伍。

4月23日版的OpenAI Five是第一個(gè)擊敗我們的腳本基線的版本。5月15號(hào)的OpenAI Five與第一隊(duì)旗鼓相當(dāng),贏了一場(chǎng)比賽,又輸了一場(chǎng)。6月6日的OpenAI Five戰(zhàn)勝了1-3對(duì)。我們和4隊(duì)、5隊(duì)建立了非正式的比賽,預(yù)計(jì)出現(xiàn)很差的表現(xiàn),但是OpenAI Five在前三場(chǎng)比賽中均贏了兩場(chǎng)。

“機(jī)器人的團(tuán)隊(duì)合作方面簡(jiǎn)直勢(shì)不可擋,感覺就像五個(gè)無(wú)私的玩家一樣,知道一個(gè)很好的總體戰(zhàn)略。”——— Blitz

我們發(fā)現(xiàn)OpenAI Five:

為了換取控制敵人的優(yōu)勢(shì)路safelane,多次犧牲自己的優(yōu)勢(shì)路(上路是夜魘,下路是天輝),迫使戰(zhàn)斗向敵人更難防御的一邊進(jìn)行。這種策略在過(guò)去幾年出現(xiàn)在專業(yè)領(lǐng)域,現(xiàn)在被認(rèn)為是流行的策略。Blitz說(shuō)他是在經(jīng)過(guò)8年的比賽后才知道這一點(diǎn)的,當(dāng)時(shí)Team Liquid告訴他這件事。

從比賽初期到賽季中期的轉(zhuǎn)場(chǎng)比對(duì)手更快。 它是這樣做的:(1)當(dāng)玩家在他們路上過(guò)度擴(kuò)張時(shí),建立成功的Ganks;(2)在對(duì)手組織對(duì)抗之前組隊(duì)占領(lǐng)塔。

在少數(shù)領(lǐng)域偏離了目前的游戲風(fēng)格,比如給予支持英雄許多早期經(jīng)驗(yàn)和黃金。 OpenAI Five的優(yōu)先級(jí)使得它的傷害更早達(dá)到頂峰,并使它的優(yōu)勢(shì)更加強(qiáng)大,贏得團(tuán)隊(duì)?wèi)?zhàn)斗并利用錯(cuò)誤來(lái)確保快速的勝利。

與人類的不同之處

OpenAI Five可以訪問(wèn)與人類相同的信息,但是它可以立即看到諸如位置、健康狀況和物品清單等數(shù)據(jù),這些數(shù)據(jù)是人類必須手動(dòng)檢查的。我們的方法與觀察狀態(tài)沒(méi)有本質(zhì)的聯(lián)系,但是僅僅從游戲中渲染像素就需要數(shù)千個(gè)GPU。

OpenAI Five的平均動(dòng)作速度約為每分鐘150-170個(gè)動(dòng)作(理論上最大動(dòng)作速度為450個(gè),因?yàn)槊扛?幀就觀察一次)。對(duì)于熟練的玩家來(lái)說(shuō),幀完美的時(shí)機(jī)對(duì)于OpenAI Five來(lái)說(shuō)是微不足道的。 OpenAI Five的平均反應(yīng)時(shí)間為80ms,比人類快。

這些差異在1v1中最為重要(我們的機(jī)器人的響應(yīng)時(shí)間為67ms),但是我們已經(jīng)看到人類從機(jī)器人身上學(xué)習(xí)并適應(yīng)機(jī)器人,所以競(jìng)技場(chǎng)相對(duì)比較公平。數(shù)十位專業(yè)人士在去年TI的幾個(gè)月里使用我們的1v1機(jī)器人進(jìn)行訓(xùn)練。根據(jù)Blitz的說(shuō)法,1v1機(jī)器人改變了人們對(duì)1v1的看法(機(jī)器人采用了快節(jié)奏的游戲風(fēng)格,現(xiàn)在每個(gè)人都適應(yīng)了)。

一些驚人的發(fā)現(xiàn)

二元獎(jiǎng)勵(lì)能夠帶來(lái)好的表現(xiàn)。我們的1v1模型有一個(gè)有形的獎(jiǎng)勵(lì),包括對(duì)最后命中目標(biāo)、殺戮等等的獎(jiǎng)勵(lì)。我們做了一個(gè)實(shí)驗(yàn),只獎(jiǎng)勵(lì)那些獲勝的agent或只獎(jiǎng)勵(lì)失敗的agent,它訓(xùn)練一個(gè)數(shù)量級(jí)更慢,并且在中間有一些停滯,這與我們通常看到的平滑的學(xué)習(xí)曲線形成了對(duì)比。實(shí)驗(yàn)運(yùn)行在4500個(gè)內(nèi)核和16個(gè)k80 GPU上,訓(xùn)練到半專業(yè)級(jí)(70個(gè)TrueSkill),而不是我們最好的1v1機(jī)器人的90個(gè)TrueSkill。

Creep blocking可以從頭開始學(xué)習(xí)。對(duì)于1v1,我們學(xué)習(xí)了使用傳統(tǒng)RL進(jìn)行creep blocking并帶有“creep block”獎(jiǎng)勵(lì)。我們的一個(gè)團(tuán)隊(duì)成員在休假時(shí)離開了2v2模型的訓(xùn)練,打算看看還需要多久的訓(xùn)練才能提高性能。令他驚訝的是,這個(gè)模型學(xué)會(huì)了沒(méi)有任何特別的指導(dǎo)或獎(jiǎng)勵(lì)的情況下creep block。

我們還在修復(fù)bug。上面的圖表顯示了擊敗業(yè)余玩家的代碼的訓(xùn)練運(yùn)行情況,相比之下,我們只是修復(fù)了一些bug,比如在訓(xùn)練中偶爾發(fā)生的崩潰,或者達(dá)到25級(jí)時(shí)導(dǎo)致一個(gè)大的負(fù)面獎(jiǎng)勵(lì)的錯(cuò)誤。事實(shí)證明,這個(gè)系統(tǒng)有可能擊敗人類高手,但同時(shí)也可能隱藏著嚴(yán)重的bug!

接下來(lái)是什么?

我們的隊(duì)伍正集中精力完成我們8月份的目標(biāo)。我們不知道這個(gè)目標(biāo)能否實(shí)現(xiàn),但我們相信,只要努力工作(還有點(diǎn)運(yùn)氣),我們就能實(shí)現(xiàn)。

這篇文章描述了6月6日我們系統(tǒng)的快照。在超越人類性能的過(guò)程中,我們將發(fā)布更新,并在項(xiàng)目完成后就最終系統(tǒng)編寫報(bào)告。請(qǐng)?jiān)?月28日加入我們,屆時(shí)我們將與一組頂級(jí)球員比賽!

我們的目標(biāo)是超越Dota。現(xiàn)實(shí)世界人工智能的部署將需要處理Dota提出的挑戰(zhàn),而這些挑戰(zhàn)并不反映在國(guó)際象棋、圍棋、雅達(dá)利游戲或Mujoco基準(zhǔn)測(cè)試任務(wù)中。最后,我們將衡量Dota系統(tǒng)在實(shí)際任務(wù)中的應(yīng)用成功程度。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:【攻克Dota2】OpenAI自學(xué)習(xí)多智能體5v5團(tuán)隊(duì)?wèi)?zhàn)擊敗人類玩家

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【PYNQ-Z2試用體驗(yàn)】神經(jīng)網(wǎng)絡(luò)基礎(chǔ)知識(shí)

    超過(guò)閾值,輸出就一躍而起。但我們一般用S函數(shù)作為激活函數(shù)。如下圖:圖2 該函數(shù)相比階越函數(shù)更加接近現(xiàn)實(shí)。神經(jīng)網(wǎng)絡(luò)原理如圖所示是一個(gè)具有兩層的神經(jīng)網(wǎng)絡(luò),每層有兩
    發(fā)表于 03-03 22:10

    基于BP神經(jīng)網(wǎng)絡(luò)的PID控制

    神經(jīng)網(wǎng)絡(luò)可以建立參數(shù)Kp,Ki,Kd自整定的PID控制器。基于BP神經(jīng)網(wǎng)絡(luò)的PID控制系統(tǒng)結(jié)構(gòu)框圖如下圖所示:控制器兩部分組成:經(jīng)典增量式PID控制器;BP
    發(fā)表于 09-07 07:43

    AI在簡(jiǎn)化了的DOTA2擊敗前1%玩家,學(xué)習(xí)能力很出色

    ”、沒(méi)有隱身裝備、沒(méi)有召喚單位和幻象、以及少了一些裝備等。這也使整個(gè)比賽簡(jiǎn)化了不少,從另一個(gè)角度看AI仍然沒(méi)能力完全加入人類版的DOTA2游戲中。
    發(fā)表于 06-29 19:39 ?608次閱讀

    AI也能相互協(xié)作的玩游戲,玩Dota2戰(zhàn)勝了人類玩家

    據(jù)悉,OpenAI開發(fā)了出了一套名為“OpenAI Five”的算法,雖然單獨(dú)來(lái)看這種算法并沒(méi)有什么突破,只是針對(duì)玩Dota2的一種神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 06-27 05:29 ?625次閱讀

    有了OpenAI Five,它已經(jīng)可以在比賽中擊敗業(yè)余玩家

    如果一個(gè)AI能在像星際、Dota這樣復(fù)雜的游戲里超越人類水平,那它就是一個(gè)里程碑。相較于AI之前在國(guó)際象棋和圍棋里取得的成就,游戲能更好地捕捉現(xiàn)實(shí)世界中的混亂和連續(xù)性,這就意味著能解決游戲問(wèn)題的AI系統(tǒng)具有更好的通用性。醉翁之意
    的頭像 發(fā)表于 06-29 11:54 ?3400次閱讀

    AI首度在電競(jìng)游戲《DOTA 2擊敗人類

    經(jīng)過(guò)又一年的努力,OpenAI表示,他們已經(jīng)成功制作一款能夠在《DOTA 2》中以「團(tuán)體戰(zhàn)」形式,擊敗五名頂尖
    的頭像 發(fā)表于 06-29 15:16 ?3116次閱讀

    Dota2敗給OpenAI-Five究竟是為什么?

    OpenAI昨日發(fā)布研究成果,宣布Dota2 5v5在限定條件下(英雄陣容固定,部分道具和功能禁用)戰(zhàn)勝人類半職業(yè)選手。本文主要對(duì)其模型技術(shù)架構(gòu)做一些分析總結(jié)。
    的頭像 發(fā)表于 07-05 16:17 ?4874次閱讀

    5個(gè)AI隊(duì)伍竟然可以在《Dota2》戰(zhàn)勝人類5隊(duì)伍

    之前AI在中單solo打敗知名選手Dendi的事情過(guò)了很久了,同團(tuán)隊(duì)開發(fā)的5個(gè)神經(jīng)網(wǎng)絡(luò)AI隊(duì)伍已經(jīng)能在《
    的頭像 發(fā)表于 07-25 11:18 ?3091次閱讀

    人工智能挑戰(zhàn)人類,OpenAI機(jī)器人打敗游戲玩家

    在人工智能領(lǐng)域,打敗人類是過(guò)時(shí)的做法。現(xiàn)在,頂尖的學(xué)者和科技公司想要想“人類”挑戰(zhàn)電子游戲。Elon Musk和Sam Altman共同創(chuàng)立的研究實(shí)驗(yàn)室OpenAI宣布了其最新的里程碑:一個(gè)由人工智能代理商
    的頭像 發(fā)表于 07-27 10:43 ?4639次閱讀

    人工智能團(tuán)隊(duì)彼此協(xié)作,視頻游戲Dota 2擊敗了五名半職業(yè)人類玩家

    近日,一個(gè)人工智能團(tuán)隊(duì)彼此協(xié)作,在視頻游戲Dota 2的多玩家在線戰(zhàn)斗競(jìng)技場(chǎng)(MOBA)中成功擊敗了五名半職業(yè)人類
    發(fā)表于 08-08 10:53 ?583次閱讀

    OpenAI FiveDota2國(guó)際競(jìng)賽TI8中進(jìn)行首次對(duì)戰(zhàn)以失敗告終

    OpenAI Five是一個(gè)5個(gè)人工神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 08-24 08:53 ?5194次閱讀

    OpenAI Five是如何訓(xùn)練的、為什么選擇打Dota以及AI在打Dota的時(shí)候在想什么?

    總決賽讓OpenAI的科學(xué)家可以回答一個(gè)重要的研究問(wèn)題:OpenAI Five在多大程度、以何種方式能夠被確定的打敗?并且可能是有史以來(lái)最大規(guī)模的、人們可以有意識(shí)地與之交互的高強(qiáng)度深層
    的頭像 發(fā)表于 04-19 09:29 ?5431次閱讀

    人類目前只贏了40場(chǎng)比賽,OpenAI Five的勝率高達(dá)99%!

    Arena的面向大眾的競(jìng)技場(chǎng)中,許多人已經(jīng)開始嘗試對(duì)打AI。到目前為止,OpenAI Five對(duì)戰(zhàn)人類的勝率達(dá)到99.3%。不過(guò),Dota
    的頭像 發(fā)表于 04-23 10:48 ?2879次閱讀

    人工智能戰(zhàn)隊(duì)OpenAI將戰(zhàn)Dota2人類最強(qiáng)戰(zhàn)隊(duì)的最終決戰(zhàn)

    人工智能戰(zhàn)隊(duì)OpenAI將戰(zhàn)Dota2人類最強(qiáng)戰(zhàn)隊(duì),人工智能在圍棋上擊敗人類之后,很多技術(shù)人員就開始展望 AI 在視頻游戲中的表現(xiàn)了。2017 年的
    發(fā)表于 07-04 11:09 ?1403次閱讀

    OpenAI發(fā)布Microscope以可視化機(jī)器學(xué)習(xí)模型中的神經(jīng)

    OpenAI今天發(fā)布了Microscope,這是一個(gè)神經(jīng)元可視化庫(kù),從九個(gè)流行的或大量的神經(jīng)網(wǎng)絡(luò)開始
    的頭像 發(fā)表于 04-15 21:10 ?2975次閱讀
    主站蜘蛛池模板: 免费黄色成人| 亚洲成人黄色| 成年片免费网址网站| 国产精品99r8在线观看 | 欧美一级第一免费高清| 成年大片免费视频播放手机不卡| 国产乱码1卡一卡二卡| 女张腿男人桶羞羞漫画| 乱子伦xxx欧美| 欧美色a电影精品aaaa| 美女视频毛片| 国产精品美女视频| 天天操夜夜拍| 免费观看国产网址你懂的| 成人午夜网址| 亚洲精品中文字幕乱码三区一二| 一级视频在线播放| 日本三级在线| 日本吻胸抓胸激烈视频网站| 免费黄色| 伊人网址| 国产福利久久| 色噜噜亚洲男人的天堂| 五月天激激婷婷大综合丁香| 午夜影院色| 日韩写真在线| 国产乱码精品一区二区| 天天操天天射天天爽| 女69porin18| 中文字幕一二三区乱码老| 乱码一区二区三区完整视频| 嫩草网| 在线观看免费黄视频| 成人免费黄色网| 亚洲 丝袜 制服 欧美 另类| 4438x全国免费| 在线观看视频一区| 亚洲婷婷综合色高清在线| 欧美日韩中文字幕| 亚洲精品美女久久久久网站| 成人亚洲网站www在线观看|