在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何讓多個智能體學(xué)會一起完成同一個任務(wù),學(xué)會彼此合作和相互競爭

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-06-27 14:22 ? 次閱讀

當前人工智能最大的挑戰(zhàn)之一,是如何讓多個智能體學(xué)會一起完成同一個任務(wù),學(xué)會彼此合作和相互競爭。在發(fā)表于ICML 2018的一項研究中,倫敦大學(xué)學(xué)院汪軍教授團隊利用平均場論來理解大規(guī)模多智能體交互,極大地簡化了交互模式。他們提出的新方法,能夠解決數(shù)量在成百上千甚至更多的智能體的交互,遠遠超過了所有當前多智能體強化學(xué)習(xí)算法的能力范圍。

柯潔揮淚烏鎮(zhèn)一周年,AI已經(jīng)重新書寫了圍棋的歷史。而創(chuàng)造出地球上最強棋手AlphaGo系列的DeepMind,早已經(jīng)將目光轉(zhuǎn)向下一個目標——星際爭霸。

玩星際爭霸,需要AI在不確定的情況下進行推理與規(guī)劃,涉及多個智能體協(xié)作完成復(fù)雜的任務(wù),權(quán)衡短中長期不同的收益。相比下圍棋這樣的確定性問題,星際爭霸的搜索空間要高出10個數(shù)量級。

從現(xiàn)實意義上來說,研究多智能體協(xié)作也具有廣泛的應(yīng)用場景。例如,股票市場上的交易機器人博弈,廣告投標智能體通過在線廣告交易平臺互相競爭,電子商務(wù)協(xié)同過濾推薦算法預(yù)測用戶興趣,等等。

倫敦大學(xué)學(xué)院(UCL)計算機科學(xué)系教授汪軍博士及其團隊一直從事多智能體協(xié)作的研究。汪軍教授認為,目前通用人工智能(AGI)研究有兩個大方向,一是大家熟知的AlphaGo,這是單智體,其背后的經(jīng)典算法是深度強化學(xué)習(xí);另一個就是多智體(Multi-agent),也可以理解為集體智能,這是人工智能的下一個大方向。

目前,人工智能最大的挑戰(zhàn)之一,就是如何讓多個智能體學(xué)會一起完成同一個任務(wù),學(xué)會彼此合作和相互競爭。如何利用一套統(tǒng)一的增強學(xué)習(xí)框架去描述這個學(xué)習(xí)過程。

研究負責(zé)人、倫敦大學(xué)學(xué)院(UCL)的汪軍教授

在一項最新的研究中,汪軍和他的團隊利用平均場論來理解大規(guī)模多智能體交互,極大地簡化了交互模式,讓計算量大幅降低。他們提出的新方法,能夠解決數(shù)量在成百上千甚至更多的智能體的交互,遠遠超過了所有當前多智能體強化學(xué)習(xí)算法的能力范圍。相關(guān)論文已經(jīng)被ICML 2018接收,作者將在7月13日下午5點在ICML會場做報告,歡迎大家去現(xiàn)場交流。

“我們發(fā)現(xiàn)在處理大規(guī)模智能體學(xué)習(xí)時,把多體問題抽象成二體問題是一種有效的方法,”論文作者Yaodong Yang告訴新智元:“這個想法的初衷異常簡單,就是把環(huán)境中所有領(lǐng)域內(nèi)其他智能體對中心個體的影響,僅僅用一個它們的均值來抽象,而不用一一分別考慮建模?!?/p>

他們設(shè)計的平均場Q-learning算法成功模擬并求解了物理領(lǐng)域的伊辛模型(ising model)。Yaodong表示:“用強化學(xué)習(xí)的框架可以解決物理學(xué)中的伊辛模型,這一發(fā)現(xiàn)非常令人振奮。”

上海交通大學(xué)張偉楠助理教授團隊也積極參與了此次工作,張偉楠認為:“使用平均場計算領(lǐng)域智能體的行動分布,并整合于強化學(xué)習(xí)中在計算上十分高效,在不同算法互相對戰(zhàn)的實驗中,平均場Q-learning算法能穩(wěn)定提高群體智能的效果,在battle中碾壓傳統(tǒng)多智能體強化學(xué)習(xí)的算法。”

在一個混合式的合作競爭性戰(zhàn)斗游戲中,研究人員證明了平均場MARL相對其他多智能體系統(tǒng)的基線獲得了更高的勝率。其中,藍方是平均場Q-learning算法,紅方是傳統(tǒng)的強化學(xué)習(xí)算法DQN。

對戰(zhàn)局部,agent彼此間的合作與競爭。

對戰(zhàn)結(jié)果:經(jīng)過2000多輪比較實驗,新提出的平均場Q-learning算法(MF-Q)相對于其他傳統(tǒng)強化學(xué)習(xí)算法的勝率(綠色)。很明顯,在所有的指標中,MF-Q的勝率都高出一大截。

由于大幅降低了計算量,他們的方法可以推廣用于很多實際場景,比如終端通訊設(shè)備流量分配,互聯(lián)網(wǎng)廣告競價排名,智能派單等大規(guī)模分布式優(yōu)化場景中。

用平均場論解決大規(guī)模多智能體交互,大幅簡化計算

多智體強化學(xué)習(xí)(Multi-agent reinforcement learning, MARL)假設(shè)有一組處在相同環(huán)境下的自主智能體。在MARL中學(xué)習(xí)非常困難,因為agent不僅與環(huán)境交互,而且還會相互作用:一個agent的策略變化會影響其他agent的策略,反之亦然。

例如,在星際爭霸中,讓一組20個agent去攻擊另外一組的20個agent,每個agent就要考慮周圍39個agents的行為從而做出最優(yōu)決策。對于每個個體來說,要學(xué)會理解的狀態(tài)空間是很龐大的,這還不包括其他智能體在探索環(huán)境時產(chǎn)生的噪聲。當agent增多到1000乃至上萬個時,情況就變得超級復(fù)雜,現(xiàn)有的多智能體強化學(xué)習(xí)算法有很大局限性,也沒有那么大的計算力。

但是,推測其他agent的策略來計算額外的信息,對每個agent自身是有好處的。研究表明,一個學(xué)習(xí)了聯(lián)合行動效應(yīng)的agent,比那些沒有學(xué)習(xí)的agent表現(xiàn)更好,無論是在合作博弈、零和隨機博弈和一般和隨機博弈中,情況都是如此。這也很好理解,知彼知己,才能百戰(zhàn)不殆。

因此,結(jié)果就是,現(xiàn)有的均衡求解方法雖然可行,但只能解決少數(shù)agent的問題,大部分的實驗還局限于兩個agent之間的博弈。而在實踐當中,卻常常會需要有大量agent之間的策略互動。

如何解決這個問題?UCL的研究者想到了平均場論。

平均場論(Mean Field Theory,MFT)是一種研究復(fù)雜多體問題的方法。在物理學(xué)場論和機器學(xué)習(xí)的變分推斷中,平均場論是對大且復(fù)雜的隨機模型的一種簡化。未簡化前的模型通常包含巨大數(shù)目的含相互作用的小個體。平均場理論則做了這樣的近似:對某個獨立的小個體,所有其他個體對它產(chǎn)生的作用可以用一個平均的量給出,這樣,簡化后的模型對于每個個體就成了一個單體問題。

在他們的研究中,UCL團隊沒有去分別考慮單個智能體對其他個體產(chǎn)生的不同影響,而是將領(lǐng)域內(nèi)所有其他個體的影響用一個均值來代替。這樣,對于每個個體,只需要考慮個體和這個均值的交互作用就行了。這種抽象的方法,當研究對象大到無法表達的時候尤其有用。

平均場論的方法能快速收斂,用強化學(xué)習(xí)解決伊辛模型

應(yīng)用平均場論后,學(xué)習(xí)在兩個智能體之間是相互促進的:單個智能體的最優(yōu)策略的學(xué)習(xí)是基于智能體群體的動態(tài);同時,集體的動態(tài)也根據(jù)個體的策略進行更新。

在此基礎(chǔ)上,研究人員提出了平均場Q-learning算法(MF-Q)和平均場Actor-Critic算法(MF-AC),并通過伊辛模型驗證了它們的解是否能夠快速收斂。

易辛模型(Ising model),是一個以物理學(xué)家恩斯特·易辛為名的數(shù)學(xué)模型,用于描述物質(zhì)的鐵磁性。該模型中包含了可以用來描述單個原子磁矩的參數(shù),其值只能為+1或-1,分別代表自旋向上或向下(在多智能體的情況下,就是向上或者向下移動)。這些磁矩通常會按照某種規(guī)則排列,形成晶格,并在模型中引入特定交互作用的參數(shù),使得相鄰的自旋互相影響。

平均場近似。每個agent都表示為網(wǎng)格中的一個節(jié)點,它只受鄰居(藍色區(qū)域)的平均效果影響。多個agents相互作用被有效地轉(zhuǎn)換為兩個代理的相互作用。

雖然伊辛模型相對于物理現(xiàn)實是一個相當簡化的模型,但它卻和鐵磁性物質(zhì)一樣,在不同溫度下會產(chǎn)生相變。事實上,一個二維的方晶格易辛模型是已知最簡單而且會產(chǎn)生相變的物理系統(tǒng)。在這個場景下, 雖然每一個磁矩對整個磁體的性質(zhì)的影響非常有限, 但是通過微觀的相互作用, 磁矩之間卻會形成宏觀的趨勢, 而這種趨勢能夠決定我們所關(guān)心的整體磁場的性質(zhì)。

在多智體強化學(xué)習(xí)這個領(lǐng)域,特定的任務(wù)可以被有效的抽象為同質(zhì)智能體(homogeneous agent)之間的相互學(xué)習(xí)以及博弈的過程。

在平均場多智體伊辛模型中,網(wǎng)格中的每個agent向上和向下的獎勵是不同的,如果最終能讓所有agent都朝同一個方向移動(都變?yōu)楹谏?,也就表明了平均場方法能夠比較快速的收斂。通過下面的動圖,可以更直觀地看到這種快速收斂的效果。

研究難點及未來方向

研究人員表示,這項工作有兩方面的難點。首先是理論部分,只有一套嚴格自洽的理論才能作為后續(xù)實驗以及分析的基礎(chǔ)。在將平均場論融入多智體強化學(xué)習(xí)的過程中,他們利用了不同領(lǐng)域里的多項理論,包括平均場論的近似化方法,在stochastic games中的納什均衡學(xué)習(xí)理論(nash q learning),不動點分析,以及最優(yōu)化理論中的壓縮映射(contraction mapping)。最后,理論證明了他們所提出的平均場強化學(xué)習(xí)在一些溫和條件的收斂性,并且提供了近似化中誤差的上下界 。

另一方面的難點在于實驗,由于目前沒有良好的針對多智體強化學(xué)習(xí)的測試平臺,團隊設(shè)計構(gòu)建了一個實驗環(huán)境,用于提供必要的測試條件。

研究人員表示,據(jù)他們所知,某些大廠已經(jīng)在實驗室階段實現(xiàn)了他們的算法,用于大規(guī)模派單和通訊設(shè)備流量分配。因為這個算法適合處理的特定問題是大規(guī)模智能體,并且每個智能體都有相同程度的相似性,實際應(yīng)用的場景會非常廣闊,例如廣告競價、智能城市等等。

目前,關(guān)于多智能體的深度強化學(xué)習(xí)上,理論層面還是沒有看到太多的發(fā)展。這個領(lǐng)域缺乏一個大家都認可的理論框架。例如,多智能體在學(xué)習(xí)的時候目標函數(shù)到底應(yīng)該是什么,是否應(yīng)該是納什均衡,還有很多爭論。

更有學(xué)者認為,多智能體學(xué)習(xí)不應(yīng)該專注個體的決策,反而應(yīng)該從種群的角度去理解,也就是演化博弈論(evolutionary game theory)的理論框架。演化博弈論認為,關(guān)注的重心應(yīng)該是一個種群里選擇某些行動的agent的比例是不是在進化意義上是穩(wěn)定的,也就是evolutionary stable strategies的想法。

對此,UCL團隊的研究人員認為,他們接下來將進一步完善理論和實驗方法,探索潛在的實際應(yīng)用。

論文:平均場多智體強化學(xué)習(xí)

摘要

現(xiàn)有的多智體(multi-agent)強化學(xué)習(xí)方法通常限制于少數(shù)的智能體(agent)。當agent的數(shù)量增加很多時,由于維數(shù)以及agent之間交互的指數(shù)級的增長,學(xué)習(xí)變得很困難。

在這篇論文中,我們提出平均場強化學(xué)習(xí)(Mean FieldReinforcement Learning),其中,agent群體內(nèi)的交互以單個agent和總體或相鄰agent的平均效應(yīng)之間的交互來近似;兩個實體之間的相互作用是相互加強的:個體agent的最佳策略的學(xué)習(xí)取決于總體的動態(tài),而總體的動態(tài)則根據(jù)個體策略的集體模式而變化。

我們提出了使用的平均場 Q-learning 算法和平均場 Actor-Critic算法,并分析了納什均衡解的收斂性。Gaussian squeeze、伊辛模型(Ising model)和戰(zhàn)斗游戲的實驗,證明了我們的平均場方法的學(xué)習(xí)有效性。此外,我們還通過無模型強化學(xué)習(xí)方法報告了解決伊辛模型的第一個結(jié)果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1792

    文章

    47483

    瀏覽量

    239162
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    160

    瀏覽量

    10599
  • 強化學(xué)習(xí)
    +關(guān)注

    關(guān)注

    4

    文章

    268

    瀏覽量

    11273

原文標題:UCL汪軍團隊新方法提高群體智能,解決大規(guī)模AI合作競爭

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    請問怎么在同一個PCB文件中設(shè)計多個PCB板?

    主板上插有兩小板,也就是總共3塊板子,層次化原理圖的方式做了3張原理圖。據(jù)說可以原理圖對應(yīng)PCB文件,打板的時候拼到
    發(fā)表于 11-07 15:25

    APP如何控制多個智能硬件

    的賬號也可以在Android登錄。上面的方法在產(chǎn)品對應(yīng)App時是沒問題,但是,有些客戶廠商不止生產(chǎn)款產(chǎn)品,他們希望生產(chǎn)的所有產(chǎn)品都
    發(fā)表于 03-20 10:33

    請問ucosIII多個任務(wù)等待同一個信號量該怎么辦?

    任務(wù)都變成了就緒態(tài)有疑問,假如有3任務(wù)ABC同時等待同一個信號量,這時候ISR廣播了信號量,優(yōu)先級最高的
    發(fā)表于 10-10 23:00

    多個任務(wù)一起創(chuàng)建時使用同一個err會不會有問題?

    如題,多個任務(wù)一起創(chuàng)建時使用同一個err不會有問題嗎。
    發(fā)表于 05-20 02:12

    UCOSii多個任務(wù)能不能使用同一個互斥信號量?

    如題,比如我有4任務(wù),都會使用同一個全局數(shù)組,那么我每個任務(wù)都用同一個互斥信號量,不知道這樣可以不?
    發(fā)表于 05-20 11:11

    如何用同一個單片機的串口1與串口3相互通訊?

    如何用同一個單片機的串口1與串口3相互通訊?
    發(fā)表于 12-09 07:19

    四大科技巨頭都如何利用AI來相互競爭

    如何相互競爭。 想想時下大型科技公司悉數(shù)追逐的最火爆、競爭最激烈的那些行業(yè):家居自動化,無人駕駛汽車,增強現(xiàn)實。而貫穿所有這些商業(yè)機會的主題又是什么呢?人工智能。
    發(fā)表于 03-19 10:22 ?610次閱讀

    未來機器人將和人們一起工作一起學(xué)習(xí)

    通過“強化學(xué)習(xí)”,每個智能適應(yīng)周圍環(huán)境和群體協(xié)作。未來的分布式機器人可以互相學(xué)習(xí),一起工作,共同完成復(fù)雜
    發(fā)表于 08-20 09:25 ?1137次閱讀

    如何RTOS多任務(wù)訪問同一個UART?

    在RTOS多任務(wù)編程的時候,同一個硬件(比如UART、I2C等)被多個任務(wù)訪問的情況比較多,如果不合理處理,就會導(dǎo)致“混亂”的局面。 處理“混亂”局面的方法比較多,下面基于FreeRT
    的頭像 發(fā)表于 03-12 17:18 ?2107次閱讀

    SS-431 使多個 Modbus 設(shè)備如同一個設(shè)備被訪問

    的 分布式工業(yè)控制系統(tǒng)。在此系統(tǒng)中,現(xiàn)場總線通信技術(shù)至關(guān)重要。本文將多個 Modbus 串口設(shè)備通過 SS-431 的數(shù)據(jù)采集轉(zhuǎn)換為 Modbus 從站,方便 PLC 的數(shù)據(jù)讀取和控制。 二、SS-431 使
    發(fā)表于 05-27 11:41 ?1766次閱讀
    SS-431 使<b class='flag-5'>多個</b> Modbus 設(shè)備如<b class='flag-5'>同一個</b>設(shè)備被訪問

    FPGA中電源管腳在同一個BANK為何需要多個引腳?

    在此鏈接找到答案:http://xilinx.eetop.cn/viewthread-2281981、bank內(nèi)所有的VCCIO要連在一起,即使這個bank沒有使用;2、
    發(fā)表于 01-06 11:18 ?2次下載
    FPGA中電源管腳在<b class='flag-5'>同一個</b>BANK為何需要<b class='flag-5'>多個</b>引腳?

    網(wǎng)絡(luò)IP地址是否在同一個段中的判斷方法

    我們知道IP地址是由“網(wǎng)絡(luò)號+子網(wǎng)號+主機號”組成,判斷兩IP地址是否在同一個網(wǎng)段主要看“網(wǎng)絡(luò)號”,如果網(wǎng)絡(luò)號樣,那么他們就在同一個網(wǎng)段,否則就不在
    的頭像 發(fā)表于 06-02 14:31 ?1.3w次閱讀
    兩<b class='flag-5'>個</b>網(wǎng)絡(luò)IP地址是否在<b class='flag-5'>同一個</b>段中的判斷方法

    如何設(shè)置兩路由器使用同一個Wi-Fi網(wǎng)絡(luò)?

    如何設(shè)置兩路由器使用同一個Wi-Fi網(wǎng)絡(luò) 隨著無線網(wǎng)絡(luò)的普及和需求量的增加,很多家庭和辦公室都會購買多個路由器來擴展無線網(wǎng)絡(luò)覆蓋范圍。然而,許多人可能不知道如何正確設(shè)置兩路由器以使
    的頭像 發(fā)表于 12-11 10:50 ?1.3w次閱讀

    同一個芯片不同封裝的原因

    同一個芯片的不同封裝可能是為了滿足不同的應(yīng)用需求和設(shè)計要求。不同的封裝可以影響芯片的功耗、散熱性能、引腳數(shù)量和布局等方面。
    的頭像 發(fā)表于 12-18 18:15 ?1199次閱讀

    進程內(nèi)多次使用open打開同一個文件,可以嗎?

    進程內(nèi)多次使用 open 打開同一個文件時,每次都會得到新的文件描述符(file descriptor)。
    的頭像 發(fā)表于 02-27 13:54 ?1333次閱讀
    主站蜘蛛池模板: 国产三级一区| 激情亚洲综合网| 亚洲色图21p| 狠狠色丁香久久婷婷| 伊人久久大香线蕉综合电影| 黄频网| 欧美黄色片免费| 奇米影视一区二区三区| 亚洲精品视频在线| 激情五月婷婷综合| 国产视频一二区| 69久久| 成人a毛片手机免费播放| 美女一级一级毛片| 日本免费精品视频| 美女中出视频| 福利天堂| 搞逼综合网| 污视频日本| 天天亚洲| 天天看a| 天天干天天爱天天射| 精品一区二区在线观看| 久操久操| 久久久久久久成人午夜精品福利| 国产干美女| 国产精品天天操| 中文字幕一区在线| xyx性爽欧美视频| 免费高清成人啪啪网站| www夜夜操com| 操碰91| 日韩欧美印度一级毛片| 日本aaaaa级片| 性欧美高清强烈性视频| 欧美性受xxxx极品| 萝l在线精品社区资源| 插吧插吧综合网| 国产香蕉98碰碰久久人人| 一区二区亚洲视频| 五月天精品|