隨著人工智能系統在現實世界中扮演越來越重要的角色,理解不同的系統如何相互作用至關重要。
剛剛,DeepMind發表了一篇名為Symmetric Decomposition of Asymmetric Games的論文。在這篇論文中,DeepMind研究人員采用了博弈論的分支試圖這個問題。
研究人員重點觀察了在德州撲克,棋盤游戲蘇格蘭特警等非對稱博弈中,兩個智能體會有怎樣的行為和表現。
用這種新方法,智能體能簡單快速地在復雜的非對稱博弈里找到納什均衡。
博弈與納什均衡
博弈論屬于數學的一個分支,用于分析競爭環境下決策者的策略。
這套理論適用于人類,動物,以及超過一個AI時的多AI環境。比如說家里多個機器人同時打掃房間。
非對稱信息博弈模擬了真實世界的場景,就像拍賣時買家和賣家的心態和動機不同。我們得到的結果給了我們獨道的見解,以及極其簡潔的方式分析他們。
非對稱博弈的特點是每方玩家都有不同的策略、目標和獎勵。比如說博弈論研究里最常見的協調博弈,性別之戰。
一般來說,多AI系統的進化動態過程是用簡單的對稱博弈來分析,比如說經典的囚徒困境,兩方玩家都可以采取同樣的行動。即使這些博弈能夠為多AI系統提供有效的洞見,告訴我們如何操作所有玩家才能獲得最優結果(這就是納什均衡),但他們并不能模擬出所有的情況。
DeepMind的新的方法,能簡單快速地在復雜的非對稱博弈里找到納什均衡。
雖然目前這套理論的重點還在如何應用在多個AI系統的互動中,但研究人員相信這個結論也可以用于經濟、進化生物學、經驗博弈論中。
歌劇還是電影?
舉個例子吧。
兩名玩家需要決定晚上是去看歌劇還是電影,不巧的是,其中一名偏好歌劇而另一名偏好電影。這是場不對稱的游戲,雖然兩名玩家可以任意選擇,但是根據玩家的喜好,每個玩家得到獎勵是不同的。
但是,為了維持他們的友誼,或者我們稱為一種平衡,雙方需要選擇相同的活動,因此單獨行動的回報為零。
這個游戲有三個平衡:(i)雙方都去看歌劇,(ii)雙方去看電影,(iii)還有一個混合選項,每個玩家在五分之三的時間里選擇他們喜歡的選項。
這個“不穩定的”的最后一個選項,就是用了將不對稱游戲簡化或分解成它的對稱對等體的方法。
我們可以將這種游戲的本質想象成,每個玩家的獎勵分數表是一個獨立對稱的雙玩家游戲,它的平衡點與原始的不對稱游戲一致。
在下面這張圖中,納什均衡是通過兩個對等點得到的,幫助我們快速確定不對稱博弈中的最優策略(a)。反過來說,利用不對稱博弈來確定對稱對等點的均衡。
△紅點代表納什均衡。對于不對稱的游戲(a),納什均衡可以很容易地從(b)和(c)兩張對稱圖中得到。上述圖中,x、y軸分別為玩家1、2選擇歌劇的概率
好消息是,這種方法也適用于其他游戲,比如Leduc撲克等。這些方法應用了一個簡單的數學原理,從而快速直接分析不對稱游戲。我們希望它也能幫助我們理解各種動態系統,包括多代理環境。
-
博弈論
+關注
關注
0文章
8瀏覽量
7293 -
DeepMind
+關注
關注
0文章
131瀏覽量
10891 -
納什均衡
+關注
關注
0文章
2瀏覽量
1160
原文標題:AI博弈論:DeepMind讓智能體在非對稱博弈中找納什均衡
文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論