作為 AlphaGo 的最新迭代,DeepMind 又在 11 月 6 日發表的《科學》(Science)論文中,隆重介紹了 AlphaZero 。作為谷歌母公司 Alphabet 旗下的英國人工智能子公司,DeepMind 多年來一直致力于改進 Go AI 。2017 年的時候,前 AI 冠軍 AlphaGo 正式退休,但在進一步修補之后,AlphaZero 又達到了新的頂峰。
AlphaZero 是一款能夠從頭學習圍棋、象棋等棋子游戲的新型人工智能平臺。在三款棋類比賽中,AlphaZero 將三款 AI 都挑落下馬。
● Stockfish:國際象棋 AI 世界冠軍;
● elmo:2017 年度世界計算機將棋錦標賽冠軍;
● AlphaGo Zero:DeepMind 自家的圍棋 AI,被譽為史上最強選手。
在僅僅獲知有關游戲基本規則的情況下,AlphaZero 在成為人工智能大師之前,會先自己機型數百萬場的對抗練習。
該 AI 初期會實施隨機戰術來取得勝利,但后續會通過‘強化學習’來試錯,以逐步了解哪些策略是最有效的。
實測國際象棋需要 9 小時、將棋 12 小時、圍棋 13 天,涉及 5000 個張量處理單元(TPU)。
作為參考,一套 TPU 每天可以處理超過 Google Photos 中的 1 億+照片,所以 AlphaZero 對硬件處理性能的要求還是比較高的。
閉關學習結束后,AlphaZero 就可以大殺四方了
這項研究的獨特之處在于,研究團隊將機器學習算法、與蒙特卡羅樹(MCTS)的“搜索方法”結合到了一塊。
這是 Go 圍棋 AI 決定下一步行動所采用的方式,這次 DeepMind 團隊在國際象棋和將棋 AI 上也套用了同樣的機制,首次展示了該方法適用于其它復雜的游戲測試。
對于人類國際象棋選手來說,AlphaZero 是極具吸引力的。你可以在與機器對戰時,見識到此前從未遇到過的策略、以及一些新穎的想法。
其咄咄逼人的風格、以及高度動態的應變策略,足以讓 Matthew Sadler 之類的國際象棋大師感到驚訝(其在 DeepMind 博客上有所表述)。
有關這項研究的詳情,已經發表在近日出版的《科學》(Science)期刊上。原標題為:《A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play》《一種通用的強化學習算法,可自學成為國際象棋、將棋、圍棋大師》。
-
谷歌
+關注
關注
27文章
6168瀏覽量
105394 -
DeepMind
+關注
關注
0文章
130瀏覽量
10865
原文標題:GGAI 前沿 | 谷歌DeepMind超級進化:國際象棋、圍棋吊打世界冠軍
文章出處:【微信號:ggservicerobot,微信公眾號:高工智能未來】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論