在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

您好,歡迎來電子發燒友網! ,新用戶?[免費注冊]

您的位置:電子發燒友網>源碼下載>數值算法/人工智能>

圖文詳解AlphaGo的原理及弱點

大小:0.6 MB 人氣: 2017-10-12 需要積分:1
 近期AlphaGo在人機圍棋比賽中連勝李世石3局,體現了人工智能在圍棋領域的突破,作為人工智能領域的工作者,我們深感欣慰。其實質是深度學習網絡(CNN)跟蒙特卡羅搜索樹(MCTS)結合的勝利,是人類智慧的進步。不少***的“磚”家開始鼓吹機器戰勝人類、甚至人類將被機器統治等無知言論,讓人實在看不下去。作為圍棋愛好者和人工智能領域工作者,我們覺得是時候跟大家講講AlphaGo的原理及其弱點了。
  可以很負責任的告訴大家,AlphaGo還沒有完全攻克圍棋這個難題,職業棋手也并非沒有希望贏Go了,更不能說機器戰勝了人類。AlphaGo未來需要走的路還很長。如果有***職業棋手想挑戰AlphaGo,我們愿意為其組建最頂尖(且懂圍棋)的人工智能專家顧問團,助其取勝AlphaGo。
  雖然網上技術貼不少,但還沒有一篇文章完全講清楚AphaGo的原理,Nature上刊登的文章也缺乏一張刨解全局的圖(加之用英文描述,同學們很難理解透徹)。以下是我跟張鈞波博士在多次閱讀原文并收集了大量其他資料后,一起完成的一張圖,解釋了AlphaGo的原理,看完后大家自然知道其弱點在何處了。
  圖文詳解AlphaGo的原理及弱點
  圖1、AlphaGo的原理圖 (作者為本圖花費大量心血,版權歸兩位作者所有,歡迎轉發,但請勿盜圖)
  AlphaGo總體上包含離線學習(圖1上半部分)和在線對弈(圖1下半部分)兩個過程。
  離線學習過程分為三個訓練階段。
  第一階段:利用3萬多幅專業棋手對局的棋譜來訓練兩個網絡。一個是基于全局特征和深度卷積網絡(CNN)訓練出來的策略網絡(Policy Network)。其主要作用是給定當前盤面狀態作為輸入,輸出下一步棋在棋盤其它空地上的落子概率。另一個是利用局部特征和線性模型訓練出來的快速走棋策略(Rollout Policy)。策略網絡速度較慢,但精度較高;快速走棋策略反之。
  第二階段:利用第t輪的策略網絡與先前訓練好的策略網絡互相對弈,利用增強式學習來修正第t輪的策略網絡的參數,最終得到增強的策略網絡。這部分被很多“磚”家極大的鼓吹,但實際上應該存在理論上的瓶頸(提升能力有限)。這就好比2個6歲的小孩不斷對弈,其水平就會達到職業9段?
  第三階段:先利用普通的策略網絡來生成棋局的前U-1步(U是一個屬于[1, 450]的隨機變量),然后利用隨機采樣來決定第U步的位置(這是為了增加棋的多樣性,防止過擬合)。隨后,利用增強的策略網絡來完成后面的自我對弈過程,直至棋局結束分出勝負。此后,第U步的盤面作為特征輸入,勝負作為label,學習一個價值網絡(Value Network),用于判斷結果的輸贏概率。價值網絡其實是AlphaGo的一大創新,圍棋最為困難的地方在于很難根據當前的局勢來判斷最后的結果,這點職業棋手也很難掌握。通過大量的自我對弈,AlphaGo產生了3000萬盤棋局,用來訓練價值網絡。但由于圍棋的搜索空間太大,3000萬盤棋局也不能幫AlphaGo完全攻克這個問題。
  在線對弈過程包括以下5個關鍵步驟:其核心思想實在蒙特卡羅搜索樹(MCTS)中嵌入了深度神經網絡來減少搜索空間。AlphaGo并沒有具備真正的思維能力。
  根據當前盤面已經落子的情況提取相應特征;
  利用策略網絡估計出棋盤其他空地的落子概率;
  根據落子概率來計算此處往下發展的權重,初始值為落子概率本身(如0.18)。實際情況可能是一個以概率值為輸入的函數,此處為了理解簡便。
  利用價值網絡和快速走棋網絡分別判斷局勢,兩個局勢得分相加為此處最后走棋獲勝的得分。這里使用快速走棋策略是一個用速度來換取量的方法,從被判斷的位置出發,快速行棋至最后,每一次行棋結束后都會有個輸贏結果,然后綜合統計這個節點對應的勝率。而價值網絡只要根據當前的狀態便可直接評估出最后的結果。兩者各有優缺點、互補。
  利用第四步計算的得分來更新之前那個走棋位置的權重(如從0.18變成了0.12);此后,從權重最大的0.15那條邊開始繼續搜索和更新。這些權重的更新過程應該是可以并行的。當某個節點的被訪問次數超過了一定的門限值,則在蒙特卡羅樹上進一步展開下一級別的搜索(如圖2所示)。
  圖文詳解AlphaGo的原理及弱點
  圖2、MCTS拓展下一級節點
  AlphaGo的弱點在哪里?
  攻其策略網絡,加大搜索空間。進入中盤后,職業選手如能建立起比較復雜的局面,每一步棋都牽連很多個局部棋的命運(避免單塊、局部作戰),則AlphaGo需要搜索空間則急劇加大,短時間內得到的解的精度就會大打折扣。通俗地說,非常復雜的變化,人算不清楚,現階段計算機的計算力更沒辦法。李世石九段的第四局棋就有這個意思。此處左右上下共5塊黑白棋都相互關聯到一起,白1下后,黑棋需要考慮很多地方。很多地方都需要在MCTS上進行更深入的搜索。為了在一定的時間內有結果,只能放棄搜索精度。
  圖文詳解AlphaGo的原理及弱點
  圖3、李世石對AlphaGo第四盤棋棋譜
  攻其價值網絡,萬劫不復:AlphaGo的價值網絡極大地提高了之前單純依靠MCTS來做局勢判斷的精度,但離準確判斷圍棋局勢還有不小的差距。神經網絡還不能完全避免在某些時候出現一些怪異(甚至錯誤)的判斷,更何況其訓練樣本還遠遠不足。這也是為什么有了價值網絡還仍然需要依靠快速走棋來判斷局勢。大家都曾經懷疑過AlphaGo的打劫能力,也感覺到了AlphaGo有躲避打劫的跡象。實際上南京大學的周志華教授曾經撰文指出打劫會讓價值網絡崩潰的問題,原理不再重復。不能說AlphaGo不會打劫,而是害怕在棋局早期的多劫并存。即,打劫要乘早,太晚了搜索空間變小,即便價值網絡失效,還可以靠快速走棋網絡來彌補。開劫應該以在剛剛進入中盤時期為好(太早劫財還不夠),并且保持長時間不消劫,最好在盤面上能同時有兩處以上打劫。沒有了價值網絡的AlphaGo其實水平也就職業3-5段左右。
?

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發表評論

      用戶評論
      評價:好評中評差評

      發表評論,獲取積分! 請遵守相關規定!

      ?
      主站蜘蛛池模板: 国产精品女丝袜白丝袜| 亚洲黄色三级| 四虎影院最新网址| 久久e| 日本操穴| 日本aaaa级毛片在线看| 色吧欧美| 午夜小视频网站| 123成人网| 日本免费观看网站| 午夜一区二区三区| 69女poren60| 欧美一级在线观看播放| 国产成人精品高清免费| 欧美另类69xxxxx性欧| 天天爱综合| 国产男女怕怕怕免费视频| 美女h片| 看片午夜| 亚洲国产综合人成综合网站00| 韩国三级理论在线看中文字幕| 免费一级特黄欧美大片勹久久网| 2021国产精品午夜久久| 亚洲成a人片毛片在线| 丁香激情综合网| 爱逼色| 欧美xxxxx性视频| 久久久国产乱子伦精品| 亚洲吊丝网| 亚洲精品视频在线看| 日本不卡在线一区二区三区视频| 蜜月mv国产精品| 国产午夜精品视频| 四虎影院新网址| 天天摸天天操天天干| 最好看的2019中文字幕1| 广东毛片| 视频一区二区在线观看| 黄色软件合集| 国产黄色在线网站| 女性一级全黄生活片在线播放|