圍棋人工智能基本原理
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
1 圍棋與人工智能 絡(luò),極大減少了搜索空間,即在搜索過(guò)程中的計(jì)算量,提高
圍棋作為中國(guó)傳統(tǒng)四大藝術(shù)之一,擁有著幾千年的悠了對(duì)棋局估計(jì)的準(zhǔn)確度。
久歷史。圍棋棋盤(pán)由1 9 條橫線和1 9 條豎線組成,共有2.1 深度強(qiáng)化學(xué)習(xí)方法
19*19=361個(gè)交叉點(diǎn),圍棋子分為黑白兩種顏色,對(duì)弈雙方深度學(xué)習(xí)源于人工神經(jīng)網(wǎng)絡(luò)的研究,人類大量的視覺(jué)
各執(zhí)一色,輪流將一枚棋子下在縱橫交叉點(diǎn)上,終局時(shí),棋聽(tīng)覺(jué)信號(hào)的感知處理都是下意識(shí)的,是基于大腦皮層神經(jīng)
子圍上交叉點(diǎn)數(shù)目最多的一方獲勝。圍棋棋盤(pán)上每一個(gè)縱網(wǎng)絡(luò)的學(xué)習(xí)方法,通過(guò)模擬大腦皮層推斷分析數(shù)據(jù)的復(fù)雜
橫交叉點(diǎn)都有三種可能性:落黑子、落白子、留空,所以圍層狀網(wǎng)絡(luò)結(jié)構(gòu),使用包含復(fù)雜結(jié)構(gòu)或由多重非線性變換構(gòu)
棋擁有高達(dá)3^361種局面;圍棋的每個(gè)回合有250種可能,一成的多個(gè)處理層對(duì)數(shù)據(jù)進(jìn)行高層抽象,其過(guò)程類似于人們
盤(pán)棋可長(zhǎng)達(dá)150回合,所以圍棋的計(jì)算復(fù)雜度為250^150,約識(shí)別物體標(biāo)注圖片。現(xiàn)如今,應(yīng)用最廣泛的深度學(xué)習(xí)模型
為10^170,然而全宇宙可觀測(cè)的原子數(shù)量只有10^80,這足以包括:卷積神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)、堆棧自編碼網(wǎng)絡(luò)和遞
體現(xiàn)圍棋博弈的復(fù)雜性和多變性。歸神經(jīng)網(wǎng)絡(luò)等。
人工智能(Artificial Intelligence,AI)主要研究人類思強(qiáng)化學(xué)習(xí)源于動(dòng)物學(xué)習(xí)、參數(shù)擾動(dòng)自適應(yīng)控制等理
維、行動(dòng)中那些尚未算法化的功能行為,使機(jī)器像人的大論,通過(guò)模擬生物對(duì)環(huán)境以試錯(cuò)的方式進(jìn)行交互達(dá)到對(duì)環(huán)
腦一樣思考、行動(dòng)。長(zhǎng)期以來(lái),圍棋作為一種智力博弈游境的最優(yōu)適應(yīng)的方式,通過(guò)不斷地反復(fù)試驗(yàn),將變化無(wú)常
戲,以其變化莫測(cè)的博弈局面,高度體現(xiàn)了人類的智慧,為的動(dòng)態(tài)情況與對(duì)應(yīng)動(dòng)作相匹配。強(qiáng)化學(xué)習(xí)系統(tǒng)設(shè)置狀態(tài)、
人工智能研究提供了一個(gè)很好的測(cè)試平臺(tái),圍棋人工智能動(dòng)作、狀態(tài)轉(zhuǎn)移概率和獎(jiǎng)賞四個(gè)部分,在當(dāng)前狀態(tài)下根據(jù)
也是人工智能領(lǐng)域的一個(gè)重要挑戰(zhàn)。策略選擇動(dòng)作,執(zhí)行該過(guò)程并以當(dāng)前轉(zhuǎn)移概率轉(zhuǎn)移到下一
傳統(tǒng)的計(jì)算機(jī)下棋程序的基本原理,是通過(guò)有限步數(shù)狀態(tài),同時(shí)接收環(huán)境反饋回來(lái)的獎(jiǎng)賞,最終通過(guò)調(diào)整策略
的搜索樹(shù),即采用數(shù)學(xué)和邏輯推理方法,把每一種可能的來(lái)最大化累積獎(jiǎng)賞。
路徑都走一遍,從中選舉出最優(yōu)路徑,使得棋局勝算最大。深度學(xué)習(xí)具有較強(qiáng)的感知能力,但缺乏一定的決策能
這種下棋思路是充分發(fā)揮計(jì)算機(jī)運(yùn)算速度快、運(yùn)算量大等力;強(qiáng)化學(xué)習(xí)具有決策能力,同樣對(duì)感知問(wèn)題無(wú)能為力。深
優(yōu)勢(shì)的“暴力搜索法”,是人類在對(duì)弈規(guī)定的時(shí)間限制內(nèi)無(wú)度強(qiáng)化學(xué)習(xí)方法是將具有感知能力的深度學(xué)習(xí)和具有決
法做到的。但是由于圍棋局面數(shù)量太大,這樣的運(yùn)算量對(duì)策能力的強(qiáng)化學(xué)習(xí)結(jié)合起來(lái),優(yōu)勢(shì)互補(bǔ),用深度學(xué)習(xí)進(jìn)行
于計(jì)算機(jī)來(lái)講也是相當(dāng)之大,目前的計(jì)算機(jī)硬件無(wú)法在對(duì)感知,從環(huán)境中獲取目標(biāo)觀測(cè)信息,提供當(dāng)前環(huán)境下的狀
弈規(guī)定的時(shí)間內(nèi),使用計(jì)算機(jī)占絕對(duì)優(yōu)勢(shì)的“暴力搜索法”態(tài)信息;然后用強(qiáng)化學(xué)習(xí)進(jìn)行決策,將當(dāng)前狀態(tài)映射到相
完成圍棋所有局面的擇優(yōu),所以這樣的下棋思路不適用于應(yīng)動(dòng)作,基于初期匯報(bào)評(píng)判動(dòng)作價(jià)值。
圍棋對(duì)弈。 深度強(qiáng)化學(xué)習(xí)為復(fù)雜系統(tǒng)的感知決策問(wèn)題提供了一
搜索量巨大的問(wèn)題一直困擾著圍棋人工智能,使其發(fā)種全新的解決思路。
展停滯不前,直到2006年,蒙特卡羅樹(shù)搜索的應(yīng)用出現(xiàn),2.2 蒙特卡洛樹(shù)搜索
才使得圍棋人工智能進(jìn)入了嶄新的階段,現(xiàn)代圍棋人工智蒙特卡洛樹(shù)搜索是將蒙特卡洛方法與樹(shù)搜索相結(jié)合
能的主要算法是基于蒙特卡洛樹(shù)的優(yōu)化搜索。形成的一種搜索方法。所謂蒙特卡洛方法是一種以概率統(tǒng)
2 圍棋人工智能基本原理 計(jì)理論為指導(dǎo)的強(qiáng)化學(xué)習(xí)方法,它通常解決某些隨機(jī)事件
出現(xiàn)的概率問(wèn)題,或者是某隨機(jī)變量的期望值等數(shù)字特征
目前圍棋人工智能最杰出的代表,是由谷歌旗下人工問(wèn)題。通過(guò)與環(huán)境的交互,從所采集的樣本中學(xué)習(xí),獲得關(guān)
智能公司DeepMind創(chuàng)造的AlphaGo圍棋人工智能系統(tǒng)。它于決策過(guò)程的狀態(tài)、動(dòng)作和獎(jiǎng)賞的大量數(shù)據(jù),最后計(jì)算出
在與人類頂級(jí)圍棋棋手的對(duì)弈中充分發(fā)揮了其搜索和計(jì)累積獎(jiǎng)賞的平均值。
算的優(yōu)勢(shì),幾乎在圍棋界立于不敗之地。蒙特卡洛樹(shù)搜索算法是一種用于解決完美信息博弈
AlphaGo系統(tǒng)的基本原理是將深度強(qiáng)化學(xué)習(xí)方法與蒙(perfect information games,沒(méi)有任何信息被隱藏的游戲)
特卡洛樹(shù)搜索結(jié)合,使用有監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)和價(jià)值網(wǎng)的方法,主要包含選擇(Selection)、擴(kuò)展(Expansion)、模擬
作者簡(jiǎn)介:胡趙宇,男,浙江紹興人,研究方向:計(jì)算機(jī)、教育學(xué)。
2017年4月上 第7期 總第259期 193
學(xué)術(shù)研究 China Science & Technology Overview
(Simulation)和反向傳播(Backpropagation)四個(gè)步驟。
2.3 策略網(wǎng)絡(luò)與價(jià)值網(wǎng)絡(luò)
AlphaGo系統(tǒng)擁有基于蒙特卡洛樹(shù)搜索方法的策略網(wǎng)絡(luò)(Policy Network)和價(jià)值網(wǎng)絡(luò)(Value Network)兩個(gè)不同的神經(jīng)網(wǎng)絡(luò)大腦,充分借鑒人類棋手的下棋模式,用策略網(wǎng)絡(luò)來(lái)模擬人類的“棋感”,用價(jià)值網(wǎng)絡(luò)來(lái)模擬人類對(duì)棋盤(pán)盤(pán)面的綜合評(píng)估。
AlphaGo系統(tǒng)主要采用有監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò),通過(guò)觀察棋盤(pán)布局,進(jìn)行棋路搜索,得到下一步合法落子行動(dòng)的概率分布,從中找到最優(yōu)的一步落子位置,做落子選擇。DeepMind團(tuán)隊(duì)使用棋圣堂圍棋服務(wù)器上3000萬(wàn)個(gè)專業(yè)棋手對(duì)弈棋譜的落子數(shù)據(jù),來(lái)預(yù)測(cè)棋手的落子情況。期間,系統(tǒng)進(jìn)行上百萬(wàn)次的對(duì)弈嘗試,進(jìn)行強(qiáng)化學(xué)習(xí),將每一個(gè)棋局進(jìn)行到底,不斷積累“經(jīng)驗(yàn)”,學(xué)會(huì)贏面最大的棋路走法,最終達(dá)到頂級(jí)圍棋棋手的落子分析能力。而AlphaGo的價(jià)值網(wǎng)絡(luò)使用百萬(wàn)次對(duì)弈中產(chǎn)生的棋譜,根據(jù)最終的勝負(fù)結(jié)果來(lái)進(jìn)行價(jià)值網(wǎng)絡(luò)訓(xùn)練,預(yù)測(cè)每一次落子選擇后贏棋的可能性,通過(guò)整體局面的判斷來(lái)幫助策略網(wǎng)絡(luò)完成落子選擇。
3 圍棋人工智能意義
經(jīng)過(guò)比賽測(cè)試證明,AlphaGo系統(tǒng)的圍棋對(duì)弈能力已經(jīng)達(dá)到世界頂級(jí)棋手水平。一直以來(lái),圍棋因?yàn)閺?fù)雜的落子選擇和巨大的搜索空間使得圍棋人工智能在人工智能領(lǐng)域成為一個(gè)具有代表性的難度挑戰(zhàn)。目前的硬件水平面對(duì)如此巨大的搜索空間顯得束手無(wú)策,AlphaGo系統(tǒng)基于
有監(jiān)督學(xué)習(xí)的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)大大減少搜索空間,在訓(xùn)練中開(kāi)創(chuàng)性地使用深度強(qiáng)化學(xué)習(xí),然后結(jié)合蒙特卡洛樹(shù)搜索方法,使得系統(tǒng)自學(xué)習(xí)能力大大提高,并且AlphaGo系統(tǒng)在與人類頂級(jí)棋手對(duì)弈中取得的連勝卓越成績(jī),為其在人工智能領(lǐng)域奠定了堅(jiān)實(shí)的里程碑地位。
雖然圍棋人工智能取得了如此優(yōu)秀的成績(jī),但是也僅僅是它在既定規(guī)則內(nèi)的計(jì)算處理能力遠(yuǎn)遠(yuǎn)超過(guò)了人類的現(xiàn)有水平,并且還有有待提高和完善的地方。在人類的其他能力中,例如情感、思維、溝通等等領(lǐng)域,目前的人工智能水平是遠(yuǎn)遠(yuǎn)達(dá)不到的。但是隨著科技的進(jìn)步和人類在人工智能領(lǐng)域的研究深入,人工智能與人類的差距會(huì)逐漸減小,像圍棋人機(jī)大戰(zhàn)人工智能連勝人類這樣的例子也可能在其他領(lǐng)域發(fā)生,這就意味著人工智能的發(fā)展前景十分可觀。
4 結(jié)語(yǔ)
人類和人工智能共同探索圍棋世界的大幕即將拉開(kāi),讓人類棋手結(jié)合人工智能,邁進(jìn)全新人機(jī)共同學(xué)習(xí)交流的領(lǐng)域,進(jìn)行一次新的圍棋革命,探索圍棋真理更高的境界。
參考文獻(xiàn)
[1]趙冬斌,邵坤,朱圓恒,李棟,陳亞冉,王海濤,劉德榮,周彤,王成紅。深度強(qiáng)化學(xué)習(xí)綜述:兼論計(jì)算機(jī)圍棋的發(fā)展[J]。控制理論與應(yīng)用,2016,(06):701-717.
[2]陶九陽(yáng),吳琳,胡曉峰.AlphaGo技術(shù)原理分析及人工智能軍事應(yīng)用展望[J]。指揮與控制學(xué)報(bào),2016,(02):114-120.
······上接第192頁(yè)實(shí)踐證明,只有不斷提高管理人員和管制人員的安全
3.2 加強(qiáng)空管安全文化的制度建設(shè)文化素質(zhì),才能全面提升空管的整體安全素質(zhì)。而管制人
任何事業(yè)的發(fā)展都必須有政策作保障,正確且有力的員安全素質(zhì)的提高關(guān)鍵在于觀念的更新。促使人們樹(shù)立正
政策可促進(jìn)工作的開(kāi)展和事業(yè)的發(fā)展。只有正確的政策作確安全觀念,可通過(guò)宣傳畫(huà),出版管制好習(xí)慣手冊(cè),組織班
指導(dǎo),才能推動(dòng)空管安全文化建設(shè)順利進(jìn)行。前班后講評(píng)會(huì)、月度安全生產(chǎn)分析會(huì)、安全管理大課等形
首先,要進(jìn)一步完善空管安全管制法律法規(guī),制定空式來(lái)宣傳安全文化理念;通過(guò)嚴(yán)格管理,領(lǐng)導(dǎo)以身作則來(lái)
管安全文化建設(shè)綱要,明確空管安全文化建設(shè)的指導(dǎo)思確保制度的執(zhí)行;通過(guò)不安全事件的案例分析來(lái)教育和培
想、戰(zhàn)略目標(biāo)、任務(wù)以及措施等,促進(jìn)空管安全文化建設(shè)的養(yǎng)員工安全意識(shí),使員工認(rèn)識(shí)到“安全就是誠(chéng)信”;“安全就
規(guī)范化。健全的法律法規(guī)和完善的建設(shè)綱要,可以使空管是核心競(jìng)爭(zhēng)力”“安全就是效益”。逐步將員工從“要我安
安全文化建設(shè)不會(huì)因人、因時(shí)、因地的改變而改變,真正做全”到“我要安全”轉(zhuǎn)變。營(yíng)造安全文化氛圍,通過(guò)潛移默化
到依法建設(shè)、依法管理,保障空管安全文化建設(shè)的可持續(xù)的方式來(lái)強(qiáng)化員工的核心價(jià)值觀和安全理念。安全文化是
發(fā)展。通過(guò)教育形成觀念產(chǎn)生行為,教育在安全文化建設(shè)中,承
其次,要制定空管安全文化建設(shè)責(zé)任制,明確各級(jí)領(lǐng)擔(dān)重要任務(wù),安全教育要形成制度,不斷進(jìn)行。只有通過(guò)安
導(dǎo)和人員的責(zé)任,以強(qiáng)化空管安全文化建設(shè)的組織領(lǐng)導(dǎo)。全教育,才能優(yōu)化人的安全觀念,安全意識(shí),提高人的安全
第三,要建立空管安全文化建設(shè)的激勵(lì)機(jī)制和約束機(jī)行為水平。
制,把空管安全文化建設(shè)作為創(chuàng)優(yōu)評(píng)先等的基本條件,推4 結(jié)語(yǔ)
動(dòng)空管深入地開(kāi)展安全文化建設(shè)。綜上所述,安全文化建設(shè)是一項(xiàng)基礎(chǔ)性、戰(zhàn)略性的工
3.3 加強(qiáng)空管安全文化的教育形式
程,這需要我們從長(zhǎng)計(jì)議、持之以恒,急功近利、半途而廢
民航的技術(shù)性、系統(tǒng)性和風(fēng)險(xiǎn)性特征要求行業(yè)必須有
是不可取的。建設(shè)良好的安全文化管理,是空管有效預(yù)防
一個(gè)統(tǒng)一的“職業(yè)規(guī)范”,通過(guò)科學(xué)、有效的規(guī)范保證安全
事故、保障安全生存和安全生產(chǎn)的重要基礎(chǔ)。
生產(chǎn)。“職業(yè)規(guī)范”的形成,很大程度上依賴于職業(yè)培訓(xùn)工
作。通過(guò)規(guī)范化培訓(xùn),一方面使員工形成統(tǒng)一的行為準(zhǔn)則、參考文獻(xiàn)
思維方式和對(duì)安全工作的共同看法,使員工在按照同一目[1]毛海峰。企業(yè)安全文化評(píng)價(jià)體系[J]。現(xiàn)代職業(yè)安全,2003.
標(biāo)前進(jìn)時(shí),溝通、協(xié)作有效率;另一方面使每個(gè)員工都有明[2]高培建。民航安全管理體系淺析[J]。科技資訊,2009.
確的崗位規(guī)范,每個(gè)崗位都有標(biāo)準(zhǔn)的崗位職責(zé),職業(yè)技能
鑒定就是行業(yè)進(jìn)行規(guī)范化培訓(xùn)和認(rèn)證的主要方式。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
圍棋人工智能基本原理下載
相關(guān)電子資料下載
- 如何創(chuàng)建FPGA控制的機(jī)器人手臂 49
- 怎樣延長(zhǎng)半導(dǎo)體元器件的壽命呢? 180
- 智能時(shí)代的三大核心技術(shù) 57
- 研華推出EPC-B3000系列嵌入式工控機(jī),搭載先進(jìn)X86架構(gòu)CPU,助力邊緣人工智能應(yīng)用 91
- 探索可觀測(cè)性未來(lái):基調(diào)聽(tīng)云產(chǎn)品VP陳靖華揭秘新一代可觀測(cè)性工具 129
- 異構(gòu)時(shí)代:CPU與GPU的發(fā)展演變 143
- RISC-V要顛覆GPU嗎? 210
- 韓國(guó)半導(dǎo)體10月早期出口數(shù)據(jù)一年來(lái)首次回暖,工信部推動(dòng)通用人工智能與物聯(lián) 192
- AI可在數(shù)秒鐘內(nèi)成功設(shè)計(jì)出行走機(jī)器人 28
- 因「盒」而來(lái)︱英碼科技「深元」的AI重構(gòu)與工具革命 58