摘要:本文介紹了一項(xiàng)旨在為兵棋類模擬開發(fā)基于AI的強(qiáng)大人工對(duì)手的項(xiàng)目。本文提供了兩種方法。第一種方法主要基于對(duì)制定可靠戰(zhàn)術(shù)所必需的復(fù)雜知識(shí)進(jìn)行漸進(jìn)式主動(dòng)學(xué)習(xí)方法,但這需要對(duì)該領(lǐng)域知識(shí)有深入了解的高水平教練。
第二種方法是嘗試將整個(gè)軍隊(duì)各層級(jí)的決策制定過程建模為某種形式的復(fù)雜的知識(shí)密集型問題解決過程。后續(xù)工作將研究綜合運(yùn)用上述方法的可能性,以及其他方法,例如基于案例的推理等。
目的
本項(xiàng)目的目的是在計(jì)算機(jī)兵棋嘗試一系列AI方法,這些兵棋以一定的歷史真實(shí)感模擬了前幾個(gè)世紀(jì)的軍事戰(zhàn)術(shù)。我們的主要?jiǎng)訖C(jī)是檢驗(yàn)并改進(jìn)這些AI技術(shù)。而在此過程中,一些兵棋也可以獲得高質(zhì)量的人工對(duì)手。
戰(zhàn)略兵棋與國際象棋
到目前為止,我們的研究將重點(diǎn)放在非常成熟的模擬拿破侖時(shí)期重要戰(zhàn)斗的商業(yè)兵棋上。這款兵棋有非常強(qiáng)大的對(duì)陣員社區(qū),因此當(dāng)我們的系統(tǒng)準(zhǔn)備就緒時(shí),我們可以邀請(qǐng)一些外部專家對(duì)其進(jìn)行測試。此外,在研究的第一階段,為檢驗(yàn)一些想法,特別是SOAR的使用,我們還使用了另一款由UPMC學(xué)員設(shè)計(jì)的相對(duì)簡單的兵棋,該兵棋在許多方面與拿破侖兵棋相似,但側(cè)重于中世紀(jì)戰(zhàn)術(shù)。
我們不打算詳細(xì)討論這兩款兵棋的規(guī)則,而是通過強(qiáng)調(diào)它們與經(jīng)典國際象棋的差異性來說明兵棋的基本理念。和國際象棋一樣,每個(gè)對(duì)陣員在沖突中推演一方。戰(zhàn)場用棋盤表示。對(duì)陣員根據(jù)一系列規(guī)則在棋盤上移動(dòng)棋子,輪流進(jìn)行推演。與國際象棋相比,沒處差異都可被視作復(fù)雜性的增加。
我們使用的兵棋棋盤由六角格覆蓋而非正方形。這使得機(jī)動(dòng)模式更加復(fù)雜(每個(gè)位置有六個(gè)鄰居)。更重要地,國際象棋棋盤上只有64個(gè)方格,而我們使用的兵棋中包含數(shù)千個(gè)六角格。
每個(gè)六角格除了位置外,還由一系列參數(shù)定義,例如地形類型(森林、平原。。。)、海拔高度等,這些參數(shù)反過來會(huì)影響單位的機(jī)動(dòng)或戰(zhàn)斗能力。
每個(gè)單位都有若干特點(diǎn),這會(huì)影響其機(jī)動(dòng)、戰(zhàn)斗能力以及質(zhì)量、疲勞和組織等。其中一些特征(例如單位配置),可被視作影響單位能力(機(jī)動(dòng)或戰(zhàn)斗等)的單位參數(shù)。
單位按級(jí)別組織(例如、軍、軍團(tuán)、師、旅等)。根據(jù)軍隊(duì)凝聚力要求,屬于同一級(jí)別的單位互相戰(zhàn)斗。每個(gè)回合分為若干階段,每個(gè)階段分配不同活動(dòng)類型,例如機(jī)動(dòng)、遠(yuǎn)程射擊等。
戰(zhàn)斗本身的建模相對(duì)復(fù)雜:包括遠(yuǎn)程射擊(步兵使用滑膛槍或者火炮從遠(yuǎn)處射擊)和近戰(zhàn)(徒手格斗)。戰(zhàn)斗解決方法需要考慮許多參數(shù),包括各方的規(guī)模、素質(zhì)、狀態(tài)和疲勞度等。它還包含隨機(jī)因素,因此結(jié)果幾乎永遠(yuǎn)無法保證。
在特定時(shí)間內(nèi)得分最高的一方獲演勝。攻占(或成功防守)重要位置,以及使敵方單位失去戰(zhàn)斗力,即可獲得分?jǐn)?shù)。
從計(jì)算視角來開,我兵棋與國際象棋更顯著的差異在于,各回合每個(gè)單位都可以活動(dòng)。這與國際象棋截然不同,在國際象棋中各方選擇一枚獨(dú)特的棋子移動(dòng)。這最終導(dǎo)致兵棋的復(fù)雜性大大增加。
如果有p個(gè)單位,每個(gè)單位可能采取m種行動(dòng),則國際象棋來的分支因素是p.m,而兵棋是mp。除了爆炸性的復(fù)雜性,這種不同的設(shè)置方式具有以下優(yōu)勢:讓模擬更接近歷史,或者更接近于人類代理的模擬。軍隊(duì)單位確實(shí)在戰(zhàn)場上以相似方式機(jī)動(dòng),因此如果擔(dān)心歷史合理性,那么順序行動(dòng)(如國際象棋)是不可能的。
因此,我們可以設(shè)想通過盲搜方法將國際象棋下到一定水平,當(dāng)該方法對(duì)于兵棋而言是難以想象的,因?yàn)樵趍=20,p=100的情況下,即使得出下一回合的所有可能狀態(tài)都是不可能的。因此與國際象棋相比,對(duì)于大多數(shù)真正的人工智能問題來說,一切都取決于系統(tǒng)學(xué)習(xí)的或者為系統(tǒng)提供的知識(shí)的質(zhì)量。
主動(dòng)學(xué)習(xí)方法
我們嘗試的第一種方法是對(duì)背景知識(shí)要求最低的方法。我們的想法是從模擬小規(guī)模對(duì)抗實(shí)現(xiàn)簡單目標(biāo)開始,以便個(gè)體單位學(xué)習(xí)一些基本知識(shí),然后循序漸進(jìn),通過模擬更復(fù)雜的態(tài)勢學(xué)習(xí)更加復(fù)雜的知識(shí)。我們的第一種學(xué)習(xí)方法是基于基因的規(guī)則庫學(xué)習(xí)。
我們嘗試了不同設(shè)置,一些僅使用基本的感知信息(除了單位目標(biāo),還有周圍環(huán)境的信息,包括敵方單位的存在),一些則以基因代碼方式體現(xiàn)了一些中間概念,比如觀察到的當(dāng)?shù)乇Ρ龋ㄖ苯芋w現(xiàn)威脅概念)。在這些初始階段完成之后,可通過讓單位在更大的編隊(duì)內(nèi)在復(fù)雜性不斷增加的“指導(dǎo)性想定中”發(fā)揮作用來獲取新的規(guī)則集。
這一方法令人非常振奮,因?yàn)樗钣锌赡墚a(chǎn)生意想不到的結(jié)果(因?yàn)樗苌僖驗(yàn)槲覀兊慕?jīng)驗(yàn)--針對(duì)特定態(tài)勢采取哪種戰(zhàn)略更合適,產(chǎn)生偏見)。出其不意可能是我們系統(tǒng)顯示的某種形式的戰(zhàn)略創(chuàng)造力的結(jié)果,也可能意味著推演規(guī)則不切實(shí)際,或者我們的方法與其它人工或人為方法相比,更能發(fā)現(xiàn)這些規(guī)則中的漏洞。
這種漸進(jìn)式分類系統(tǒng)學(xué)習(xí)方法,可能會(huì)增大知識(shí)庫最終趨同的可能性。當(dāng)然在現(xiàn)階段就斷言它們會(huì)趨同還為時(shí)過早。設(shè)計(jì)合適的訓(xùn)練方案,逐步增加復(fù)雜性讓系統(tǒng)從學(xué)習(xí)基本概念和戰(zhàn)術(shù)開始,然后逐漸學(xué)習(xí)更高級(jí)的戰(zhàn)略存在一定的困難。實(shí)驗(yàn)初步表明,這一階段本身就需要深入了解一些兵棋知識(shí)。
因此,盡管該學(xué)習(xí)方法在最初看起來似乎對(duì)背景知識(shí)的要求不高(在許多方面的確如此),但是看起來,“知識(shí)密集型”方法在建模和知識(shí)開發(fā)階段吸取的所有經(jīng)驗(yàn)教訓(xùn),都能讓主動(dòng)學(xué)習(xí)方法獲益匪淺。
知識(shí)密集型方法
此外,我們通過在SOAR框架內(nèi)引出相關(guān)知識(shí)來應(yīng)用知識(shí)密集型方法。多年來的實(shí)踐證明,SOAR是一種在動(dòng)態(tài)環(huán)境內(nèi)體現(xiàn)并使用復(fù)雜知識(shí)的可靠框架。繼應(yīng)用于一些軍事模擬和規(guī)劃中之后,該框架已經(jīng)成功應(yīng)用于大量計(jì)算機(jī)推演中。
該方法的難點(diǎn)是如何為知識(shí)庫設(shè)定良好的角色以及如何選擇相關(guān)中間概念。同時(shí),充分利用SOAR內(nèi)的分塊學(xué)習(xí)能力尤為重要,因?yàn)樽畛醯闹庇X,當(dāng)前的系統(tǒng)因其學(xué)習(xí)能力受限。
我們可以將各單位視作不同代理。事實(shí)上兵棋讓對(duì)陣員像指揮官一樣(在當(dāng)前態(tài)勢范圍內(nèi))決定各單位(如步兵營、騎兵中隊(duì)等)的行動(dòng)。但是,各單位指揮官只有在上級(jí)指揮官(師、軍團(tuán)、集團(tuán)軍級(jí)別)制定的全球戰(zhàn)略背景下解決行動(dòng)問題才有意義。
因此信息流是雙向的:一方面它是上行的(下級(jí)指揮官報(bào)告觀察到的情況,報(bào)告行動(dòng)的成功/失敗)。而另一方面它又是下行的,戰(zhàn)略被選擇,命令被下達(dá)解讀并盡可能執(zhí)行(有時(shí)需一定調(diào)整)。
觀察發(fā)現(xiàn)這種分層信息流與SOAR中目標(biāo)和操作符的組織方式很相似。也就是說,當(dāng)前的設(shè)計(jì)方案是,將整個(gè)軍隊(duì)當(dāng)作一個(gè)復(fù)雜的問題解決代理,其大部分層級(jí)結(jié)構(gòu)可通過SOAR操作符的等級(jí)體現(xiàn)。
由于這種選擇,我們決定在在同一單位類型之間共享知識(shí)庫庫,也就是只能按單位類型進(jìn)行學(xué)習(xí),個(gè)體單位無法學(xué)習(xí)。當(dāng)然,單位組織層次中的每一級(jí)都可獨(dú)立于上一級(jí)或下一級(jí)進(jìn)行學(xué)習(xí)。同時(shí),兵棋還有一個(gè)專門指導(dǎo)模式,在這種模式下如果當(dāng)前知識(shí)庫內(nèi)容不充分或者有待提高,用戶可以向程序提供行動(dòng)方案建議。
后續(xù)研究
在后續(xù)研究中,我們希望在兵棋中采用一些懶惰學(xué)習(xí)形式。就對(duì)背景知識(shí)的要求而言,該方法可能介于主動(dòng)學(xué)習(xí)和知識(shí)密集型方法之間。基于案例的推理需要一些與案例表征、案例庫組織、案例檢索相似度度量以及戰(zhàn)略調(diào)整選擇相關(guān)的知識(shí)。因此與基于基因的學(xué)習(xí)方法相比,這種方法需要更多的知識(shí),但又低于知識(shí)密集型方法。
該方法的優(yōu)勢在于可以提出利用過去獲得成功的一整套行動(dòng)方,解決潛在的態(tài)勢問題。不同組織層級(jí)需要不同的案例庫,案例相似性計(jì)算要考慮的一個(gè)重要元素是單位目標(biāo)之間的相似性,因?yàn)閼B(tài)勢(地理和環(huán)境)之間的相似性還不足以激發(fā)案例的檢索。
除了實(shí)驗(yàn)更多方法,后續(xù)研究會(huì)將最有希望的方法整合到一體化系統(tǒng)中,以便利用最適合當(dāng)前態(tài)勢的技術(shù)。因?yàn)槲覀儜?yīng)用的所有技術(shù)都依賴一些學(xué)習(xí)要素,因此有必要通過一些形式的實(shí)驗(yàn),讓系統(tǒng)與自己高速對(duì)抗,從而達(dá)到某種基本性能水平。
對(duì)于主動(dòng)學(xué)習(xí)方法,可以讓系統(tǒng)與知識(shí)密集型方法對(duì)抗(即使剛開始是其知識(shí)庫很簡單)。我們的想法是,主動(dòng)學(xué)習(xí)方法將以隨機(jī)對(duì)陣員的身份開始(在學(xué)習(xí)到任何知識(shí)之前),這樣在與自己的對(duì)抗中就不會(huì)有太大進(jìn)步。此外,利用知識(shí)密集型方法獲取知識(shí),有助于為漸進(jìn)式主動(dòng)學(xué)習(xí)方法設(shè)計(jì)更好的指導(dǎo)方案。
審核編輯:黃飛
-
AI
+關(guān)注
關(guān)注
87文章
31334瀏覽量
269688
原文標(biāo)題:如何利用AI方法為兵棋制定戰(zhàn)略
文章出處:【微信號(hào):AI智勝未來,微信公眾號(hào):AI智勝未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論