強化學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域最熱門的研究技術(shù)之一,如果智能體做了正確的行為就能得到積極的獎勵,反之則會得到負(fù)獎勵。這種方法簡單通用,DeepMind用這種方法教會DQN算法玩雅達(dá)利游戲以及讓AlphaGoZero下圍棋,甚至還讓OpenAI訓(xùn)練算法來打Dota。但是,盡管強化學(xué)習(xí)很成功,想要高效地使用它仍然有很多挑戰(zhàn)。
傳統(tǒng)的強化學(xué)習(xí)算法常常因為環(huán)境對智能體稀疏的反饋而遇到重重困難,但這樣的環(huán)境在現(xiàn)實中是很常見的。例如,你想在大型超市中找到最喜歡的那種奶酪,找了半天也沒找到奶酪區(qū)。如果在這一過程中,你并沒有收到任何反饋,那么就完全沒有頭緒該往哪走。在這種情況下,只有好奇心會驅(qū)使你試著走向別處。
現(xiàn)在,谷歌大腦團(tuán)隊、DeepMind和蘇黎世聯(lián)邦理工學(xué)院合作提出了一種新型的基于情景記憶的模型,能夠讓智能體用“好奇心”探索環(huán)境。研究人員不僅僅想讓智能體了解環(huán)境,而且還想讓它們解決最初的任務(wù),他們在原始稀疏任務(wù)獎勵中添加了一些反饋獎勵,讓標(biāo)準(zhǔn)的強化學(xué)習(xí)算法從中學(xué)習(xí)。所以這樣加入了好奇心的方法能讓強化學(xué)習(xí)智能體解決的問題更多。
以下是論智對這一方法的介紹:
這種方法的核心思想是將智能體所觀察到的環(huán)境存儲在情景記憶中,并且如果智能體獲取了存儲中沒有的觀察,也會對其進(jìn)行獎勵。我們的方法創(chuàng)新之處就在于,如何找到這種“沒有被存儲的”場景,這就是讓智能體找到不熟悉的場景。這一目標(biāo)就會讓智能體走到一個新位置,直到找到目標(biāo)。我們的方式不會讓智能體做出無用的行為,通俗地講,這些行為有點像“拖延癥行為”。
此前的好奇心方法
在此之前,已經(jīng)有多個有關(guān)好奇心的研究了,在這篇文章中,我們會重點關(guān)注一個很常見的方法:在預(yù)測過程中感到驚喜而產(chǎn)生的好奇心(通常稱為ICM方法),這在最近的論文Curiosity-driven Exploration by Self-supervised Prediction中有過研究。為了解釋好奇心是如何引起驚奇的,我們還會到上文中提到的在超市中找奶酪的例子。
當(dāng)你在超市中搜索時,心里可能會想:現(xiàn)在我在肉類區(qū)域,所以接下來可能到水產(chǎn)品區(qū)。這些都應(yīng)該是相近的。如果你預(yù)測錯了,可能會驚訝:誒?怎么是蔬菜區(qū)?從而得到獎勵。這就會激勵你進(jìn)一步尋找,直到找到目標(biāo)。
同樣的,ICM方法會針對環(huán)境變化搭建一個預(yù)測模型,如果模型沒有做出好的預(yù)測,就會給智能體反饋,這也就是我們得到的“驚訝”。注意,探索一個陌生環(huán)境并不是ICM好奇心模塊的直接組成部分,對ICM方法來說,觀察不同的位置,就是為了獲得更多“驚奇”之情,從而讓總體獎勵最大化。結(jié)果變成,在某些環(huán)境下,可能有其他的造成驚訝之情的路線,導(dǎo)致看到陌生的場景。
智能體遇到電視就被困住了
“拖延”的危險
在Large-Scale Study of Curiosity-Driven Learning一文中,ICM方法的作者和OpenAI的研究人員提出,當(dāng)驚訝最大化后,會有隱藏的危險:智能體可以學(xué)習(xí)做一些無用的拖延動作,而不去為了完成任務(wù)而做些有用的事。作者舉了一個“noisy TV problem”的例子,智能體被安排在一個迷宮里,它的任務(wù)是找到最高獎勵的對象(和在超市里找奶酪的道理一樣)。迷宮中有一臺電視,而智能體有它的遙控器。但是電視只有幾個臺(每個臺放的節(jié)目不一樣),每按一下遙控器,電視就會隨機(jī)切換頻道。在這種情況下,智能體應(yīng)該怎么做呢?
對于基于驚訝的好奇心方程來說,調(diào)換頻道會導(dǎo)致較大的獎勵,因為每次換臺都是無法預(yù)測的,充滿驚喜。重要的是,當(dāng)所有頻道輪換一遍之后,隨機(jī)選擇仍會讓智能體感到驚奇,智能體仍然可能會預(yù)測錯誤。所以,智能體為了獲得不斷的驚喜、得到獎勵,就會一直站在電視機(jī)前不走。所以為了避免這種情況,該如何重新定義好奇心呢?
情景式好奇心
在我們的論文中,我們研究了一個基于情景記憶的好奇心模型,結(jié)果發(fā)現(xiàn)模型并不容易讓自己依賴即時滿足。為什么會這樣?利用上文電視機(jī)的例子,智能體換了一會兒臺之后,所有的節(jié)目都已經(jīng)被存儲了。于是,電視機(jī)不再有吸引力了,即使電視機(jī)上的頻道是隨機(jī)出現(xiàn)的、無法預(yù)測的。這就和剛剛依靠驚奇的好奇心模型有了區(qū)別:我們的方法不對未來做判斷,而是智能體檢查自己此前是否觀察到相似情景。所以,我們的智能體不會在這臺電視機(jī)上浪費太多時間,它會繼續(xù)尋找更多獎勵。
但是我們?nèi)绾未_定智能體看到了和記憶里相同的事物呢?檢查二者的匹配程度顯然是不現(xiàn)實的,因為現(xiàn)實生活中,智能體很少能兩次都看到相同的事物。例如,即使智能體回到了同一個房間,它看房間的視角也會和之前不同。
所以,我們在這里使用神經(jīng)網(wǎng)絡(luò)來確定,該網(wǎng)絡(luò)在訓(xùn)練時會評估兩次經(jīng)歷有幾分相似。為了訓(xùn)練這一網(wǎng)絡(luò),我們讓它判斷兩次觀察的時間是否接近。時間接近性是判斷兩段經(jīng)歷是否是同一個場景的有效方法。這一訓(xùn)練就對“新鮮”進(jìn)行了通用定義。
實驗結(jié)果
為了比較研究好奇心的不同方法,我們在兩個3D場景中對其進(jìn)行了測試,分別是ViZDoom和DMLab。在這些環(huán)境中,智能體要完成多種任務(wù),例如在迷宮中找目標(biāo)或者收集好的目標(biāo),避開壞的物體。DMLab環(huán)境給智能體配置了類似激光的發(fā)射器,智能體可以選擇性地使用。有趣的是,和上面的電視機(jī)實驗類似,基于驚訝的ICM方法在很多不必要的情況下也使用了激光!當(dāng)進(jìn)行“迷宮尋寶”任務(wù)時,智能體一直對著墻做標(biāo)記,因為這樣會獲得更高的獎勵。理論上來說,通過標(biāo)記墻壁預(yù)測結(jié)果是可行的,但實際上操作難度比較大,因為它需要很深的物理學(xué)知識,對智能體來說還做不到。
而我們的方法在同樣的條件下學(xué)習(xí)了可行的探索行為。這是因為它不用預(yù)測行為之后的結(jié)果,而是尋找存儲以外的情景觀察。換句話說,智能體追求的目標(biāo)需要花費比記憶中已有的更多努力,而不僅僅是做標(biāo)記。
有趣的是,我們的方法在發(fā)現(xiàn)智能體原地繞圈后,會進(jìn)行獎勵懲罰,這是由于轉(zhuǎn)了第一圈之后,智能體沒有再遇到新情景了,所以沒有獎勵:
紅色表示負(fù)獎勵,綠色表示正獎勵
與此同時,我們的方法還會對探索行為給予獎勵:
希望我們的研究對探索方法有所幫助。具體細(xì)節(jié),請看論文。
-
谷歌
+關(guān)注
關(guān)注
27文章
6176瀏覽量
105677 -
智能體
+關(guān)注
關(guān)注
1文章
160瀏覽量
10599 -
強化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
268瀏覽量
11273
原文標(biāo)題:促使強化學(xué)習(xí)智能體持續(xù)探索環(huán)境的新方法:利用情景記憶激發(fā)好奇心
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論