試想一下我們希望從伯克利大學(xué)騎車(chē)到金門(mén)大橋,雖然僅僅只有二十公里之遙,但如果卻面臨一個(gè)天大的問(wèn)題:你從來(lái)沒(méi)有騎過(guò)自行車(chē)!而且雪上加霜的是,你剛剛來(lái)到灣區(qū)對(duì)于路況很陌生,手頭僅僅只有一張市區(qū)的地圖。那我們?cè)撊绾悟T車(chē)去看心心念念的金門(mén)大橋呢?這個(gè)看似十分復(fù)雜的任務(wù)卻是機(jī)器人利用強(qiáng)化學(xué)習(xí)需要解決的問(wèn)題。
讓我們先來(lái)看看如何學(xué)會(huì)騎自行車(chē)。一種方法是先盡可能多的學(xué)習(xí)知識(shí)并一步步的規(guī)劃自己的行為來(lái)實(shí)現(xiàn)騎車(chē)這一目標(biāo):通過(guò)讀如何騎自行車(chē)的書(shū)、學(xué)習(xí)相關(guān)的物理知識(shí)、規(guī)劃騎車(chē)時(shí)每一塊肌肉的運(yùn)動(dòng)...這種一板一眼的方式在研究中還可行,但是要是用來(lái)學(xué)習(xí)自行車(chē)那永遠(yuǎn)也到不了金門(mén)大橋了。學(xué)習(xí)自行車(chē)正確的姿勢(shì)是不斷地嘗試不斷地試錯(cuò)和練習(xí)。像學(xué)習(xí)騎自行車(chē)這樣太復(fù)雜的問(wèn)題是不能通過(guò)實(shí)現(xiàn)規(guī)劃實(shí)現(xiàn)的。
當(dāng)你學(xué)會(huì)騎車(chē)之后,下一步便是如果從伯克利到金門(mén)大橋了。你可以繼續(xù)利用試錯(cuò)的策略嘗試各種路徑看看終點(diǎn)是不是在金門(mén)大橋。但這種方式顯而易見(jiàn)的缺點(diǎn)是我們可能需要十分十分久的時(shí)間才能到達(dá)。那么對(duì)于這樣簡(jiǎn)單的問(wèn)題,基于已有的信息規(guī)劃便是一種十分有效的策略了,無(wú)需太多真實(shí)世界的經(jīng)驗(yàn)和試錯(cuò)便能完成。在強(qiáng)化學(xué)習(xí)中意味著更加高效采樣的學(xué)習(xí)過(guò)程。
對(duì)于一些技能來(lái)說(shuō)試錯(cuò)學(xué)習(xí)十分有效,而對(duì)于另一些規(guī)劃卻來(lái)得更好
上面的例子雖然簡(jiǎn)單但卻反映了人類(lèi)智慧的重要特征,對(duì)于某些任務(wù)我們選擇利用試錯(cuò)的方式,而某些任務(wù)則基于規(guī)劃來(lái)實(shí)現(xiàn)。同樣在強(qiáng)化學(xué)習(xí)中不同的方法也適用于不同的任務(wù)。
然而在上面的例子中兩種方法卻不是完全獨(dú)立的,事實(shí)上如果用試錯(cuò)的方法來(lái)概括自行車(chē)的學(xué)習(xí)過(guò)程就太過(guò)于簡(jiǎn)單了。當(dāng)我們利用試錯(cuò)的方法來(lái)學(xué)習(xí)自行車(chē)時(shí),我們也利用了一點(diǎn)點(diǎn)規(guī)劃的方法。可能在一開(kāi)始的時(shí)候你的計(jì)劃是不要摔倒,而后變?yōu)榱瞬灰さ沟仳T兩米。最后當(dāng)你的技術(shù)不斷提高后,你的目標(biāo)會(huì)變成更為抽象的概念比如要騎到道路的盡頭哦,這時(shí)候需要更多關(guān)注的是如何規(guī)劃這一目標(biāo)而不是騎車(chē)的細(xì)節(jié)了。可以看到這是一個(gè)逐漸從無(wú)模型轉(zhuǎn)換為基于模型策略的過(guò)程。如果能將這種策略移植到強(qiáng)化學(xué)習(xí)算法中,那么我們就能得到既能表現(xiàn)良好(最初階段的試錯(cuò)方法)又具有高效采樣特性(在后期轉(zhuǎn)化為利用規(guī)劃實(shí)現(xiàn)更為抽象的目標(biāo))的優(yōu)秀算法了。
這篇文章中主要介紹了時(shí)域差分模型,這是一種能夠平滑銜接無(wú)模型和基于模型策略的強(qiáng)化學(xué)習(xí)算法。接下來(lái)首先要介紹基于模型的算法是如何工作的。
基于模型的強(qiáng)化學(xué)習(xí)算法
在強(qiáng)化學(xué)習(xí)中通過(guò)動(dòng)力學(xué)模型,在行為at的作用下?tīng)顟B(tài)將從st轉(zhuǎn)化到st+1,學(xué)習(xí)的目標(biāo)是最大化獎(jiǎng)勵(lì)函數(shù)r(st,a,st+1)的和。基于模型的強(qiáng)化學(xué)習(xí)算法假設(shè)事先給定了一個(gè)動(dòng)力學(xué)模型,那么我們假設(shè)模型的學(xué)習(xí)目標(biāo)是最大化一系列狀態(tài)的獎(jiǎng)勵(lì)函數(shù):
這一目標(biāo)函數(shù)意味著在保證目標(biāo)可行的狀態(tài)下選取一系列狀態(tài)和行為并最大化獎(jiǎng)勵(lì)。可行意味著每一個(gè)狀態(tài)轉(zhuǎn)移是有效的。例如下圖中只有st+1是可行的狀態(tài)。即便其他狀態(tài)有更高的獎(jiǎng)勵(lì)函數(shù)但是不可行的轉(zhuǎn)移也是無(wú)效的。
在我們的騎行問(wèn)題中,優(yōu)化問(wèn)題需要規(guī)劃一條從伯克利到金門(mén)大橋的路線(xiàn):
上圖中現(xiàn)實(shí)的概念很好但是卻不現(xiàn)實(shí)。基于模型的方法利用模型f(s,a)來(lái)預(yù)測(cè)下一步的狀態(tài)。在機(jī)器人中每一步十分的時(shí)間十分短暫,更實(shí)際的規(guī)劃將會(huì)是像下圖一樣更為密集的狀態(tài)轉(zhuǎn)移:
回想我們每天騎自行車(chē)的過(guò)程我們的規(guī)劃其實(shí)是十分抽象的過(guò)程,我們通常都會(huì)規(guī)劃長(zhǎng)期的目標(biāo)而不是每一步具體的位置。而且我們僅僅在最開(kāi)始的時(shí)候進(jìn)行一次抽象的規(guī)劃。就像剛剛討論的那樣,我們需要一個(gè)起點(diǎn)來(lái)進(jìn)行試錯(cuò)的學(xué)習(xí),并需要提供一種機(jī)制來(lái)逐漸增加計(jì)劃的抽象性。于是我們引入了時(shí)域差分模型。
時(shí)域差分模型
時(shí)域差分模型一般形式為Q(s,a,sg,τ),給定當(dāng)前狀態(tài)、行為以及目標(biāo)狀態(tài)后,預(yù)測(cè)τ時(shí)間步長(zhǎng)時(shí)主體與目標(biāo)相隔的距離。直觀上TDM回答了這樣的問(wèn)題:“如果我騎車(chē)去市中心,30分鐘后我將會(huì)距離市中心多近呢?”對(duì)于機(jī)器人來(lái)說(shuō)測(cè)量距離主要使用歐式距離來(lái)度量。
上圖中的灰線(xiàn)代表了TMD算法計(jì)算出距離目標(biāo)的距離。那么在強(qiáng)化學(xué)習(xí)中,我們可以將TMD視為在有限馬爾科夫決策過(guò)程中的條件Q函數(shù)。TMD是Q函數(shù)的一種,我們可以利用無(wú)模型的方法來(lái)進(jìn)行訓(xùn)練。一般地人們會(huì)使用深度置信策略梯度來(lái)訓(xùn)練TDM并對(duì)目標(biāo)和時(shí)間進(jìn)行回溯標(biāo)記以提高算法的采樣效率。理論上Q學(xué)習(xí)算法都可以用于訓(xùn)練TDM,但研究人員發(fā)現(xiàn)目前的算法更為有效。更多細(xì)節(jié)請(qǐng)參看論文。
利用TDM進(jìn)行規(guī)劃
當(dāng)訓(xùn)練結(jié)束后我們可以利用下面的目標(biāo)函數(shù)進(jìn)行規(guī)劃:
這里與基于模型策略不同的地方在于每K步進(jìn)行一次規(guī)劃,而不是每一步。等式右端的零保證了每一次狀態(tài)轉(zhuǎn)移軌跡的有效性:
規(guī)劃就從上面的細(xì)碎的步驟變成了下圖整體的,更為抽象和長(zhǎng)期的策略:
當(dāng)我們?cè)黾覭時(shí),就能獲得更為長(zhǎng)期和抽象的規(guī)劃。在K步之間利用無(wú)模型的方法來(lái)選擇行為,使用無(wú)模型的策略來(lái)抽象達(dá)成這些目標(biāo)的過(guò)程,最后在K足夠大的情況下實(shí)現(xiàn)了下圖的規(guī)劃情況,基于模型的方法用于選擇抽象目標(biāo)而無(wú)模型的方法則用于達(dá)到這些目標(biāo):
需要注意的是這種方法只能在K步的地方進(jìn)行優(yōu)化,而現(xiàn)實(shí)情況下卻只關(guān)心某些特殊的狀態(tài)(如最終狀態(tài))。
實(shí)驗(yàn)
研究人員們利用TMD算法進(jìn)行了兩個(gè)實(shí)驗(yàn),首先是利用模擬的機(jī)械臂將圓柱推到目標(biāo)位置:
可以發(fā)現(xiàn)TMD算法比無(wú)模型的DDPG算法和基于模型的算法都下降的快,其快速學(xué)習(xí)能力來(lái)自于之前提到的基于模型的高效采樣。
另一個(gè)實(shí)驗(yàn)是利用機(jī)器人進(jìn)行定位的任務(wù),下圖是實(shí)驗(yàn)的示意圖和學(xué)習(xí)曲線(xiàn):
上圖現(xiàn)實(shí)基于模型的方法在訓(xùn)練到一定次數(shù)后就停滯了,而基于DDPG的無(wú)模型方法則下降緩慢,但最終效果強(qiáng)于基于模型的方法。而TMD方法則即快速有優(yōu)異,結(jié)合了上述兩者的優(yōu)點(diǎn)。
未來(lái)方向
時(shí)域差分模型為無(wú)模型和基于模型的方法提供了有效的數(shù)學(xué)描述和實(shí)現(xiàn)方法,但還有一系列工作需要完善。首先理論中假設(shè)環(huán)境和策略是確定的,而實(shí)際中卻存在一定的隨機(jī)性。這方面的研究將促進(jìn)TMD對(duì)于真實(shí)環(huán)境的適應(yīng)性。此外TMD可以和可選擇的基于模型的規(guī)劃方法結(jié)合優(yōu)化。最后還希望未來(lái)將TMD用于真實(shí)機(jī)器人的定位、操作任務(wù),甚至騎車(chē)到金門(mén)大橋去。
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28562瀏覽量
207706 -
模型
+關(guān)注
關(guān)注
1文章
3279瀏覽量
48974 -
學(xué)習(xí)算法
+關(guān)注
關(guān)注
0文章
15瀏覽量
7486
原文標(biāo)題:UC Berkeley提出新的時(shí)域差分模型策略:從無(wú)模型到基于模型的深度強(qiáng)化學(xué)習(xí)
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門(mén)創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論