在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

簡單介紹了強化學習的基本概念

mK5P_AItists ? 來源:未知 ? 作者:李倩 ? 2018-06-26 09:10 ? 次閱讀

由于Alpha Go的成功,強化學習始終是人們談論的焦點。現在Thomas Simonini在國外blog網站上發布了系列強化學習教程,以下是本系列的第一篇,簡單介紹了強化學習的基本概念。

An introduction to Reinforcement Learning

我們基于TensorFlow制作了一門深度強化學習的視頻課程【1】,主要介紹了如何使用TensorFlow實現強化學習問題求解。

強化學習是機器學習的一種重要分支,通過“agent ”學習的方式,得出在當前環境下所應該采取的動作,并觀察得到的結果。

最近幾年,我們見證了了許多研究領域的巨大進展,例如包括2014年的“DeepMind and the Deep Q learning architecture”【2】,2016年的“beating the champion of the game of Go with AlphaGo”【3】,2017年的“OpenAI and the PPO”【4】

在這個系列文章中,我們將關注于深度學習問題中各類不同的求解方法。包括Q-learning,DeepQ-learning,策略梯度,ActorCritic,以及PPO。

在第一篇文章中,你將會學到:

強化學習是什么,為什么說“獎勵”是最重要的思想。

強化學習的三個方法。

深度強化學習中的“深度”是什么意思?

在進入深度學習實現的主題之前,一定要把這些元素弄清楚。

強化學習背后的思想是,代理(agent)將通過與環境(environment)的動作(action)交互,進而獲得獎勵(reward)。

從與環境的交互中進行學習,這一思想來自于我們的自然經驗,想象一下當你是個孩子的時候,看到一團火,并嘗試接觸它。

火很溫暖,你感覺很開心(獎勵+1)。你就會覺得火是個好東西。

可一旦你嘗試去觸摸它。哎呦!火把你的手燒傷了(懲罰-1).你才明白只有與火保持一定距離,才會產生溫暖,才是個好東西,但如果太過靠近的話,就會燒傷自己。

這一過程是人類通過交互進行學習的方式。強化學習是一種可以根據行為進行計算的學習方法。

強化學習的過程

舉個例子,思考如何訓練agent 學會玩超級瑪麗游戲。這一強化學習過程可以被建模為如下的一組循環過程。

agent從環境中接收到狀態S0。(此案例中,這句話意思是從超級瑪麗游戲中得到的第一幀信息

基于狀態S0,agent執行A0操作。(右移)

環境轉移至新狀態S1。(新一幀)

環境給予R1獎勵。(沒死:+1)

強化學習循環輸出狀態、行為、獎勵的序列。整體的目標是最大化全局reward的期望。

獎勵假設是核心思想

在強化學習中,為了得到最好的行為序列,我們需要最大化累積reward期望。

每個時間步的累積reward可以寫作:

等價于:

然而,在現實世界中,我們不能僅僅加入獎勵。這種獎勵來的太快,且發生的概率非常大,因此比起長期獎勵來說,更容易預測。

另一個例子中,agent 是老鼠,對手是貓,目標是在被貓吃掉之前,先吃掉最多的奶酪。

從圖中可以看到,吃掉身邊的奶酪要比吃掉貓旁邊的奶酪,要容易許多。

由于一旦被貓抓住,游戲即將結束,因此,貓身邊的奶酪獎勵會有衰減。

我們對折扣的處理如下所示(定義gamma為衰減比例,在0-1之間):

Gamma越大,衰減越小。這意味著agent 的學習過程更關注于長期的回報。

另一方面,更小的gamma,會帶來更大的衰減。這意味著我們的agent 關心于短期的回報。

衰減后的累計獎勵期望為:

每個時間步間的獎勵將與gamma參數相乘,獲得衰減后的獎勵值。隨著時間步驟的增加,貓距離我們更近,因此為未來的獎勵概率將變得越來越小。

事件型或者持續型任務

任務是強化學習問題中的基礎單元,我們可以有兩類任務:事件型與持續型。

事件型任務

在這一情況中,我們有一個起始點和終止點(終止狀態)。這會創建一個事件:一組狀態、行為、獎勵以及新獎勵。

對于超級瑪麗的情況來說,一個事件從游戲開始進行記錄,直到角色被殺結束。

持續型任務

持續型任務意味著任務不存在終止狀態。在這一案例中,agent 將學習如何選擇最好的動作,并與環境同步交互。

例如,通過agent 進行自動股票交易。在這個任務中,并不存在起始點和終止狀態,直到我們主動終止之前,agent 將一直運行下去。

蒙特卡洛與時間差分學習方法

接下來將學習兩種方法:

蒙特卡洛方法:在事件結束后收集獎勵,進而計算未來獎勵的最大期望。

時間差分學習:在每一個時間步進行估計計算。

蒙特卡洛方法

當時間結束時(agent 達到“終止狀態”),agent 將看到全部累積獎勵,進而計算它將如何去做。在蒙特卡洛方法中,獎勵只會在游戲結束時進行收集。

從一個新游戲開始,agent 將會隨著迭代的進行,完成更好的決策。

舉例如下:

如果我們在如上環境中:

總是從相同位置開始

當被貓抓到或者移動超過20步時,事件終止。

在事件的結尾,我們得到一組狀態、行為、獎勵以及新狀態。

agent 將對整體獎勵Gt求和。

基于上面的公式對V(st)求和

根據更新的認知開始新的游戲

隨著執行的事件越來越多,agent 學習的結果將越來越好。

時間查分學習:每步更新

對于時序差分學習,不需要等到每個事件終止便可以根據未來獎勵的最大期望估計進行更新。

這種方法叫做TD(0)或者單步TD方法(在每個步驟間隔進行值函數更新)。

TD方法在每一步進行值函數評估更新。在t+1時,立刻觀察到獎勵Rt+1,并得到當前的評估值V(st+1)。

TD的目標是得到評估值,并根據單步的估計值完成前一個估計值V(st)更新。

探索/開發間的平衡

在繼續了解其他細節之前,我們必須介紹一個非常重要的主題:探索與開發之間的平衡。

探索是為了發現環境的更多信息

開發是為了根據已知信息去最大化獎勵值。

記住,我們agent 的目標是為了最大化累積獎勵的期望,然而,我們可能陷入到一個常見的陷阱中。

在游戲中,老鼠可以獲得無限的小奶酪(1次獲得1個),但在迷宮的上部,有一個超大的奶酪包裹(1次可獲得1000個)。

然而,如果我們只關注于獎勵,agent 將永遠無法達到奶酪包裹處。并且,它將會僅去探索最近的獎勵來源,即使這個獎勵特別小(開發,exploitation)。

但如果agent 進行一點小小的探索工作,就有可能獲得更大的獎勵。

這就是探索與開發的平衡問題。我們必須定義出一個規則,幫助agent 去解決這個平衡。我們將在未來文章中通過不同策略去解決這一問題。

強化學習的三種方法

現在我們定義了強化學習的主要元素,接下來將介紹三種解決強化學習問題的方法,包括基于值的方法、基于策略的方法與基于模型的方法。

基于值的方法

在基于值的強化學習方法中,目標是優化值函數V(s)。

值函數的作用是,告訴我們在每個狀態下,未來最大化的獎勵期望。

值是每個狀態條件下,從當前開始,在未來所能取得的最大總回報的值。

agent 將使用值函數去在每一步選擇采用哪個狀態。

在迷宮問題中,在每一步將選擇最大值:-7,-6,-5等等。

基于策略的方法

在基于策略的強化學習方法中,我們希望能直接優化策略函數π(s)。

策略的定義是,在給定時間的agent 行為。

通過學習到策略函數,可以讓我們對每個狀態映射出最好的相關動作。

兩種策略:

確定策略:在給定狀態下總是返回相同動作。

隨機策略:輸出一個動作的概率分布。

如同我們看到的,策略直接指出了每一步的最優行為。

基于模型的方法

在基于模型的強化學習中,我們對環境建模,這意味著我們創造了環境的模型。

問題是,每種行為都需要不同的模型表示,這就是為什么在接下來的文章中并沒有提及此類方法的原因。

深度強化學習的介紹

深度強化學習采用深度神經網絡以解決強化學習問題。

在例子中,在下一篇文章我們將采用Q-learning與深度Q-learning。

你將會看到顯著地不同,在第一種方法中,我們將使用一個傳統算法那去創建Q值表,以幫助我們找到每種狀態下應采用的行為。第二種方法中,我們將使用神經網絡(得到某狀態下的近似獎勵:Q值)。

這篇文章里有很多信息,在繼續進行之前,一定要真正掌握住基礎知識。

重點:這篇文章是這一免費的強化學習博文專欄的第一部分。關于更多的資源,見此鏈接【5】.

下一次我們將基于Q-learning訓練agent 去玩FrozenLake游戲。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 深度學習
    +關注

    關注

    73

    文章

    5510

    瀏覽量

    121347
  • 強化學習
    +關注

    關注

    4

    文章

    268

    瀏覽量

    11274
  • tensorflow
    +關注

    關注

    13

    文章

    329

    瀏覽量

    60565

原文標題:【干貨】強化學習介紹

文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    自然語言處理與機器學習的關系 自然語言處理的基本概念及步驟

    Learning,簡稱ML)是人工智能的一個核心領域,它使計算機能夠從數據中學習并做出預測或決策。自然語言處理與機器學習之間有著密切的關系,因為機器學習提供一種強大的工具,用于從大
    的頭像 發表于 12-05 15:21 ?586次閱讀

    多芯片封裝的基本概念和關鍵技術

    本文簡單介紹多芯片封裝的概念、技術、工藝以及未來發展趨勢。
    的頭像 發表于 12-04 10:59 ?641次閱讀
    多芯片封裝的<b class='flag-5'>基本概念</b>和關鍵技術

    螞蟻集團收購邊塞科技,吳翼出任強化學習實驗室首席科學家

    近日,專注于模型賽道的初創企業邊塞科技宣布被螞蟻集團收購。據悉,此次交易完成后,邊塞科技將保持獨立運營,而原投資人已全部退出。 與此同時,螞蟻集團近期宣布成立強化學習實驗室,旨在推動大模型強化學習
    的頭像 發表于 11-22 11:14 ?668次閱讀

    如何使用 PyTorch 進行強化學習

    的計算圖和自動微分功能,非常適合實現復雜的強化學習算法。 1. 環境(Environment) 在強化學習中,環境是一個抽象的概念,它定義智能體(agent)可以執行的動作(acti
    的頭像 發表于 11-05 17:34 ?344次閱讀

    Linux應用編程的基本概念

    Linux應用編程涉及到在Linux環境下開發和運行應用程序的一系列概念。以下是一些涵蓋Linux應用編程的基本概念
    的頭像 發表于 10-24 17:19 ?263次閱讀

    谷歌AlphaChip強化學習工具發布,聯發科天璣芯片率先采用

    近日,谷歌在芯片設計領域取得了重要突破,詳細介紹其用于芯片設計布局的強化學習方法,并將該模型命名為“AlphaChip”。據悉,AlphaChip有望顯著加速芯片布局規劃的設計流程,并幫助芯片在性能、功耗和面積方面實現更優表現
    的頭像 發表于 09-30 16:16 ?444次閱讀

    BP網絡的基本概念和訓練原理

    )的多層前饋神經網絡。BP網絡自1985年提出以來,因其強大的學習和適應能力,在機器學習、數據挖掘、模式識別等領域得到了廣泛應用。以下將對BP網絡的基本概念、訓練原理及其優缺點進行詳細闡述。
    的頭像 發表于 07-19 17:24 ?1754次閱讀

    卷積神經網絡的基本概念、原理及特點

    基本概念、原理、特點以及在不同領域的應用情況。 一、卷積神經網絡的基本概念 卷積神經網絡是一種深度學習算法,它由多層卷積層和池化層堆疊而成。卷積層負責提取圖像中的局部特征,而池化層則負責降低特征的空間維度,同時增加對圖像位移的
    的頭像 發表于 07-11 14:38 ?1169次閱讀

    遷移學習基本概念和實現方法

    遷移學習(Transfer Learning)是機器學習領域中的一個重要概念,其核心思想是利用在一個任務或領域中學到的知識來加速或改進另一個相關任務或領域的學習過程。這種方法在數據稀缺
    的頭像 發表于 07-04 17:30 ?1835次閱讀

    循環神經網絡的基本概念

    循環神經網絡的基本概念、循環機制、長短時記憶網絡(LSTM)、門控循環單元(GRU)等方面進行介紹。 循環神經網絡的基本概念 循環神經網絡是一種時間序列模型,其基本思想是將序列數據中的每個元素(例如,單詞、時間點等)作為輸入,通
    的頭像 發表于 07-04 14:31 ?762次閱讀

    組合邏輯控制器的基本概念、實現原理及設計方法

    廣泛應用于計算機、通信、控制等領域。 本文將詳細介紹組合邏輯控制器的基本概念、實現原理、設計方法、應用場景等方面的內容,以幫助讀者全面了解組合邏輯控制器。 基本概念 1.1 組合邏輯 組合邏輯(Combinatorial Log
    的頭像 發表于 06-30 10:26 ?2351次閱讀

    串口通信的基本概念

    串口通信(Serial Communications)的基本概念可以歸納為以下幾個方面:
    的頭像 發表于 06-12 09:28 ?758次閱讀
    串口通信的<b class='flag-5'>基本概念</b>

    通過強化學習策略進行特征選擇

    更快更好地學習。我們的想法是找到最優數量的特征和最有意義的特征。在本文中,我們將介紹并實現一種新的通過強化學習策略的特征選擇。我們先討論強化學習,尤其是馬爾可夫決策
    的頭像 發表于 06-05 08:27 ?387次閱讀
    通過<b class='flag-5'>強化學習</b>策略進行特征選擇

    圖機器學習入門:基本概念介紹

    圖機器學習(GraphMachineLearning,簡稱GraphML)是機器學習的一個分支,專注于利用圖形結構的數據。在圖形結構中,數據以圖的形式表示,其中的節點(或頂點)表示實體,邊(或鏈接
    的頭像 發表于 05-16 08:27 ?527次閱讀
    圖機器<b class='flag-5'>學習</b>入門:<b class='flag-5'>基本概念</b><b class='flag-5'>介紹</b>

    電源路徑的基本概念

    電源路徑是指電流從電源到負載的傳輸路徑。在電路中,電源是提供電能的設備,而負載則是消耗電能的設備。電源路徑的穩定性和效率對電路的性能和可靠性有著重要的影響。本文將介紹電源路徑的基本概念。 下圖展示
    的頭像 發表于 01-18 15:39 ?861次閱讀
    電源路徑的<b class='flag-5'>基本概念</b>
    主站蜘蛛池模板: www.瑟瑟| 婷婷亚洲综合五月天小说在线| 青楼社区51在线视频视频| 生活片黄色| 日本三级免费观看| 欧美色碰碰碰免费观看长视频| 免费一级特黄a| 国产一卡二卡3卡4卡四卡在线视频| 国产乱通伦| 一本一本大道香蕉久在线精品| 午夜影视网| 狠狠的干狠狠的操| 欧美3区| 九九热免费在线观看| 亚洲天堂导航| 色视频在线免费观看| 久久综合狠狠综合久久| 扒开双腿疯狂进出爽爽爽| 五月天婷婷丁香花| 国产三片高清在线观看| 国产操视频| 一级一级女人18毛片| 日韩在线免费看网站| 激情综合色综合啪啪开心| 在线色色视频| 激情五月综合| 亚洲免费二区三区| 五月婷婷电影| 久久伊人男人的天堂网站| 成人国产精品毛片| 欧美特黄一免在线观看| xxxx日本69| 午夜爽爽| 狠狠躁夜夜躁人人爽天天3 | 色福利在线| 好色999| 手机看片福利永久| 俺也来国产精品欧美在线观看| 粗又长好猛好爽| 人与牲动交bbbbxxxx| 丁香花五月婷婷开心|