在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

量化深度強化學習算法的泛化能力

mK5P_AItists ? 來源:陳翠 ? 2019-01-01 09:22 ? 次閱讀

OpenAI近期發布了一個新的訓練環境 CoinRun,它提供了一個度量智能體將其學習經驗活學活用到新情況的能力指標,而且還可以解決一項長期存在于強化學習中的疑難問題——即使是廣受贊譽的強化算法在訓練過程中也總是沒有運用監督學習的技術,例如 Dropout 和 Batch Normalization。但是在 CoinRun的泛化機制中,OpenAI的研究人員們發現這些方法其實有用,并且他們更早開發的強化學習會對特定的 MDP過擬合。 CoinRun 在復雜性方面取得了令人滿意的平衡:這個環境比傳統平臺游戲如《刺猬索尼克》要簡單得多,但它仍是對現有算法的泛化性的有難度的挑戰。

量化深度強化學習算法的泛化能力

量化深度強化學習算法的泛化能力

泛化挑戰

任務間的泛化一直是當前深度強化學習(RL)算法的難點。雖然智能體經過訓練后可以解決復雜的任務,但他們很難將習得經驗轉移到新的環境中。即使人們知道強化學習智能體傾向于過擬合——也就是說,不是學習通用技能,而更依賴于他們環境的細節——強化學習智能體始終是通過評估他們所訓練的環境來進行基準測試。這就好比,在監督學習中對你的訓練集進行測試一樣!

之前的強化學習研究中已經使用了Sonic游戲基準、程序生成的網格世界迷宮,以及通用化設計的電子游戲 AI 框架來解決這個問題。在所有情況下,泛化都是通過在不同級別集合上的訓練和測試智能體來進行度量的。在OpenAI的測試中,在 Sonic游戲基準中受過訓練的智能體在訓練關卡上表現出色,但是如果不經過精細調節(fine-tuning)的話,在測試關卡中仍然會表現不佳。在類似的過擬合顯示中,在程序生成的迷宮中訓練的智能體學會了記憶大量的訓練關卡,而 GVG-AI 智能體在訓練期間未見過的難度設置下表現不佳。

游戲規則

CoinRun 是為現有算法而設計的一個有希望被解決的場景,它模仿了Sonic等平臺游戲的風格。CoinRun 的關卡是程序生成的,使智能體可以訪問大量且易于量化的訓練數據。每個 CoinRun 關卡的目標很簡單:越過幾個或靜止或非靜止的障礙物,并收集到位于關卡末尾的一枚硬幣。 如果碰撞到障礙物,智能體就會立即死亡。環境中唯一的獎勵是通過收集硬幣獲得的,而這個獎勵是一個固定的正常數。 當智能體死亡、硬幣被收集或經過1000個時間步驟后,等級終止。

每個關卡的 CoinRun 設置難度從 1 到 3 .上面顯示了兩種不同的關卡:難度-1(左)和難度-3(右)

評估泛化

OpenAI 訓練了 9個智能體來玩 CoinRun,每個智能體都有不同數量的可用訓練關卡。其中 8個智能體的訓練關卡數目從 100 到 16000 不等,最后一個智能體的關卡數目不受限制,因此它也永遠不會經歷相同的訓練關卡。OpenAI使用一個常見的 3 層卷積網絡架構(他們稱之為Nature-CNN),在其上訓練智能體的策略。他們使用近端策略優化(PPO)對智能體進行了訓練,總共完成了 256M 的時間步驟。由于每輪訓練平均持續 100 個時間步驟,具有固定訓練集的智能體將會看到每個相同的訓練級別數千到數百萬次。而最后那一個不受限制的智能體,經過不受限制的集合訓練,則會看到約 200 萬個不同的關卡,每個關卡一次。

OpenAI收集了數據并繪制出了下面的圖,每個點表示智能體在 10000輪訓練中的表現的平均值。在測試時使用智能體進行從未見過的關卡。他們發現,當訓練關卡數目低于 4000 時,就會出現嚴重的過擬合。事實上,即使有 16000 個關卡的訓練,仍會出現過擬合現象!不出所料,接受了不受限水平訓練的智能體表現最好,因為它可以訪問最多的數據。這些智能體用下圖中的虛線表示。

他們將 Nature-CNN 基線與 IMPALA 中使用的卷積網絡進行了比較,發現 IMPALA- cnn 智能體在任何訓練集下的泛化效果都要好得多,如下所示。

量化深度強化學習算法的泛化能力

(左)最終訓練和測試cnn - nature agent的性能,經過256M的時間步長,橫軸是訓練關卡數目。

(右)最終訓練并測試IMPALA-CNN agent的性能,經過256M的時間步長,橫軸是訓練關卡數目

提高泛化性能

在接下來的實驗中,OpenAI 使用了 500 個CoinRun級別的固定訓練集。OpenAI的基準智能體在如此少的關卡數目上泛化,這使它成為一個理想的基準訓練集。他們鼓勵其他人通過在相同的 500 個關卡上進行訓練來評估他們自己的方法,直接比較測試時的性能。 利用該訓練集,他們研究了幾種正則化技術的影響:

dropout (當一個復雜的前饋神經網絡在小的數據集上訓練時容易造成過擬合。為了防止這種情況的發生,可以通過在不同的時候讓不同的特征檢測器不參與訓練的做法來提高神經網絡的性能)和 L2批量正則化(就是在深度神經網絡訓練過程中,讓每一層神經網絡的輸入都保持相同分布的批標準化):兩者都帶來了更好的泛化性能,而 L2 正則化的影響更大

數據增強和批量標準化:數據增強和批量標準化都顯著改善了泛化。

環境隨機性:與前面提到的任何一種技術相比,具有隨機性的訓練在更大程度上改善了泛化(詳見論文https://arxiv.org/abs/1812.02341)。

量化深度強化學習算法的泛化能力

額外的環境

OpenAI 還開發了另外兩個環境來研究過擬合:一個名為 CoinRun-Platforms的 CoinRun 變體和一個名為 RandomMazes 的簡單迷宮導航環境。 在這些實驗中,他們使用了原始的 IMPALA-CNN 架構和 LSTM,因為他們需要足夠的內存來保證在這些環境中良好地運行。

在 CoinRun-Platforms 中,智能體試圖在 1000 步時限內收集幾個硬幣。硬幣被隨機地分散在關卡的不同平臺上。在 CoinRun-Platforms 中,關卡更大、更固定,因此智能體必須更積極地探索,偶爾還要回溯其步驟。

量化深度強化學習算法的泛化能力

在 CoinRun-Platforms 上經過 20 億個時間步驟后的最終訓練和測試性能,橫軸是訓練關卡數目

當他們在基線智能體實驗中測試運行 CoinRun-Platforms和 RandomMazes 時,智能體在所有情況下都非常嚴重過擬合。在 RandomMazes中,他們觀察到特別強的過擬合,因為即使使用 20,000 個訓練關卡是,仍然與無限關卡的智能體存在相當大的泛化差距。

RandomMazes中的一個級別,顯示智能體的觀察空間(左)。橫軸是訓練關卡數目

下一步

OpenAI 的結果再次揭示了強化學習中潛在的問題。使用程序生成的 CoinRun 環境可以精確地量化這種過擬合。有了這個度量,研究人員們可以更好地評估關鍵的體系結構和算法決策。他相信,從這個環境中吸取的經驗教訓將適用于更復雜的環境,他們希望使用這個基準,以及其他類似的基準,向具有通用泛化能力的智能體迭代前進。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 學習算法
    +關注

    關注

    0

    文章

    15

    瀏覽量

    7486

原文標題:學界 | 量化深度強化學習算法的泛化能力

文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    什么是深度強化學習?深度強化學習算法應用分析

    什么是深度強化學習? 眾所周知,人類擅長解決各種挑戰性的問題,從低級的運動控制(如:步行、跑步、打網球)到高級的認知任務。
    發表于 07-01 10:29 ?1500次閱讀
    什么是<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>?<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b><b class='flag-5'>算法</b>應用分析

    深度學習DeepLearning實戰

    一:深度學習DeepLearning實戰時間地點:1 月 15日— 1 月18 日二:深度強化學習核心技術實戰時間地點: 1 月 27 日— 1 月30 日(第一天報到 授課三天;提前
    發表于 01-09 17:01

    深度強化學習實戰

    一:深度學習DeepLearning實戰時間地點:1 月 15日— 1 月18 日二:深度強化學習核心技術實戰時間地點: 1 月 27 日— 1 月30 日(第一天報到 授課三天;提前
    發表于 01-10 13:42

    深度學習強化學習相結合的深度強化學習DRL

    深度強化學習DRL自提出以來, 已在理論和應用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學習DRL研發的AlphaGo,將
    發表于 06-29 18:36 ?2.8w次閱讀

    基于強化學習的MADDPG算法原理及實現

    之前接觸的強化學習算法都是單個智能體的強化學習算法,但是也有很多重要的應用場景牽涉到多個智能體之間的交互。
    的頭像 發表于 11-02 16:18 ?2.2w次閱讀

    深度強化學習到底是什么?它的工作原理是怎么樣的

    深度學習DL是機器學習中一種基于對數據進行表征學習的方法。深度學習DL有監督和非監督之分,都已經
    的頭像 發表于 06-13 11:39 ?6096次閱讀

    83篇文獻、萬字總結強化學習之路

    深度強化學習深度學習強化學習相結合的產物,它集成了深度
    的頭像 發表于 12-10 18:32 ?600次閱讀

    機器學習中的無模型強化學習算法及研究綜述

    強化學習( Reinforcement learning,RL)作為機器學習領域中與監督學習、無監督學習并列的第三種學習范式,通過與環境進行
    發表于 04-08 11:41 ?11次下載
    機器<b class='flag-5'>學習</b>中的無模型<b class='flag-5'>強化學習</b><b class='flag-5'>算法</b>及研究綜述

    模型深度強化學習應用研究綜述

    深度強化學習(DRL)作為機器學習的重要分攴,在 Alphago擊敗人類后受到了廣泛關注。DRL以種試錯機制與環境進行交互,并通過最大化累積獎賞最終得到最優策略。強化學習可分為無模型
    發表于 04-12 11:01 ?9次下載
    模型<b class='flag-5'>化</b><b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>應用研究綜述

    基于深度強化學習仿真集成的壓邊力控制模型

    壓邊為改善板料拉深制造的成品質量,釆用深度強化學習的方法進行拉深過程旳壓邊力優化控制。提岀一種基于深度強化學習與有限元仿真集成的壓邊力控制模型,結合
    發表于 05-27 10:32 ?0次下載

    一種新型的多智能體深度強化學習算法

    一種新型的多智能體深度強化學習算法
    發表于 06-23 10:42 ?36次下載

    基于深度強化學習的無人機控制律設計方法

    基于深度強化學習的無人機控制律設計方法
    發表于 06-23 14:59 ?46次下載

    《自動化學報》—多Agent深度強化學習綜述

    突破.由于融合了深度學習強大的表征能力強化學習有效的策略搜索能力,深度
    發表于 01-18 10:08 ?1644次閱讀
    《自動<b class='flag-5'>化學</b>報》—多Agent<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>綜述

    ESP32上的深度強化學習

    電子發燒友網站提供《ESP32上的深度強化學習.zip》資料免費下載
    發表于 12-27 10:31 ?0次下載
    ESP32上的<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>

    基于強化學習的目標檢測算法案例

    摘要:基于強化學習的目標檢測算法在檢測過程中通常采用預定義搜索行為,其產生的候選區域形狀和尺寸變化單一,導致目標檢測精確度較低。為此,在基于深度強化學習的視覺目標檢測
    發表于 07-19 14:35 ?0次下載
    主站蜘蛛池模板: 天堂最新版| 日日射夜夜| 中日韩黄色大片| 性欧美1819| 欧美性hd| 福利精品| 欧美夜夜| 天天干天天夜| 久久午夜视频| 色综合久久88| 国产无套视频在线观看香蕉| 手机看片1024欧美| 国产美女久久久| 欧美51| 久久免费精品国产72精品剧情| 免费亚洲成人| 国产手机在线国内精品| 真实子伦视频不卡| 奇米888在线看奇米999| 91福利视频网| 干干人人| 亚洲日本一区二区| 37pao强力打造免费高速高清 | 波多野结衣在线视频观看| 天天色天天| caopon在线| 李丽莎尤物福利视频| 色妞视频资源在线观看| 四虎在线观看| 四虎永久在线精品免费观看地址| 日本动漫天堂| 大香伊人网| 久久久美女视频| 日本欧美一区二区三区视频| 午夜日韩精品| 九九全国免费视频| 国产日本三级| 丁香六月在线| 尻逼尻逼| 国产一区国产二区国产三区| 色视频免费看|