在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

PWIL:不依賴對抗性的新型模擬學習

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2020-10-13 10:01 ? 次閱讀

強化學習 (Reinforcement Learning,RL) 是一種通過反復試驗訓練智能體 (Agent) 在復雜環境中有序決策的范式,在游戲、機器人操作和芯片設計等眾多領域都取得了巨大成功。智能體的目標通常是最大化在環境中收集的總獎勵 (Reward),這可以基于速度、好奇心、美學等各種參數。然而,由于 RL 獎勵函數難以指定或過于稀疏,想要設計具體的 RL 獎勵函數并非易事。

游戲
https://ai.googleblog.com/2019/06/introducing-google-research-football.html

這種情況下,模仿學習(Imitation Learning,IL) 方法便派上了用場,因為這種方法通過專家演示而不是精心設計的獎勵函數來學習如何完成任務。然而,最前沿 (SOTA) 的 IL 方法均依賴于對抗訓練,這種訓練使用最小化/最大化優化過程,但在算法上不穩定并且難以部署。

在“原始 Wasserstein 模仿學習”(Primal Wasserstein Imitation Learning,PWIL) 中,我們基于 Wasserstein 距離(也稱為推土機距離)的原始形式引入了一種新的 IL 方法,這種方法不依賴對抗訓練。借助 MuJoCo 任務套件,我們通過有限數量的演示(甚至是單個示例)以及與環境的有限交互來模仿模擬專家,以此證明 PWIL 方法的有效性。

原始 Wasserstein 模仿學習
https://arxiv.org/pdf/2006.04678.pdf

MuJoCo 任務套件
https://gym.openai.com/envs/#mujoco

左圖:使用任務的真實獎勵(與速度有關)訓練的算法類人機器人“專家”;右圖:使用 PWIL 基于專家演示訓練的智能體

對抗模仿學習

最前沿的對抗 IL 方法的運作方式與生成對抗網絡 (GAN) 類似:訓練生成器(策略)以最大化判別器(獎勵)的混淆度,以便判別器本身被訓練來區分智能體的狀態-動作對和專家的狀態-動作對。對抗 IL 方法可以歸結為分布匹配問題,即最小化度量空間中概率分布之間距離的問題。不過,就像 GAN 一樣,對抗 IL 方法也依賴于最小化/最大化優化問題,因此在訓練穩定性方面面臨諸多挑戰。

訓練穩定性方面面臨諸多挑戰
https://developers.google.com/machine-learning/gan/problems

模仿學習歸結為分步匹配

PWIL 方法的原理是將 IL 表示為分布匹配問題(在本例中為 Wasserstein 距離)。第一步為從演示中推斷出專家的狀態-動作分布:即專家采取的動作與相應環境狀態之間的關系的集合。接下來的目標是通過與環境的交互來最大程度地減少智能體的狀態-動作分布與專家的狀態-動作分布之間的距離。相比之下,PWIL 是一種非對抗方法,因此可繞過最小化/最大化優化問題,直接最小化智能體的狀態-動作對分布與專家的狀態-動作對分布之間的 Wasserstein 距離。

PWIL 方法

計算精確的 Wasserstein 距離會受到限制(智能體軌跡結束時才能計算出),這意味著只有在智能體與環境交互完成后才能計算獎勵。為了規避這種限制,我們為距離設置了上限,可以據此定義使用 RL 優化的獎勵。

結果表明,通過這種方式,我們確實可以還原專家的行為,并在 MuJoCo 模擬器的許多運動任務中最小化智能體與專家之間的 Wasserstein 距離。對抗 IL 方法使用來自神經網絡的獎勵函數,因此,當智能體與環境交互時,必須不斷對函數進行優化和重新估計,而 PWIL 根據專家演示離線定義一個不變的獎勵函數,并且它所需的超參數量遠遠低于基于對抗的 IL 方法。

PWIL 在類人機器人上的訓練曲線:綠色表示與專家狀態-動作分布的 Wasserstein 距離;藍色表示智能體的回報(所收集獎勵的總和)

類人機器人
https://gym.openai.com/envs/Humanoid-v2/

衡量真實模仿學習環境的相似度

與 ML 領域的眾多挑戰類似,許多 IL 方法都在合成任務上進行評估,其中通常有一種方法可以使用任務的底層獎勵函數,并且可以根據性能(即預期的獎勵總和)來衡量專家行為與智能體行為之間的相似度。

PWIL 過程中會創建一個指標,該指標可以針對任何 IL 方法。這種方法能將專家行為與智能體行為進行比較,而無需獲得真正的任務獎勵。從這個意義上講,我們可以在真正的 IL 環境中使用 Wasserstein 距離,而不僅限于合成任務。

結論

在交互成本較高的環境(例如,真實的機器人或復雜的模擬器)中,PWIL 可以作為首選方案,不僅因為它可以還原專家的行為,還因為它所定義的獎勵函數易于調整,且無需與環境交互即可定義。

這為未來的探索提供了許多機會,包括部署到實際系統、將 PWIL 擴展到只能使用演示狀態(而不是狀態和動作)的設置,以及最終將 PWIL 應用于基于視覺的觀察。

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模擬器
    +關注

    關注

    2

    文章

    879

    瀏覽量

    43301
  • 智能體
    +關注

    關注

    1

    文章

    160

    瀏覽量

    10599
  • 強化學習
    +關注

    關注

    4

    文章

    268

    瀏覽量

    11273

原文標題:PWIL:不依賴對抗性的新型模擬學習

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    魯棒性在機器學習中的重要性

    在機器學習領域,模型的魯棒性是指模型在面對輸入數據的擾動、異常值、噪聲或對抗性攻擊時,仍能保持性能的能力。隨著人工智能技術的快速發展,機器學習模型被廣泛應用于各個領域,從自動駕駛汽車到醫療診斷,再到
    的頭像 發表于 11-11 10:19 ?453次閱讀

    鑒源實驗室·如何通過雷達攻擊自動駕駛汽車-針對點云識別模型的對抗性攻擊的科普

    非常精確,它們也面臨一種新興的威脅——對抗性攻擊。 對抗性攻擊是一種通過微小但精心設計的擾動,旨在欺騙機器學習模型的攻擊方式。對于自動駕駛系統而言,這意味著通過對傳感器輸入的數據進行極小的修改,攻擊者可以導致自動駕
    的頭像 發表于 11-05 15:44 ?315次閱讀
    鑒源實驗室·如何通過雷達攻擊自動駕駛汽車-針對點云識別模型的<b class='flag-5'>對抗性</b>攻擊的科普

    分享一個跨平臺通用型GUI框架

    AAGUI是一個不依賴特定硬件、操作系統的跨平臺通用型GUI。
    的頭像 發表于 10-28 09:21 ?461次閱讀
    分享一個跨平臺通用型GUI框架

    原生鴻蒙系統正式發布,余承東宣布不依賴國外核心技術

    ’,標志著華為在移動操作系統領域邁出了堅實的一步。” 這款原生鴻蒙系統作為中國自主研發的移動操作系統,其最大的亮點在于不依賴于國外的編程語言和操作系統內核等核心技術,實現了真正的自主可控。這一突破對于提升我國在全球科技領域的競爭力具有重要意義。 然而,對于
    的頭像 發表于 10-23 10:08 ?403次閱讀

    N型插頭具備溫度抗性

    德索工程師說道溫度抗性是N型插頭設計中不可忽視的一個方面。N型插頭在使用過程中,可能會遇到各種溫度變化,包括高溫和低溫環境。如果連接器不具備足夠的溫度抗性,就可能在極端溫度下出現性能下降、材料老化、甚至損壞的情況,從而影響整個電氣系統的穩定性和安全性。
    的頭像 發表于 09-24 14:50 ?201次閱讀
    N型插頭具備溫度<b class='flag-5'>抗性</b>嗎

    FORT單元-不依賴GPS的步跟蹤定位穿戴設備@PNI

    歷史上,大多數基于傳感器的定位跟蹤系統一直受到從傳感器漂移到磁干擾和可靠性的問題的困擾,為了提供精確的位置數據,現代基于傳感器的跟蹤系統必須克服這些問題,同時提供一個高精度、低功耗的傳感器模塊,隨時隨地提供精確的精度。新的FORT現場行動遠程跟蹤正是做到這一點。FORT應用最先進的技術來確定某點精確位置——即使GPS被破壞或拒絕。FORT由PNISensor
    的頭像 發表于 09-12 08:11 ?256次閱讀
    FORT單元-<b class='flag-5'>不依賴</b>GPS的步跟蹤定位穿戴設備@PNI

    HDS-6智能型模擬斷路器使用說明

    HDS-6智能型模擬斷路器的原理HDS-6智能型模擬斷路器采用全數字電路,時間為數字撥碼設置,可實現模擬斷路器跳合閘時間設置、三相/分相操作選擇、輸入信號邏輯控制等功能,從而模擬斷路器
    的頭像 發表于 08-02 16:15 ?693次閱讀
    HDS-6智能<b class='flag-5'>型模擬</b>斷路器使用說明

    深度學習的典型模型和訓練過程

    深度學習作為人工智能領域的一個重要分支,近年來在圖像識別、語音識別、自然語言處理等多個領域取得了顯著進展。其核心在于通過構建復雜的神經網絡模型,從大規模數據中自動學習并提取特征,進而實現高效準確的預測和分類。本文將深入解讀深度學習
    的頭像 發表于 07-03 16:06 ?1598次閱讀

    VBS雷達智能對抗仿真控制系統

    智慧華盛恒輝VBS雷達智能對抗仿真控制系統 智慧華盛恒輝系統概述 智慧華盛恒輝VBS雷達智能對抗仿真控制系統是一種先進的電子戰仿真系統,旨在模擬雷達對抗環境,進行雷達信號/回波的
    的頭像 發表于 06-26 14:56 ?403次閱讀

    智能型模擬斷路器如何使用?——每日了解電力知識

    今天武漢摩恩智能電氣有限公司帶大家了解一下 ME-MT 智能型模擬斷路器 。 ME-MT 智能型模擬斷路器使用說明: 1、裝置通電 —— ? ? ?接入220V交流工作電源,合電源開關,幾秒鐘后
    的頭像 發表于 05-27 10:01 ?1263次閱讀
    智能<b class='flag-5'>型模擬</b>斷路器如何使用?——每日了解電力知識

    模擬電子電路學習教程

    電子發燒友網站提供《模擬電子電路學習教程.pdf》資料免費下載
    發表于 04-14 09:40 ?47次下載

    深度學習生成對抗網絡(GAN)全解析

    GANs真正的能力來源于它們遵循的對抗訓練模式。生成器的權重是基于判別器的損失所學習到的。因此,生成器被它生成的圖像所推動著進行訓練,很難知道生成的圖像是真的還是假的。
    發表于 03-29 14:42 ?4669次閱讀
    深度<b class='flag-5'>學習</b>生成<b class='flag-5'>對抗</b>網絡(GAN)全解析

    5V 4:1 通用型模擬多路復用器TMUX1204數據表

    電子發燒友網站提供《5V 4:1 通用型模擬多路復用器TMUX1204數據表.pdf》資料免費下載
    發表于 03-20 14:19 ?0次下載
    5V 4:1 通用<b class='flag-5'>型模擬</b>多路復用器TMUX1204數據表

    百度CEO李彥宏:不會受制于美國限制,中國AI發展仍有強大動力

    李彥宏指出,對于文心大模型這類情境,他并不依賴英偉達的尖端芯片,百度現有芯片儲備以及可采購的替代產品已能滿足大眾AI需求。
    的頭像 發表于 03-08 15:17 ?632次閱讀

    隨機通信下多智能體系統的干擾攻擊影響研究

    網絡控制系統可能會受到不同類型的網絡攻擊威脅[10-12],主要包括拒絕服務(denial of service, DoS)攻擊[7]、欺騙攻擊[8]、干擾攻擊[9]等。文獻[10]研究了一類對抗性攻擊下網絡物理系統的安全評估與控制問題,且控制信號在被發送到執行器的過程中可被攻擊者惡意篡改。
    發表于 03-01 11:00 ?622次閱讀
    隨機通信下多智能體系統的干擾攻擊影響研究
    主站蜘蛛池模板: 你懂的在线视频观看| 久久影视精品| 伊人7| v视界影院最新地址| 欧美乱强性伦xxxxx| 夜夜操狠狠干| 亚洲国产午夜精品理论片的软件| 夜夜干天天操| 欧美影院入口| 夜色321看片资源站| 精品视频在线观看视频免费视频| 久久天天躁夜夜躁狠狠| 2021久久精品99精品久久| 女69porin18| 免费的黄视频| 深夜动态福利gif进出粗暴| 狠狠干狠狠艹| 视频一区二区在线观看| 成人综合婷婷国产精品久久免费| 色爱区综合五月激情| 搞黄视频网站| 午夜伦伦| 欧美刺激午夜性久久久久久久| 欧洲综合色| 日韩在线网| 色天使网| 看真人一一级毛片| free 欧美| 美妇乱人伦性| 中年艳妇乱小玩| 第四色成人网| 综合涩| 日本免费高清| 你懂得在线网址| 国产美女视频免费| 手机午夜看片| 综合五月激情| 一级一级特黄女人精品毛片| 欧美一级片网站| 在线国产播放| 人人九九精|