在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OpenAI提出了一種方法,能夠為復雜任務生成訓練信號

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-10-26 09:34 ? 次閱讀

編者按:很多現實中的任務都有著復雜的目標或者很難詳細表述出的目標,這就很難衡量機器在此任務上的表現結果。其中一種解決辦法是,人類通過演示或判斷提供訓練信號,但是這種方法在復雜情況下很容易失效。現在,OpenAI提出了一種方法,能夠為復雜任務生成訓練信號。以下是論智對原文的編譯。

我們提出的技術稱作迭代擴增(iterated amplification),它能讓我們清楚的了解超越了人類能力的復雜行為和目標。與提供標簽數據或獎勵函數不同,我們的方法是將一個任務分解成多個更簡單的小任務。盡管這一想法還處在初級階段,而且一直在簡單的游戲算法中進行了實驗,不過我們還是決定分享出它的初期狀態,因為我們認為它將是保證AI安全非常有用的方法。

論文地址:arxiv.org/abs/1810.08575

如果我們想訓練一個機器學習系統執行任務,就需要一個訓練信號,這是一種衡量系統表現的方法,從而能幫助它更好地學習。例如,監督學習中的標簽或強化學習中的獎勵都可以看作訓練信號。機器學習的組織規則通常假設一種訓練信號已經有現成的了,我們應該關注從中學習,但是事實上,訓練信號必須從別處得到。如果沒有訓練信號,就無法學習任務。如果得到了錯誤的訓練信號,就會得到錯誤、甚至危險的行為。所以,提高生成訓練信號的能力對學習新任務和AI安全性都是有利的。

目前我們是如何生成訓練信號的呢?有時,我們想實現的目標可以用算法進行評估,例如在圍棋比賽中計算得分或者是否成功得到了一定的分數。大多數現實任務都不適合算法訓練信號,但是通常我們可以通過人類執行任務或判斷AI的性能獲得訓練信號。但是大多數任務都很復雜,人類無法進行判斷或很好地執行,它們可能具有復雜的轉接系統或者有多種安全問題。

迭代擴增就是為第二種類型的任務設計的生成訓練信號的方法。換句話說,雖然人類不能直接進行全部任務,但是我們假設他可以清楚地辨別某種任務中的各種組成部分。例如,在計算機的網絡案例中,人類可以將“保護服務器和路由器”的任務分解成“了解服務器受到的攻擊”、“了解路由器受到的攻擊”以及“這兩種攻擊如何交互”。另外,我們假設人類可以完成任務的一些很小實例,例如“辨別日志文件中可疑的特定代碼”。如果這些可以實現,那么我們就能通過人類在小任務上的訓練信號搭建大型任務的訓練信號。

在我們實施迭代擴增的過程中,我們首先對小的子任務進行采樣,訓練AI系統模擬人類示范完成任務。之后,我們開始收集稍大型的任務,解決的方法是先讓人們將其分為小部分,經過訓練的AI就能解決這些小問題。這種方法常用于稍困難的任務中,其中加入了人類的幫助,作為訓練信號來訓練AI系統解決多層任務。之后在解決更復雜的任務時,重復搭建這樣的訓練模型即可。如果這一過程可行,最終就能生成一個完全自動的解決復雜任務的系統,不論初期是否有直接的訓練信號。這一過程有點像AlphaGo Zero中使用的expert iteration,只不過expert iteration是對現有的訓練信號進行強化,而我們的iterated amplification是從零創造訓練信號。它還類似于最近的幾種學習算法,例如在測試時利用問題分解解決某個任務,但是不同的是它是在沒有先驗訓練信號的情況下操作的。

實驗

基于此前研究AI辯論的經驗,我們認為直接處理超越人類尺度的任務對一個原型項目來說太難了。同時,利用人類的實際行為作為訓練信號也比較復雜,所以我們還沒有解決這一點。在我們的第一個實驗中,我們嘗試擴大一個算法訓練信號,來證明iterated amplification可以在這一簡單的設置上工作。我們同樣將注意力限制在監督學習上。

我們在五個不同的玩具算法任務中測試了這種方法,這些任務都有直接的算法解決方案,但我們假裝不知道(例如,尋找圖中兩點之間的最短路線),不過,若想把每個片段手動組合起來就需要大量精力。我們使用迭代擴增來學習只使用片段作為訓練信號的直接算法,從而模擬人類知道如何組合解決方法片段、但沒有直接的訓練信號的情況。

在這五個任務中(排列供電、順序分配、通配符搜索、最短路徑查詢以及聯合查找),結果與直接通過監督學習解決的任務表現相當。

擴增方法和此前對AI安全的辯論研究有很多相似特征。和辯論相似的是,它也是訓練模型在人類無法完成的任務上直接執行或判斷,通過迭代過程讓人類提供間接的監督,不過具體方法并不相同。未來,我們會加入人類的反饋機制。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 函數
    +關注

    關注

    3

    文章

    4331

    瀏覽量

    62622
  • 機器學習
    +關注

    關注

    66

    文章

    8418

    瀏覽量

    132646

原文標題:任務太龐大?OpenAI用“迭代擴增”學習復雜任務

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一種基于MATLAB的WCDMA信號仿真方法

    摘要:本文以3GPP提出的3G TS25.213協議為依據,提供了一種時WCDMA物理層調制與解調的仿真方法。并通過實例, 給出了WCDMA 系統對信源消息的處理流程。為WCDMA
    發表于 07-14 11:13

    淺談一種高斯隨機噪聲生成方法

    本文提出了一種面向硬件的均值、方差的高斯隨機噪聲生成方法
    發表于 06-03 07:05

    探索一種降低ViT模型訓練成本的方法

    (1 GPU)和時間(24小時)資源下從頭開始訓練ViT模型。首先,提出了一種向ViT架構添加局部性的有效方法。其次,開發了一種新的圖像大小
    發表于 11-24 14:56

    μClinux下實時任務一種實現方法

    文中以ARM7 TDMI 處理器為例,闡述了μClinux 進程調度的原理。根據該原理,提出了一種在μClinux 平臺下實現實時任務的設計方法,這
    發表于 08-29 09:19 ?11次下載

    得到模擬應用設計經驗的一種方法

    得到模擬應用設計經驗的一種方法
    發表于 01-24 16:29 ?8次下載

    關于實時操作系統中任務間通信的一種方法

    關于實時操作系統中任務間通信的一種方法
    發表于 09-03 11:45 ?3次下載
    關于實時操作系統中<b class='flag-5'>任務</b>間通信的<b class='flag-5'>一種方法</b>

    DSP硬件驅動程序的一種方法

    DSP硬件驅動程序的一種方法
    發表于 10-19 10:48 ?1次下載
    DSP硬件驅動程序的<b class='flag-5'>一種方法</b>

    一種新的DEA公共權重生成方法

    針對傳統數據包絡分析(DEA)公共權重生成方法不同時具備線性、規模無關優點的問題,根據軍事訓練績效評估需求,提出了一種新的DEA公共權重生成方法
    發表于 01-13 11:03 ?0次下載

    從電路的角度出發,提出了一種新的SOC跨時鐘域同步電路設計的方法

    針對當前SOC內部時鐘越來越復雜、接口越來越多以及亞穩態、漏信號等常見的各種問題,分析了以往的優化方法的優缺點,然后從電路的角度出發,提出了一種
    的頭像 發表于 02-09 14:30 ?6688次閱讀
    從電路的角度出發,<b class='flag-5'>提出了</b><b class='flag-5'>一種</b>新的SOC跨時鐘域同步電路設計的<b class='flag-5'>方法</b>

    OpenAI的研究人員提出了一種全新的AI安全策略——迭代放大法

    本文提出的迭代放大,是一種在確定性假設下為后續任務生成訓練假設的方法。實際上,雖然人類不能在全局
    的頭像 發表于 10-26 10:52 ?3271次閱讀

    OpenAI提出了一種回報設置方法RND

    在開發RND之前,OpenAI的研究人員和加州大學伯克利分校的學者進行了合作,他們測試了在沒有環境特定回報的情況下,智能體的學習情況。因為從理論上來說,好奇心提供了一種更簡單的方法來教授智能體如何與各種環境進行交互,它不需要人為
    的頭像 發表于 11-05 15:15 ?3176次閱讀

    微軟在ICML 2019上提出了個全新的通用預訓練方法MASS

    專門針對序列到序列的自然語言生成任務,微軟亞洲研究院提出了新的預訓練方法:屏蔽序列到序列預訓練(MASS: Masked Sequence
    的頭像 發表于 05-11 09:19 ?3495次閱讀
    微軟在ICML 2019上<b class='flag-5'>提出了</b><b class='flag-5'>一</b>個全新的通用預<b class='flag-5'>訓練方法</b>MASS

    一種針對該文本檢索任務的BERT算法方案DR-BERT

    基于MS MARCO數據集,微軟提出了不同的任務一種是給定問題,檢索所有數據集中的文檔并進行排序,屬于文檔檢索和排序任務;另
    的頭像 發表于 08-27 18:05 ?4090次閱讀

    一種基于多任務聯合訓練的閱讀理解模型

    和理解能力。為此,提岀一種基于多任務聯合訓練的閱讀理解模型,該模型是由組功能各異的神經絡構成的聯合學習模型,其仿效人們推理和回答冋題的基本方式分別執行文檔選擇和答案抽取兩個關鍵步驟。
    發表于 03-16 11:41 ?10次下載
    <b class='flag-5'>一種</b>基于多<b class='flag-5'>任務</b>聯合<b class='flag-5'>訓練</b>的閱讀理解模型

    一種基于改進的DCGAN生成SAR圖像的方法

    針對SAR圖像識別軟件,通過改進 DCGAN模型單生成器與單判別器對抗的結構,采用多生成器與單判別器進行對抗,設計了控制各生成生成圖像平均質量的算法,
    發表于 04-23 11:01 ?21次下載
    <b class='flag-5'>一種</b>基于改進的DCGAN<b class='flag-5'>生成</b>SAR圖像的<b class='flag-5'>方法</b>
    主站蜘蛛池模板: 亚洲羞羞裸色私人影院| 国产呦系列呦交| 性欧美处| 亚洲成年人网| 国产一二精品| 国产在线综合网| 亚洲天堂资源| 国产四虎| 成人国产一区二区| 午夜爽爽视频| 成年人色网站| 黄色小网站在线观看| 四虎影视国产精品| 最新版天堂资源官网| 在线观看免费av网| 日韩在线视频一区| 天天综合视频网| 女生扒开尿口让男生舔| 免费拍拍视频| 久草3| 亚洲免费成人网| freesexvideo性欧美医生护士| 人人草草| 日本高清视频成人网www| 亚洲аv电影天堂网| 国产日本在线播放| 欧美私人网站| 人人舔| 精品福利在线观看| 五月综合色| 五月天婷婷影院| aaaaa特级毛片| 爱爱网站免费| 欧美亚洲一区二区三区在线| 久操天堂| 国产在线观看黄色| 嫩草影院国产| 1024国产手机视频基地| 日韩欧美亚洲综合一区二区| 男人天堂资源站| 天堂网www最新版在线资源|