在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

我們的「世界模型」可實(shí)現(xiàn)在其夢(mèng)境中對(duì)智能體進(jìn)行快速訓(xùn)練

mK5P_AItists ? 2018-04-02 09:58 ? 次閱讀

我們探索構(gòu)建通用強(qiáng)化學(xué)習(xí)環(huán)境中的生成式神經(jīng)網(wǎng)絡(luò)模型。我們的世界模型(world model)可以以一種無(wú)監(jiān)督的方式進(jìn)行快速訓(xùn)練,以學(xué)習(xí)環(huán)境的壓縮時(shí)空表征。通過(guò)使用從世界模型中提取的特征作為智能體的輸入,我們可以對(duì)一個(gè)非常簡(jiǎn)潔且簡(jiǎn)單的策略進(jìn)行訓(xùn)練,以解決所需的任務(wù)。我們甚至可以在一個(gè)完全由智能體本身的世界模型所生成的夢(mèng)幻夢(mèng)境中對(duì)智能體進(jìn)行訓(xùn)練,并將此策略遷移回實(shí)際環(huán)境中。

人類根據(jù)他們使用有限的感官對(duì)世界的感知,開(kāi)發(fā)出一個(gè)有關(guān)世界的心智模型。而我們所做的決策和行動(dòng)都是基于這種內(nèi)部模型的。系統(tǒng)動(dòng)力學(xué)之父——Jay Wright Forrester將心智模型定義為:

我們腦海中所承載的有關(guān)周圍世界的圖像,只是一個(gè)模型。世界上沒(méi)有一個(gè)人能夠在其腦海中對(duì)全部的世界、政府或國(guó)家進(jìn)行透徹的想象。他只是選擇了概念,以及它們之間的關(guān)系,并用它們來(lái)表示真實(shí)的系統(tǒng)。(Forrester于1971年提出)

為了處理流經(jīng)我們?nèi)粘I钪械拇罅?a target="_blank">信息,我們的大腦學(xué)習(xí)對(duì)這些信息進(jìn)行時(shí)空方面的抽象表征。我們能夠觀察一個(gè)場(chǎng)景,并記住有關(guān)它的一個(gè)抽象描述(Cheang和Tsao于2017年、Quiroga等人于2005年提出)。還有證據(jù)表明,我們?cè)谌魏翁囟〞r(shí)刻所感知的事物,都是由我們的大腦基于內(nèi)部模型對(duì)未來(lái)做出的預(yù)測(cè)所掌控的(Nortmann等人于2015年、Gerrit等人于2013年提出)。

理解我們大腦中的預(yù)測(cè)模型的一種方法是,它可能不是僅僅預(yù)測(cè)未來(lái)的一般情況,而是根據(jù)當(dāng)前的運(yùn)動(dòng)動(dòng)作預(yù)測(cè)未來(lái)的感官數(shù)據(jù)(Keller等人于2012年、Leinweber等人于2017年提出)。當(dāng)我們面臨危險(xiǎn)時(shí),我們能夠本能地依據(jù)這個(gè)預(yù)測(cè)模型采取相應(yīng)的行動(dòng),并執(zhí)行快速的反射行為(Mobbs等人于2015年提出),而無(wú)需有意識(shí)地規(guī)劃出行動(dòng)計(jì)劃。

我們所看到的事物是基于我們大腦對(duì)未來(lái)進(jìn)行的預(yù)測(cè)(Kitaoka于2002年、Watanabe等人于2018年提出)

以棒球?yàn)槔R粋€(gè)擊球手只有幾毫秒的時(shí)間來(lái)決定該如何揮棒擊球,讓這要比視覺(jué)信號(hào)到達(dá)我們的大腦所需的時(shí)間短得多。他們之所以能夠打出每小時(shí)115英里的快速球,是因?yàn)槲覀冇心芰Ρ灸艿仡A(yù)測(cè)出球?qū)⒑螘r(shí)何地走向何方。對(duì)于職業(yè)球員來(lái)說(shuō),這一切都是在潛意識(shí)中發(fā)生的。他們的肌肉在適當(dāng)?shù)臅r(shí)間和地點(diǎn)按照他們的內(nèi)部模型的預(yù)測(cè)反射性地?fù)]棒擊球(Gerrit 等人于2013年提出)。他們可以迅速根據(jù)自身對(duì)未來(lái)的預(yù)測(cè)采取行動(dòng),而無(wú)需有意識(shí)地將可能的未來(lái)場(chǎng)景鋪展開(kāi)以進(jìn)行規(guī)劃(Hirshon于2013年提出)。

在許多強(qiáng)化學(xué)習(xí)(RL)(Kaelbling等人于1996年、Sutton和Barto于1998年、Wiering和van Otterlo于2012年提出)問(wèn)題中,人工智能體也受益于具有良好的對(duì)過(guò)去和現(xiàn)在狀態(tài)的表征,以及良好的對(duì)未來(lái)的預(yù)測(cè)模型(Werbos等人于1987年、Silver于2017年提出),最好是在通用計(jì)算機(jī)上實(shí)現(xiàn)的強(qiáng)大的預(yù)測(cè)模型,如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)(Schmidhuber于1990、 1991年提出)。

大型RNN是具有高度表達(dá)性的模型,可以學(xué)習(xí)數(shù)據(jù)的豐富的時(shí)空表征。然而,在以往的研究中,許多無(wú)模型強(qiáng)化學(xué)習(xí)方法通常只使用參數(shù)很少的小型神經(jīng)網(wǎng)絡(luò)。強(qiáng)化學(xué)習(xí)算法常常具有信用分配問(wèn)題(credit assignment problem)的局限性,這使得傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法難以學(xué)習(xí)大型模型的數(shù)百萬(wàn)個(gè)權(quán)重,因此,在實(shí)踐中往往使用較小的網(wǎng)絡(luò),因?yàn)樗鼈冊(cè)谟?xùn)練期間能夠更快地迭代形成一個(gè)良好的策略。

在這項(xiàng)研究中,我們構(gòu)建了OpenAI Gym環(huán)境的概率生成模型。使用從實(shí)際游戲環(huán)境中收集的記錄觀測(cè)值對(duì)基于RNN的世界模型進(jìn)行訓(xùn)練。對(duì)世界模型進(jìn)行訓(xùn)練之后,我們可以使用它們來(lái)模擬完整的環(huán)境并訓(xùn)練對(duì)智能體進(jìn)行訓(xùn)練

理想情況下,我們希望能夠有效地對(duì)基于RNN的大型智能體進(jìn)行訓(xùn)練。反向傳播算法(Linnainmaa于1970年、Kelley于1960年、Werbos于1982年提出)可以用來(lái)對(duì)大型神經(jīng)網(wǎng)絡(luò)進(jìn)行有效的訓(xùn)練。在這項(xiàng)研究中,我們通過(guò)將智能體分為一個(gè)大的世界模型和一個(gè)小的控制器模型,從而對(duì)大型神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練以解決強(qiáng)化學(xué)習(xí)任務(wù)。首先,我們對(duì)大型神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以無(wú)監(jiān)督的方式學(xué)習(xí)智能體的世界模型,然后訓(xùn)練較小的控制器模型,學(xué)習(xí)使用這個(gè)世界模型執(zhí)行任務(wù)。一個(gè)小型控制器讓訓(xùn)練算法專注于小型搜索空間上的信用分配問(wèn)題,同時(shí)不會(huì)以大的世界模型的容量和表現(xiàn)力為代價(jià)。通過(guò)智能體世界模型的視角對(duì)智能體進(jìn)行訓(xùn)練,我們表明,它可以學(xué)習(xí)一個(gè)高度緊湊的策略以執(zhí)行其任務(wù)。

雖然有大量關(guān)于基于模型的強(qiáng)化學(xué)習(xí)的研究,但本文并不是對(duì)該領(lǐng)域當(dāng)前狀態(tài)的評(píng)述(Arulkumaran等人于2017年、Schmidhuber于2015年提出)。相反,本文的目標(biāo)是從1990—2015年關(guān)于基于RNN的世界模型和控制器組合的一系列論文中提煉若干個(gè)關(guān)鍵概念(Schmidhuber于1990年、1991年、1990年、2015年提出)。

我們證明了在模擬潛在空間夢(mèng)境中訓(xùn)練智能體執(zhí)行任務(wù)的可能性。這一方法擁有許多切實(shí)優(yōu)點(diǎn)。例如,在運(yùn)行計(jì)算密集型游戲引擎時(shí),需要使用大量的計(jì)算資源來(lái)將游戲狀態(tài)渲染到圖像幀中,或計(jì)算與游戲不直接相關(guān)的物理量。相信我們都不情愿在現(xiàn)實(shí)環(huán)境中浪費(fèi)訓(xùn)練智能體的周期,而是更樂(lè)意在模擬環(huán)境中盡可能多地訓(xùn)練智能體。此外,在現(xiàn)實(shí)世界中訓(xùn)練智能體的代價(jià)甚至更大,因此,漸進(jìn)式地進(jìn)行訓(xùn)練以模擬現(xiàn)實(shí)的世界模型可以更容易地嘗試使用不同方法來(lái)訓(xùn)練我們的智能體。

此外,我們可以利用深度學(xué)習(xí)框架,在分布式環(huán)境中使用GPU,從而加速世界模型的模擬。將世界模型作為一個(gè)完全可微的循環(huán)計(jì)算圖的好處在于,我們可以直接在夢(mèng)境中使用反向傳播算法對(duì)其策略進(jìn)行微調(diào),從而實(shí)現(xiàn)目標(biāo)函數(shù)最大化(Schmidhuber于上世紀(jì)90年代提出)。

對(duì)視覺(jué)模型V使用VAE并將其作為獨(dú)立模型進(jìn)行訓(xùn)練也存在局限性,因?yàn)樗赡軙?huì)對(duì)與任務(wù)無(wú)關(guān)的部分觀測(cè)進(jìn)行編碼。畢竟,根據(jù)定義來(lái)看,無(wú)監(jiān)督學(xué)習(xí)不知道哪些是對(duì)當(dāng)前任務(wù)有用的。例如,在Doom環(huán)境中,它在側(cè)墻上復(fù)制了不重要的詳細(xì)磚瓦圖案,但在賽車環(huán)境中,它沒(méi)有在道路上復(fù)制與任務(wù)相關(guān)的磚瓦圖案。通過(guò)與預(yù)測(cè)獎(jiǎng)勵(lì)的M模型一起訓(xùn)練,VAE可以學(xué)習(xí)專注于圖像中與任務(wù)相關(guān)的領(lǐng)域,但這里需要權(quán)衡的一點(diǎn)是,如果不進(jìn)行重復(fù)訓(xùn)練,那么我們或許就不能有效地利用VAE再次執(zhí)行新任務(wù)。

學(xué)習(xí)任務(wù)的相關(guān)特性也與神經(jīng)科學(xué)有所關(guān)聯(lián)。當(dāng)受到獎(jiǎng)勵(lì)時(shí),基本感覺(jué)神經(jīng)元便會(huì)從抑制中釋放出來(lái),這意味著它們通常僅學(xué)習(xí)與任務(wù)相關(guān)的特征,而非任何特征,至少自在成年期是這樣的(Pi等人于2013年提出)。

今后的工作可能會(huì)探討如何使用無(wú)監(jiān)督分割層(Byravan等人于2017年提出)來(lái)提取更好的特征表征,這與所學(xué)習(xí)的VAE表征相比具有更好的實(shí)用性和可解釋性。

另一個(gè)令人關(guān)切的問(wèn)題是,我們世界模型的容量有限。盡管現(xiàn)代存儲(chǔ)設(shè)備可以存儲(chǔ)使用迭代訓(xùn)練過(guò)程生成的大量歷史數(shù)據(jù),但我們基于長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)(Hochreiter和Schmidhuber于1997年提出;Gers等人于2000年提出)的世界模型可能無(wú)法在其權(quán)重連接中存儲(chǔ)所有記錄的信息。雖然人類的大腦可以保存幾十年甚至幾個(gè)世紀(jì)的記憶(Bartol等人于2015年提出),但我們通過(guò)反向傳播訓(xùn)練的神經(jīng)網(wǎng)絡(luò)容量有限,并受災(zāi)難性遺忘等問(wèn)題的影響(Ratcliver 于1990年,F(xiàn)rench于1994年,Kirkpatrick等人于2016年提出)。如果我們希望智能體學(xué)會(huì)探索更復(fù)雜的世界,那么今后可以探索用更高容量的模型取代小型MDNRNN網(wǎng)絡(luò)(Shazeer等人于2017年,Ha等人于2016年,Suarez等人于2017年,van den Oord等人于2016年,Vaswani等人于2017年提出),或加入外部記憶模塊(Gemici等人于2017年提出)。

基于RNN的控制器與環(huán)境交互的古代繪圖(Schmidhuber于1990年提出)

就像早期基于RNN的C-M系統(tǒng)一樣(Schmidhuber等人于上世紀(jì)90年代提出),我們模擬了可能的未來(lái)時(shí)間步長(zhǎng),而沒(méi)有從人類的層次化規(guī)劃或抽象推理中獲益,這往往忽略了不相關(guān)的時(shí)空細(xì)節(jié)。然而,更常見(jiàn)的“學(xué)會(huì)思考”(Schidhuber于2015年提出)方法并不局限于這種相當(dāng)幼稚的方法。相反,它允許循環(huán)C學(xué)習(xí)循環(huán)M的子例程,并重用它們以任意的計(jì)算方式解決問(wèn)題,例如,通過(guò)層次化規(guī)劃或利用類似M的程序權(quán)重矩陣的其他部分。近期,One Big Net(Schmidhuber,2018年)擴(kuò)展了C-M方法,它將C和M合并成一個(gè)網(wǎng)絡(luò),并使用類似Power Play的行為回放(Schmidhuber于2013,Srivastava等人于2012年提出)(其中教師網(wǎng)絡(luò)(teacher net)的行為被壓縮成學(xué)生網(wǎng)絡(luò)(student net)(Schmidhuber于1992年提出)),以避免在學(xué)習(xí)新網(wǎng)絡(luò)時(shí)忘記舊的預(yù)測(cè)和控制技能。這些具有更通用方法的實(shí)驗(yàn)在未來(lái)有待進(jìn)一步研究。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4619

    瀏覽量

    93039
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7515

    瀏覽量

    88179
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    267

    瀏覽量

    11266
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

    訓(xùn)練數(shù)據(jù)時(shí),數(shù)量、質(zhì)量和多樣性三者缺一不可。 數(shù)據(jù)的多樣性對(duì)于大語(yǔ)言模型至關(guān)重要,這主要體現(xiàn)在數(shù)據(jù)的類別和來(lái)源兩個(gè)方面。豐富的數(shù)據(jù)類別能夠提供多樣的語(yǔ)言表達(dá)特征,如官方知識(shí)型數(shù)據(jù)、口語(yǔ)化表達(dá)的論壇
    發(fā)表于 05-07 17:10

    【「大模型啟示錄」閱讀體驗(yàn)】+開(kāi)啟智能時(shí)代的新鑰匙

    閱讀之旅。在翻開(kāi)這本書之前,我對(duì)大模型的認(rèn)知僅僅停留在它是一種強(qiáng)大的人工智能技術(shù),可以進(jìn)行自然語(yǔ)言處理、圖像識(shí)別等任務(wù)。我知道像 ChatGPT 這樣的應(yīng)用是基于大模型開(kāi)發(fā)的,能夠與人
    發(fā)表于 12-24 13:10

    《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

    的應(yīng)用。MAML算法通過(guò)二階優(yōu)化找到對(duì)任務(wù)變化敏感的模型參數(shù),實(shí)現(xiàn)快速適應(yīng)。上下文學(xué)習(xí)則引入了注意力機(jī)制,使模型能夠根據(jù)當(dāng)前場(chǎng)景動(dòng)態(tài)調(diào)整行為策略。在預(yù)
    發(fā)表于 12-24 15:03

    選手SHOW|我們想做的,是讓你卸下心防的AI

    「AI大學(xué)·未來(lái)課棧@成都棧」,與科大訊飛工作人員溝通,提到了這一問(wèn)題,很快就得到了解決。”虛實(shí)夢(mèng)境團(tuán)隊(duì)介紹道。人工智能虛擬醫(yī)生語(yǔ)音識(shí)別準(zhǔn)確率不高的解決方案是,將原先的通用語(yǔ)音識(shí)別模型
    發(fā)表于 07-09 09:15

    Pytorch模型訓(xùn)練實(shí)用PDF教程【中文】

    本教程以實(shí)際應(yīng)用、工程開(kāi)發(fā)為目的,著重介紹模型訓(xùn)練過(guò)程中遇到的實(shí)際問(wèn)題和方法。在機(jī)器學(xué)習(xí)模型開(kāi)發(fā),主要涉及三大部分,分別是數(shù)據(jù)、模型和損失
    發(fā)表于 12-21 09:18

    基于Keras利用訓(xùn)練好的hdf5模型進(jìn)行目標(biāo)檢測(cè)實(shí)現(xiàn)輸出模型的表情或性別gradcam

    CV:基于Keras利用訓(xùn)練好的hdf5模型進(jìn)行目標(biāo)檢測(cè)實(shí)現(xiàn)輸出模型的臉部表情或性別的grad
    發(fā)表于 12-27 16:48

    模型是數(shù)字世界與物理世界連接的橋梁

    、開(kāi)環(huán)、有跳舞輥、伺服電機(jī)調(diào)節(jié)等)的模型及其參數(shù)驗(yàn)證,然后封裝為復(fù)用的共性組件,在應(yīng)用開(kāi)發(fā),直接配置其模式、參數(shù)等,加速機(jī)器的配置,響應(yīng)快速的市場(chǎng)變化需求。圖4-建模仿帶來(lái)的好處因
    發(fā)表于 05-01 08:44

    基于HarmonyOS開(kāi)發(fā)的運(yùn)動(dòng)員智能訓(xùn)練系統(tǒng)

    ,展示在手機(jī)界面智能運(yùn)動(dòng)APP 使用了HUAWEI DevEco Studio 開(kāi)發(fā)的,選擇了JS語(yǔ)言進(jìn)行編寫,通過(guò)fetch方法請(qǐng)求華為云服務(wù)器中使用Spring Boot編寫的數(shù)據(jù)接口,
    發(fā)表于 06-29 09:39

    智能維修訓(xùn)練系統(tǒng)模型的設(shè)計(jì)與實(shí)現(xiàn)

             介紹了基于事例的智能維修訓(xùn)練系統(tǒng)中學(xué)生模型的結(jié)構(gòu)組成和實(shí)現(xiàn)方法。該
    發(fā)表于 09-15 10:11 ?14次下載

    如何使用NVIDIA TAO快速準(zhǔn)確地訓(xùn)練AI模型

    利用 NVIDIA TLT 快速準(zhǔn)確地訓(xùn)練人工智能模型的探索表明,人工智能在工業(yè)過(guò)程具有巨大的
    的頭像 發(fā)表于 04-20 17:45 ?2827次閱讀
    如何使用NVIDIA TAO<b class='flag-5'>快速</b>準(zhǔn)確地<b class='flag-5'>訓(xùn)練</b>AI<b class='flag-5'>模型</b>

    什么是預(yù)訓(xùn)練 AI 模型?

    預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用,也可以根據(jù)不同行業(yè)的應(yīng)用需求
    的頭像 發(fā)表于 04-04 01:45 ?1465次閱讀

    NLP的遷移學(xué)習(xí):利用預(yù)訓(xùn)練模型進(jìn)行文本分類

    遷移學(xué)習(xí)徹底改變了自然語(yǔ)言處理(NLP)領(lǐng)域,允許從業(yè)者利用預(yù)先訓(xùn)練模型來(lái)完成自己的任務(wù),從而大大減少了訓(xùn)練時(shí)間和計(jì)算資源。在本文中,我們將討論遷移學(xué)習(xí)的概念,探索一些流行的預(yù)
    發(fā)表于 06-14 09:30 ?459次閱讀

    使用OpenVINO優(yōu)化并部署訓(xùn)練好的YOLOv7模型

    在《英特爾銳炫 顯卡+ oneAPI 和 OpenVINO 實(shí)現(xiàn)英特爾 視頻 AI 計(jì)算盒訓(xùn)推一-上篇》一文,我們詳細(xì)介紹基于英特爾 獨(dú)立顯卡搭建 YOLOv7
    的頭像 發(fā)表于 08-25 11:08 ?1543次閱讀
    使用OpenVINO優(yōu)化并部署<b class='flag-5'>訓(xùn)練</b>好的YOLOv7<b class='flag-5'>模型</b>

    python訓(xùn)練出的模型怎么調(diào)用

    在Python,訓(xùn)練出的模型可以通過(guò)多種方式進(jìn)行調(diào)用。 1. 模型保存與加載 在Python
    的頭像 發(fā)表于 07-11 10:15 ?2040次閱讀

    什么是大模型、大模型是怎么訓(xùn)練出來(lái)的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型是一個(gè)簡(jiǎn)稱,完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練模型”。預(yù)訓(xùn)練,是一項(xiàng)技
    的頭像 發(fā)表于 11-25 09:29 ?1773次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來(lái)的及大<b class='flag-5'>模型</b>作用
    主站蜘蛛池模板: 欧美日本不卡| 精品一区二区三区自拍图片区| 日本免费一区二区三区视频| 日日久| 国产jzjzjz免费大全视频| 国产一级大片在线观看| 国产片一级特黄aa的大片| 高清国产一区二区三区| 4tube高清性欧美| 天天插伊人| 黄乱色伦| 欧美69色| 国产精品大片天天看片| 天天干天天操天天舔| 日日射夜夜| avt天堂网| 国产精品理论| 手机看片神马午夜片| 手机在线一区二区三区| 一区二区三区伦理| 性满足久久久久久久久| 高h 男男| 中国免费黄色片| 很黄很黄叫声床戏免费视频| 色偷偷亚洲天堂| 亚洲天堂.com| 日韩毛片在线视频| 好男人社区www的视频免费| 永久国产| www.天堂.com| 日本69xxx| 婷婷国产| 四虎久久精品国产| 色综合欧美| 极品美女写真菠萝蜜视频| 狠狠色视频| 天天操夜操| 在线中文字幕一区| 婷婷综合久久中文字幕蜜桃三| 天天看片天天操| 农村三级毛片|