琅琊榜海宴小说,大主宰之灵路天蚕土豆,盗墓笔记小说txt下载

將強(qiáng)化學(xué)習(xí)算法應(yīng)用到現(xiàn)實(shí)問題中的一個(gè)障礙就是缺少合適的獎(jiǎng)勵(lì)函數(shù)，而設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)又比較困難，因?yàn)橛脩糁荒茏约豪斫馊蝿?wù)的目標(biāo)，很難傳達(dá)給強(qiáng)化學(xué)習(xí)智能體。這就引出了智能體和用戶的連接問題（agent alignment problem）：我們?nèi)绾蝿?chuàng)建一款符合用戶想法的智能體呢？

近日，DeepMind的新論文Scalable agent alignment via reward modeling: a research direction就提出了一種研究方向，本文對(duì)該論文進(jìn)行了概述總結(jié)。簡(jiǎn)單來說，本次提出的方法依靠獎(jiǎng)勵(lì)模型的循環(huán)應(yīng)用，通過連接（align）用戶的目的解決復(fù)雜的現(xiàn)實(shí)世界問題。以下是論智對(duì)原文的詳細(xì)編譯：

最近幾年，強(qiáng)化學(xué)習(xí)在復(fù)雜的游戲環(huán)境中得到了不錯(cuò)的表現(xiàn)，例如雅達(dá)利游戲、圍棋、象棋、Dota 2、星際爭(zhēng)霸II等等，AI智能體在這些復(fù)雜領(lǐng)域的表現(xiàn)甚至超過了人類水平。游戲是開發(fā)和測(cè)試機(jī)器學(xué)習(xí)算法的理想平臺(tái)，其中有很多挑戰(zhàn)性的任務(wù)，需要具備多種認(rèn)知能力才能完成。機(jī)器學(xué)習(xí)研究者可以在云端同時(shí)運(yùn)行數(shù)千個(gè)模擬實(shí)驗(yàn)，生成足夠多的訓(xùn)練數(shù)據(jù)供系統(tǒng)學(xué)習(xí)。

重要的是，游戲通常有清晰的目標(biāo)，還有可以表現(xiàn)距離目標(biāo)遠(yuǎn)近的分?jǐn)?shù)。分?jǐn)?shù)能為強(qiáng)化學(xué)習(xí)智能體提供有用的獎(jiǎng)勵(lì)函數(shù)，當(dāng)選擇了正確的算法或架構(gòu)時(shí)，能讓我們獲得快速的反饋。

智能體的連接問題

總的來說，AI的目標(biāo)是不斷具備解決現(xiàn)實(shí)中復(fù)雜問題的能力，從而造福人類。但是現(xiàn)實(shí)生活中的任務(wù)并沒有內(nèi)置的獎(jiǎng)勵(lì)函數(shù)。這樣一來，智能體在任務(wù)中的表現(xiàn)就無法輕易地定義，所以我們需要一種好方法提供反饋，讓智能體確切地了解我們想要什么，從而幫我們實(shí)現(xiàn)目標(biāo)。換句話說，我們想用人類的反饋訓(xùn)練AI系統(tǒng)，用這種方法將系統(tǒng)的行為和我們的目標(biāo)聯(lián)系在一起。針對(duì)這一目標(biāo)，于是”智能體的連接“問題的定義如下：

如何創(chuàng)建能符合人類目標(biāo)的智能體？

連接問題可以在強(qiáng)化學(xué)習(xí)框架中進(jìn)行，只不過其中要接受數(shù)字類型的獎(jiǎng)勵(lì)信號(hào)，智能體可以通過交互協(xié)議和用戶進(jìn)行互動(dòng)，從而讓用戶將他們的想法傳遞給智能體。該協(xié)議有多種形式，用戶可以提供示范、偏好、最佳行為或者提供獎(jiǎng)勵(lì)函數(shù)。解決智能體連接問題的一種方法就是根據(jù)用戶目標(biāo)作出動(dòng)作。

DeepMind的新論文對(duì)這一問題指明了研究方向。基于此前的AI安全性問題和各種相關(guān)研究，我們?cè)O(shè)想了這些研究成果能為智能體的連接問題做出哪些幫助。這為了解如何與用戶互動(dòng)打開了新的大門，即從他們的反饋中學(xué)習(xí)并預(yù)測(cè)偏好，這些都是更復(fù)雜、更抽象的話題，需要用超越人類水平的方式去理解。

用獎(jiǎng)勵(lì)建模進(jìn)行連接

研究方向的重點(diǎn)是基于獎(jiǎng)勵(lì)建模：我們用用戶反饋訓(xùn)練了一個(gè)獎(jiǎng)勵(lì)模型，來捕捉他們的意圖。同時(shí)，我們還訓(xùn)練了一個(gè)帶有強(qiáng)化學(xué)習(xí)的策略，用來讓獎(jiǎng)勵(lì)最大化。換句話說，我們將“學(xué)習(xí)做什么”從“學(xué)習(xí)怎么做”中分離出來。

獎(jiǎng)勵(lì)建模圖示

例如，在之前的研究中我們教智能體如何根據(jù)用戶的要求進(jìn)行后空翻、根據(jù)目標(biāo)狀態(tài)放置目標(biāo)物體、根據(jù)用戶選擇和專業(yè)玩家示范玩雅達(dá)利游戲。未來，我們想設(shè)計(jì)的算法能夠?qū)W習(xí)適應(yīng)用戶提供反饋的方式（例如使用自然語言）。

擴(kuò)大規(guī)模

長(zhǎng)期來看，我們會(huì)擴(kuò)大獎(jiǎng)勵(lì)建模的規(guī)模，將其應(yīng)用于人類難以評(píng)估的領(lǐng)域。為了做到這一點(diǎn)，我們需要增強(qiáng)用戶衡量輸出的能力。我們討論了如何循環(huán)應(yīng)用獎(jiǎng)勵(lì)建模：我們可以用獎(jiǎng)勵(lì)建模訓(xùn)練智能體，幫助用戶進(jìn)行評(píng)估。如果評(píng)估過程比做出動(dòng)作更容易，我們就能從簡(jiǎn)單的任務(wù)中轉(zhuǎn)移到更復(fù)雜的任務(wù)上。這也可以看作是迭代增強(qiáng)的例子。

循環(huán)獎(jiǎng)勵(lì)建模圖示

例如，假設(shè)我們現(xiàn)在想訓(xùn)練智能體設(shè)計(jì)一款計(jì)算機(jī)芯片，為了檢測(cè)一款芯片設(shè)計(jì)，我們訓(xùn)練了其他帶有獎(jiǎng)勵(lì)模型的智能體，模擬測(cè)試芯片的性能，計(jì)算熱損耗、估計(jì)芯片的使用壽命、尋找安全漏洞等等。最后，智能體的輸出能讓用戶訓(xùn)練出符合要求的智能體。盡管每個(gè)智能體都要解決很多比當(dāng)前機(jī)器學(xué)習(xí)系統(tǒng)更難的任務(wù)，但這些任務(wù)會(huì)比設(shè)計(jì)芯片要簡(jiǎn)單。因?yàn)樵O(shè)計(jì)一款計(jì)算機(jī)芯片，你要理解每種評(píng)估任務(wù)，但是反之則不是必要的。在這種情況下，循環(huán)獎(jiǎng)勵(lì)模型可以讓我們的智能體解決更復(fù)雜的任務(wù)，同時(shí)保留和用戶目標(biāo)之間的聯(lián)系。

研究挑戰(zhàn)

想將獎(jiǎng)勵(lì)建模擴(kuò)大到復(fù)雜問題中，我們會(huì)遇到一些挑戰(zhàn)。下圖列出了五種主要問題以及可能的解決方法，論文對(duì)這些問題進(jìn)行了深入的講解。

這也是智能體匹配問題中最后一個(gè)重要因素：當(dāng)將智能體應(yīng)用在現(xiàn)實(shí)世界中時(shí)，我們需要向用戶充分證明我們的智能體的確和用戶目標(biāo)完全匹配。論文中提到了五種不同的方法，幫助用戶增加對(duì)智能體的信心：設(shè)計(jì)選擇、測(cè)試、可解釋性、正式驗(yàn)證以及理論保證。

結(jié)語

雖然我們相信循環(huán)獎(jiǎng)勵(lì)建模是訓(xùn)練相連智能體的正確方向，但目前我們還不知道它擴(kuò)展的情況如何。幸運(yùn)的是，我們還有一些與智能體連接相關(guān)的研究方向：

模仿學(xué)習(xí)

短期強(qiáng)化學(xué)習(xí)

反向強(qiáng)化學(xué)習(xí)

協(xié)作反向強(qiáng)化學(xué)習(xí)

迭代增強(qiáng)

辯論

智能體基礎(chǔ)

論文中對(duì)它們的相似之處和不同點(diǎn)都做了更深介紹。

正如對(duì)抗輸入對(duì)計(jì)算機(jī)視覺系統(tǒng)的穩(wěn)健性一樣，在復(fù)雜的顯示領(lǐng)域中部署機(jī)器學(xué)習(xí)系統(tǒng)也是未來需要面對(duì)的難題。盡管我們會(huì)在擴(kuò)展獎(jiǎng)勵(lì)建模時(shí)遇到挑戰(zhàn)，但這些挑戰(zhàn)是可以從中獲取進(jìn)展的具體技術(shù)性問題。從這個(gè)意義上講，我們的研究方向已經(jīng)準(zhǔn)備就緒，可以開展深層強(qiáng)化學(xué)習(xí)智能體的實(shí)證研究了。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8425

瀏覽量
132771
智能體

智能體

+關(guān)注

關(guān)注
1

文章
157

瀏覽量
10596
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
268

瀏覽量
11270

原文標(biāo)題：如何讓智能體了解用戶意圖？DeepMind提出獎(jiǎng)勵(lì)建模

文章出處：【微信號(hào)：jqr_AI，微信公眾號(hào)：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

什么是機(jī)電一體化

像人類那樣會(huì)思考判斷。4）機(jī)電一體化的例子機(jī)電一體化產(chǎn)品中一定有運(yùn)動(dòng)機(jī)械，并且采用了電子技術(shù)使運(yùn)動(dòng)機(jī)械實(shí)現(xiàn)柔性化和智能化。機(jī)器人、微機(jī)控制型縫紉機(jī)、自動(dòng)對(duì)焦相機(jī)、自動(dòng)對(duì)焦防顫型攝像機(jī)

發(fā)表于 08-29 09:06

機(jī)電一體化系統(tǒng)

如圖1.1所示，機(jī)電一體化系統(tǒng)與靈活性和智能型最強(qiáng)的人體相對(duì)應(yīng)，由如下5個(gè)要素構(gòu)成；1）機(jī)械裝置：能夠?qū)崿F(xiàn)某種運(yùn)動(dòng)的機(jī)構(gòu)（相當(dāng)于人類的骨骼）。2）執(zhí)行裝置:驅(qū)動(dòng)機(jī)械裝置運(yùn)動(dòng)的部分（相當(dāng)于人

發(fā)表于 08-29 09:11

熱銷智能會(huì)議平板多媒體教學(xué)一體機(jī)

`教學(xué)會(huì)議一體機(jī)的優(yōu)勢(shì)：豐富教育內(nèi)容使用觸摸一體化教育不僅可以豐富了教育內(nèi)容,拓寬教育水平,促進(jìn)教育目標(biāo)明確,加快教育的速度,并且可以更形象生動(dòng)地顯示在課堂上,滿足學(xué)生實(shí)踐的時(shí)間。老師使用人均觸摸

發(fā)表于 11-28 10:16

基于4位單片機(jī)SH66P58的智能體脂秤方案設(shè)計(jì)

智能體脂秤又稱健康秤，能測(cè)出不同時(shí)間人體的脂肪和水分等所占比例，從而反映出人體在不同時(shí)間的健康狀況。由于測(cè)試人體電阻時(shí)，需要人體和測(cè)試電極直接接觸，所以脂肪秤產(chǎn)品要有很強(qiáng)的抗ESD靜電干擾性能，本文

發(fā)表于 11-29 07:42

OpenAI公布MADDPG代碼，讓智能體學(xué)習(xí)合作、競(jìng)爭(zhēng)和交流

體對(duì)抗，環(huán)境則完全符合你的技術(shù)水平）。其次，多智能體環(huán)境沒有穩(wěn)定的平衡，即無論一個(gè)智能體多么聰明

發(fā)表于 03-16 14:01 ?1.5w次閱讀

如何讓AI符合人類的意圖？如何創(chuàng)建符合用戶意圖的智能體？

近年來，強(qiáng)化學(xué)習(xí)在許多復(fù)雜游戲環(huán)境中取得了令人矚目的成績(jī)，從Atari游戲、圍棋、象棋到Dota 2和星際爭(zhēng)霸II，AI智能體在越來越復(fù)雜的領(lǐng)域迅速超越了人類水平。游戲是開發(fā)和測(cè)試機(jī)器學(xué)習(xí)算法的理想

發(fā)表于 11-24 10:24 ?4268次閱讀

如何測(cè)試強(qiáng)化學(xué)習(xí)智能體適應(yīng)性

強(qiáng)化學(xué)習(xí)（RL）能通過獎(jiǎng)勵(lì)或懲罰使智能體實(shí)現(xiàn)目標(biāo)，并將它們學(xué)習(xí)到的經(jīng)驗(yàn)轉(zhuǎn)移到新環(huán)境中。

發(fā)表于 12-24 09:29 ?3244次閱讀

智能體是什么

智能體在某種程度上屬于人工智能研究范疇，因此要想給智能體下一個(gè)確切的定義就如同給人工智能下一個(gè)確

發(fā)表于 01-12 10:52 ?1.2w次閱讀

華為鵬城智能體正式發(fā)布，創(chuàng)建數(shù)字經(jīng)濟(jì)樣板城市

大數(shù)據(jù)、人工智能、區(qū)塊鏈等新一代信息技術(shù)，建設(shè)數(shù)基、數(shù)網(wǎng)、數(shù)紐、數(shù)腦、數(shù)體系列工程，打造數(shù)據(jù)驅(qū)動(dòng)的有深度學(xué)習(xí)能力的城市級(jí)一體化智能協(xié)同體系，進(jìn)一步推動(dòng)深圳城市治理的科學(xué)化、精細(xì)化、人性化、品質(zhì)化，

發(fā)表于 09-24 13:56 ?1638次閱讀

數(shù)字花海中蓉城智能體邂逅未來智能體的奇幻漂流之成都折疊篇

不久之前，我們?cè)?jīng)介紹分析過華為發(fā)布智能體技術(shù)參考架構(gòu)，對(duì)于產(chǎn)業(yè)智能革命的鼎新作用。其中咱們一起聊過深圳的鵬城智能體有種種

發(fā)表于 09-30 05:26 ?1562次閱讀

人工智能的倫理智能體應(yīng)用及相關(guān)研究

、智能家居、智慧醫(yī)療、戰(zhàn)爭(zhēng)武器等人類生活密切相關(guān)的領(lǐng)域。這些應(yīng)用中，智能體與環(huán)境、尤其是與人類和社會(huì)的交互愈來愈突出，其中的倫理和道德問題日

發(fā)表于 03-24 15:25 ?7次下載

多智能體路徑規(guī)劃研究綜述

多智能體路徑規(guī)劃是一類尋找多個(gè)智能體從起始位置到目標(biāo)位置且無沖突的最優(yōu)路徑集合的問題，針對(duì)該問題的研究在物流、軍事和安防等領(lǐng)域有著大量的應(yīng)用

發(fā)表于 06-04 11:56 ?4次下載

聯(lián)匯科技發(fā)布自主智能體 OmBot 歐姆智能體及 OmBot OS 操作系統(tǒng)

智能體的發(fā)展都表現(xiàn)出極大興趣，并寄予厚望。大語言模型的出現(xiàn)，無疑給 AI 智能體的發(fā)展帶來了全新的想象力，因此盡管在眾多 AI 智能

發(fā)表于 07-11 14:07 ?506次閱讀

圖為大模型一體機(jī)新探索，賦能智能家居行業(yè)

圖為大模型一體機(jī)新探索，賦能智能家居行業(yè) ?在21世紀(jì)的今天，科技的飛速進(jìn)步正以前所未有的速度重塑著我們的生活方式。從智能手機(jī)到物聯(lián)網(wǎng)，從大數(shù)據(jù)到人工

發(fā)表于 10-24 11:05 ?262次閱讀

AI智能體逼真模擬人類行為

近日，據(jù)外媒最新報(bào)道，斯坦福大學(xué)、華盛頓大學(xué)與Google DeepMind的科研團(tuán)隊(duì)攜手合作，成功開發(fā)出一種能夠高度逼真模擬人類行為的AI智能體。該智能

發(fā)表于 11-26 10:24 ?386次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

智能體的連接問題,如何創(chuàng)建能符合人類目標(biāo)的智能體？

評(píng)論

什么是機(jī)電一體化

機(jī)電一體化系統(tǒng)

熱銷智能會(huì)議平板多媒體教學(xué)一體機(jī)

基于4位單片機(jī)SH66P58的智能體脂秤方案設(shè)計(jì)

OpenAI公布MADDPG代碼，讓智能體學(xué)習(xí)合作、競(jìng)爭(zhēng)和交流

如何讓AI符合人類的意圖？如何創(chuàng)建符合用戶意圖的智能體？

如何測(cè)試強(qiáng)化學(xué)習(xí)智能體適應(yīng)性

智能體是什么

華為鵬城智能體正式發(fā)布，創(chuàng)建數(shù)字經(jīng)濟(jì)樣板城市

數(shù)字花海中蓉城智能體邂逅未來智能體的奇幻漂流之成都折疊篇

人工智能的倫理智能體應(yīng)用及相關(guān)研究

多智能體路徑規(guī)劃研究綜述

聯(lián)匯科技發(fā)布自主智能體 OmBot 歐姆智能體及 OmBot OS 操作系統(tǒng)

圖為大模型一體機(jī)新探索，賦能智能家居行業(yè)

AI智能體逼真模擬人類行為