在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

<center id="ikkuc"><acronym id="ikkuc"></acronym></center><nav id="ikkuc"><dl id="ikkuc"></dl></nav>

<abbr id="ikkuc"></abbr>

<center id="ikkuc"></center>

<li id="ikkuc"><dl id="ikkuc"></dl></li>

<rt id="ikkuc"></rt>

<rt id="ikkuc"><acronym id="ikkuc"></acronym></rt>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

模型表現方面有意思的成果

若干年前，AlphaGo Zero用兩個AI代理切磋圍棋技藝，打敗了人類。今早，符堯的一篇論文刷新了我的認知：讓大語言模型相互對弈，再加一個評論家提供建設性意見，提高菜市場砍價技巧！這種模式被作者定義為In-Context Learning from AI Feedback (ICL-AIF)，即來自AI反饋的上下文學習，使用評論家的反饋以及前幾輪對話歷史作為上下文。

沒錯，就是讓GPT和Claude扮演賣家和買家，開展一場價格廝殺的對決！

我們先來簡單介紹游戲玩法：

任務是賣氣球，交易價格設定為10美元至20美元，賣家要以更高的價格銷售，而買家要以更低的價格購買！對于每輪交易，論文作者硬編碼賣方以“這是一個好氣球，價格為20美元”開始協商，買方則以“你是否考慮以10美元的價格出售它？”開始協商，協商結束后會有批評家提供反饋，改善買家或賣家的行為。衡量玩家表現的是最終成交價格。

圖：談判游戲的設置

哪些模型參與游戲呢？

篩選條件是可通過API調用的聊天機器人，包括cohere-command、AI21的jurassic-2、OpenAI的gpt和Anthropic的claude。根據chain-of-thought hub和HeLM 之類的基準測試，這些模型的大致排名是：gpt-4和claude-v1.3大致相似，優于gpt-3.5-turbo和claude-instant-v1.0，也優于cohere-command和j2-jumbo-instruct。作者表示將在未來考慮更多的模型，例如Google的PaLM-2。

但是，由于cohere-command不能理解談判規則、AI21的j2-jumbo-instruct不能整合AI反饋，所以這兩個模型被剔除。只考慮剩下的三個模型：gpt-3.5-turbo，claude-instant-v1.0和claude-v1.3。從表1看出，這三個模型在人類和AI反饋方面都表現出相當的改進，這證明了這個游戲設置對于更強的LLM引擎是有效的。

表：使用AI反饋與從預定義池中隨機選擇的人類反饋相比，賣家的平均交易價格

有哪些有意思的實驗結果？

由于這篇工作只是一個初步探索，我們先窺探一些模型表現方面有意思的成果吧：

1. 角色差異

像claude-instant-v1.0和gpt-3.5-turbo這樣較弱的代理，作為賣方通過AI反饋進行改進比作為買方更容易，這表明買方角色比賣方角色更難扮演。但更強的代理（claude-v1.3 / gpt-4）作為買家，仍然可以從AI反饋中獲得改進。

圖：500場游戲的交易價格頻率，反饋前v.s.反饋后。X軸是價格，Y軸是價格的頻率

2. 迭代改進

將游戲展開到多輪，看看模型是否可以從先前的對話歷史和迭代AI反饋中持續改進，會發現gpt-3.5-turbo可以在多輪中改進，但claude-instant-v1.0只能在最多一輪中改進。

圖：多回合設置中，不同的模型在扮演賣/買家時有不同的行為

3. 成交價格和成交率的平衡

當扮演買家時，有些模型無法進行改進（claude-instant-v1.0），或在三輪之后趨于飽和（claude-v1.3），而gpt-4和gpt-3.5-turbo可以不斷改進，gpt-4取得了比gpt-3.5-turbo更低的成交價格和更高的成交率。

圖:GPT和Claude模型在多輪游戲中的交易價格及成交率

4. 語言復雜性

通過繪制每輪之后的平均響應長度（以字符數度量），可以看到，claude-v1.3和gpt-4在迭代AI反饋后回答變長。從具體的賣家回答示例也可以看到，經過多輪談判，措辭也更加得體。但比起claude-v1.3，gpt-4能使用更少的詞語實現更好的價格和成功率。

圖：平均響應長度隨著模型的多輪學習而增加

結論

大語言模型的確可以根據AI反饋迭代改進談判策略，且更強的模型效果更明顯！這個研究是否意味著，大語言模型可以在最少的人類干預下實現自我改進呢？只需給它一個評論家分身即可！

審核編輯：彭靜

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

機器人

機器人

+關注

關注
211

文章
28466

瀏覽量
207330
AI

AI

+關注

關注
87

文章
30998

瀏覽量
269304
模型

模型

+關注

關注
1

文章
3254

瀏覽量
48881

原文標題：符堯最新研究：大語言模型玩砍價游戲？技巧水漲船高！

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

斯特林發動機，很有意思

本帖最后由 hands 于 2011-6-29 15:25 編輯斯特林發動機，很有意思,大家來討論下嘛。

發表于 06-29 15:24

FPGA和ARM哪個更有意思，更容易進步提升快？？？

FPGA和ARM方向，哪一個工作后提升更快，覺得單片機比較有意思，可是還是想學點高級的，以后發展好點，那ARM和FPGA哪個和更有意思，更有挑戰性；在同等興趣和投入下，FPGA和ARM哪個更容易遇到

發表于 11-24 00:29

求更多有意思的電子設計和制作方案

求更多有意思的電子設計和制作方案。

發表于 12-13 21:46

fpga在醫療方面有什么應用前景

最近在學fpga不知道以后能干什么，請教一下，在醫療方面有什么應用前景，如果想在這方面入手的話需要哪方面的資料呢，謝謝

發表于 07-11 08:41

自己剛學仿真覺得有意思就與大家分享一下

proteus仿真還挺有意思的額希望能從這里起步這個地方我很喜歡相見恨晚啊以后在這里多多學習

發表于 08-07 21:20

求大神推薦一些和運放有關的電路，比較有意思的，

求大神幫忙，求大神推薦一些和運放有關的電路，比較有意思的，

發表于 04-06 10:55

分享幾個有意思的小問題

一般都可以看成一個RLC串聯模型。在某個頻率，會發生諧振，此時電容的阻抗就等于其ESR。如果看電容的頻率阻抗曲線圖，就會發現一般都是一個V形的曲線。具體曲線與電容的介質有關，所以選擇旁路電容還要考慮電容

發表于 08-24 21:48

有意思的三極管放大電路

`有意思的三極管放大電路`

發表于 10-25 14:27

請問QML中有哪些比較有意思的控件？

QML中有哪些比較有意思的控件？

發表于 11-11 07:54

圖形處理在多媒體技術應用方面的經驗和成果

圖形處理在多媒體技術應用方面的經驗和成果

發表于 02-01 06:07

音響放大器的制作及調試有電路圖

里面有原理圖和pcb 自己弄個小音響玩玩很有意思的哦哦

發表于 07-12 18:32 ?18次下載

有意思！如何制作一支吹不滅的蠟燭？

看到網上有一種“吹不滅的蠟燭”賣，覺得很有意思。一支蠟燭，吹滅了，馬上又自己點著。不但實用，插在生日蛋糕上也很搞怪，吹不滅蠟燭怎么許愿啊……

的頭像

發表于 08-03 15:28 ?2.3w次閱讀

蘋果秋季發布會給我們帶來了三款有意思的AR應用

在剛剛的蘋果秋季發布會上，官方除了公布了三款新iPhone和全新的Apple Watch Series 4外，還給我們帶來了三款有意思的 AR 應用：B 社的《上古卷軸：Blades》手游、籃球練習應用《Homecourt》、大蜜蜂街機《Galaga》。

發表于 09-13 10:56 ?1473次閱讀

深讀解析反向傳播算法在解決模型優化問題的方面應用

反向傳播算法隸屬于深度學習，它在解決模型優化問題的方面有著重要的地位。

的頭像

發表于 11-01 15:48 ?5624次閱讀

深讀解析反向傳播算法在解決<b class='flag-5'>模型</b>優化問題的<b class='flag-5'>方面</b>應用

esp32上使用chatGPT做一些有意思的事情

將ChatGPT與ESP32進行結合，可以在物聯網應用方面做出更有意思的事情，如聊天機器人、語音助手和自然語言界面。下面，我將在ESP32中使用ChatGPT API。為了讓ESP32從

的頭像

發表于 10-18 10:04 ?570次閱讀

主站蜘蛛池模板：五月婷婷丁香在线视频| 你懂的网站在线观看| 夜夜春宵翁熄性放纵古代| 222aaa天堂| 4438x亚洲最大| 免费在线观看视频| 一区二区三区四区五区| 明日花绮罗snis-862在线播放| 色五五月五月开| 男男浪荡性受高hnp肉| 男人的午夜天堂| 在线三级网| 四虎影视最新地址| 国产成人精品曰本亚洲78| 午夜影视啪啪免费体验区深夜| 99草在线观看| 69xxx视频| 国产精品久久久久久久久久妇女| 伊人精品成人久久综合欧美| 婷婷免费高清视频在线观看| 色姑娘网| 午夜两性网| 国产亚洲精品免费| 亚洲国产成人精彩精品| 99热国内精品| 午夜影院亚洲| 男人天堂伊人| 99日精品欧美国产| 欧美成人性色生活片天天看| 五月激情丁香网| 久久狠狠干| 色婷婷综合缴情综六月| 精品一区二区三区自拍图片区| 在线免费色视频| 国产欧美日韩视频免费61794| 5566成人免费视频观看| 一二三四日本视频社区| 真实偷清晰对白在线视频| 特黄特色大片免费播放器9| 四虎永久精品免费网址大全| 欧美精品一区视频|

<dl id="g4ayg"><acronym id="g4ayg"></acronym></dl>

<center id="g4ayg"><acronym id="g4ayg"></acronym></center>

<li id="g4ayg"></li>

<abbr id="g4ayg"></abbr>

<dl id="g4ayg"></dl>