AI Agents 是當(dāng)下大模型領(lǐng)域備受關(guān)注的話題,用戶可以引入多個(gè)扮演不同角色的 LLM Agents 參與到實(shí)際的任務(wù)中,Agents 之間會(huì)進(jìn)行競(jìng)爭(zhēng)和協(xié)作等多種形式的動(dòng)態(tài)交互,進(jìn)而產(chǎn)生驚人的群體智能效果。本文介紹了來(lái)自 KAUST 研究團(tuán)隊(duì)的大模型心智交互 CAMEL 框架(“駱駝”),CAMEL 框架是最早基于 ChatGPT 的 autonomous agents 知名項(xiàng)目,目前已被頂級(jí)人工智能會(huì)議 NeurIPS 2023 錄用。
論文題目:
CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society論文鏈接:https://ghli.org/camel.pdf代碼鏈接:
https://github.com/camel-ai/camel項(xiàng)目主頁(yè):https://www.camel-ai.org/“什么神奇的技巧讓我們變得智能?竅門(mén)就是沒(méi)有竅門(mén)。智慧的力量源于我們巨大的多樣性,而不是任何單一的、完美的原則。”
——人工智能先驅(qū) 馬文·明斯基(Marvin Minsky)[1]
目前來(lái)看,在機(jī)器通向高級(jí)智能的道路上,以 ChatGPT 為代表的大模型(LLMs)應(yīng)該是必須經(jīng)過(guò)的里程碑之一,它們以聊天對(duì)話的人機(jī)交互方式在多個(gè)領(lǐng)域的復(fù)雜任務(wù)解決方面取得了非常耀眼的成就。
隨著 LLMs 的發(fā)展,AI Agents(AI 智能體)之間的交互框架也逐漸興起,尤其是在一些復(fù)雜的專業(yè)領(lǐng)域,以角色扮演等模式預(yù)置的智能體完全有能力代替人類用戶在任務(wù)中扮演的角色,同時(shí),智能體之間通過(guò)以協(xié)作和競(jìng)爭(zhēng)形式的動(dòng)態(tài)交互往往能夠帶來(lái)意想不到的效果,這就是被 OpenAI 人工智能專家 Andrej Karpathy 等人看作是“通向 AGI 最重要的前沿研究方向”的 AI Agents。該領(lǐng)域發(fā)展的時(shí)間線如下 [2]:- “CAMEL”(駱駝:大模型心智交互框架)- 發(fā)布于 2023.3.21
- “AutoGPT” - 發(fā)布于 2023.3.30
- “BabyGPT” - 發(fā)布于 2023.4.3
- “Westworld” simulation(斯坦福西部世界小鎮(zhèn)) — 發(fā)布于 2023.4.7
作為最早基于 ChatGPT 的 autonomous agents 知名項(xiàng)目,CAMEL 重點(diǎn)探索了一種稱為角色扮演(role-playing)的新型合作代理框架,該框架可以有效緩解智能體對(duì)話過(guò)程中出現(xiàn)的錯(cuò)誤現(xiàn)象,從而有效引導(dǎo)智能體完成各種復(fù)雜的任務(wù),人類用戶只需要輸入一個(gè)初步的想法就可以啟動(dòng)整個(gè)過(guò)程。目前,CAMEL 已經(jīng)被國(guó)際人工智能頂級(jí)會(huì)議 NeurIPS 2023 錄用。
作者對(duì) CAMEL 框架設(shè)計(jì)了靈活的模塊化功能,包括不同代理的實(shí)現(xiàn)、各種專業(yè)領(lǐng)域的提示示例和 AI 數(shù)據(jù)探索框架等,因此 CAMEL 可以作為一個(gè)基礎(chǔ)的 Agents 后端,支持 AI 研究者和開(kāi)發(fā)者更加輕松地開(kāi)發(fā)有關(guān)于多智能體系統(tǒng)、合作人工智能、博弈論模擬、社會(huì)分析、人工智能倫理等方面的應(yīng)用。具體的,作者通過(guò)涉及兩種角色扮演的合作場(chǎng)景,生成了兩個(gè)大型的指令數(shù)據(jù)集 AI Society 和 AI Code,以及兩個(gè)單輪問(wèn)答數(shù)據(jù)集 AI Math 和 AI Science,用于探索 LLM 涌現(xiàn)能力的研究。
CAMEL框架
下圖展示了 CAMEL 中的 role-playing 框架,人類用戶需要首先制定一個(gè)想要實(shí)現(xiàn)的想法或目標(biāo),例如:開(kāi)發(fā)一個(gè)用于股票市場(chǎng)的交易機(jī)器人。這項(xiàng)任務(wù)涉及的角色是 AI 助理智能體(使其扮演 Python 程序員角色)和 AI 用戶智能體(使其扮演股票交易員角色)。
作者首先為 CAMEL 設(shè)置了一個(gè)任務(wù)細(xì)化器(Task Specifier),該細(xì)化器會(huì)根據(jù)輸入的想法來(lái)制定一個(gè)較為詳細(xì)的實(shí)現(xiàn)步驟,隨后 AI 助理智能體(AI Assistant)和 AI 用戶智能體(AI User)通過(guò)聊天的方式來(lái)進(jìn)行協(xié)作通信,各自一步步完成指定的任務(wù)。
其中協(xié)作通信通過(guò)系統(tǒng)級(jí)的消息傳遞機(jī)制來(lái)實(shí)現(xiàn),令為傳遞給 AI 助理智能體的系統(tǒng)消息,為傳遞給 AI 用戶智能體的系統(tǒng)消息。隨后為 AI 助理智能體和 AI 用戶智能體分別實(shí)例化為兩個(gè) ChatGPT 模型和,相應(yīng)得到 AI 助理智能體和 AI 用戶智能體。角色分配完成后,AI 助理智能體和 AI 用戶智能體會(huì)按照指令跟隨的方式協(xié)作完成任務(wù),令為時(shí)間時(shí)刻獲得的用戶指令消息,為 AI 助理智能體給出的解決方案,因而時(shí)刻得到的對(duì)話消息集為:
在下一個(gè)時(shí)刻,AI 用戶智能體會(huì)根據(jù)歷史對(duì)話消息集,來(lái)生成新的指令。然后再將新指令消息與歷史對(duì)話消息集一起傳遞給 AI 助理智能體來(lái)生成新一時(shí)刻的解決方案:
更多技術(shù)細(xì)節(jié),可以參考我們先前對(duì)CAMEL 的報(bào)道。
CAMEL使用示例
2.1 協(xié)作角色扮演(cooperate role-playing)
CAMEL 內(nèi)置的協(xié)作式 role-playing 框架可以在人類用戶不具備專業(yè)知識(shí)的情況下,通過(guò) Agents 之間的協(xié)作方式完成復(fù)雜任務(wù),下圖展示了 CAMEL 開(kāi)發(fā)股票市場(chǎng)交易機(jī)器人的例子,其中 AI 助理智能體的扮演的角色是一名 Python 程序員,而 AI 用戶智能體扮演的角色為一名股票交易員。
在 role-playing 框架中,AI 智能體都具有特定領(lǐng)域的專業(yè)知識(shí),此時(shí)我們只需要指定一個(gè)原始想法的 Prompt,隨后兩個(gè)AI智能體就會(huì)圍繞著這一想法展開(kāi)工作,在上圖中,用戶智能體提出交易機(jī)器人需要有對(duì)股票評(píng)論的情緒分析功能,隨后助理智能體直接給出了安裝情緒分析和股票交易所需的 python 庫(kù)的腳本。
隨著任務(wù)的進(jìn)行,用戶智能體給出的指示也會(huì)越來(lái)越明確,上圖中的指示為:定義一個(gè)函數(shù)以使用 Yahoo Finance API 獲取特定股票的最新股價(jià)。助理智能體會(huì)根據(jù)該指示直接生成一段代碼來(lái)解決需求。2.2 具身智能體(embodied agent)在先前的研究中,AI Agents 可以理解為在模擬一些操作,而沒(méi)有與現(xiàn)實(shí)世界交互或使用外部工具執(zhí)行操作,目前的 LLMs 已經(jīng)具備與互聯(lián)網(wǎng)或其他工具API交互的能力,CAMEL 也提供了能夠在物理世界中執(zhí)行各種操作的具身智能體(embodied agent),它們可以瀏覽互聯(lián)網(wǎng)、閱讀文檔、創(chuàng)建圖像、音頻和視頻等內(nèi)容,甚至可以直接執(zhí)行代碼。
上圖展示了 CAMEL 通過(guò)使用 embodied agent 調(diào)用 HuggingFace 提供的 Stable Diffusion 工具鏈生成駱駝科圖像的樣例,在這一過(guò)程中,embodied agent 首先會(huì)推理出駱駝科所包含的所有動(dòng)物,隨后調(diào)用擴(kuò)散模型生成圖像并進(jìn)行保存。
2.3 critic在環(huán)(critic-in-the-loop)
為了增強(qiáng) role-playing 框架的可控性,作者團(tuán)隊(duì)還為 CAMEL 設(shè)計(jì)了一種 critic-in-the-loop,這種機(jī)制受到了蒙特卡洛樹(shù)搜索(MTCS)方法的啟發(fā),它可以結(jié)合人類偏好實(shí)現(xiàn)樹(shù)搜索的決策邏輯來(lái)解決任務(wù),CAMEL 可以設(shè)置一個(gè)中間評(píng)價(jià)智能體(critic)來(lái)根據(jù)用戶智能體和助理智能體出的各種觀點(diǎn)進(jìn)行決策來(lái)完成最終任務(wù),整體流程如下圖所示。
考慮這樣一個(gè)場(chǎng)景,我們讓 CAMEL 主持一場(chǎng)很具體的科研項(xiàng)目討論會(huì),而科研項(xiàng)目的主題“大型語(yǔ)言模型”,CAMEL 可以將用戶智能體的角色設(shè)置為一個(gè)博士后,將助理智能體的角色設(shè)置為博士生,而中間評(píng)價(jià)智能體的角色設(shè)置為教授。任務(wù)指示博士生來(lái)幫助博士后制定研究計(jì)劃,需要圍繞大模型的倫理展開(kāi)研究。
在接到任務(wù)后,博士后智能體首先拋出了關(guān)于這一項(xiàng)目的三個(gè)觀點(diǎn),表明項(xiàng)目應(yīng)該首先從調(diào)研大模型倫理方面的相關(guān)工作著手。隨后教授智能體會(huì)根據(jù)這三個(gè)觀點(diǎn)給出自己的看法。并且認(rèn)為觀點(diǎn) 2 最為合理的,即研究大模型歧視性算法。同時(shí)還會(huì)給出另外兩個(gè)觀點(diǎn)的缺陷,例如觀點(diǎn) 1 缺乏更加清晰的結(jié)構(gòu),觀點(diǎn) 3 的研究范圍太窄等等。
在教授發(fā)言之后,博士生智能體會(huì)進(jìn)行更加具體的項(xiàng)目規(guī)劃,例如直接列出一些大模型倫理安全方向的相關(guān)文獻(xiàn),并且討論如何開(kāi)展具體的研究。
實(shí)驗(yàn)效果
本文的性能評(píng)估主要從三個(gè)方面進(jìn)行,并且采用兩個(gè) gpt-3.5-turbo 作為實(shí)驗(yàn)智能體,實(shí)驗(yàn)的數(shù)據(jù)集使用 CAMEL 框架生成的四個(gè) AI 數(shù)據(jù)集,其中 AI Society 和 AI Code 側(cè)重于智能體的對(duì)話效果,而 AI Math 和 AI Science 側(cè)重于智能體的問(wèn)題解決能力。3.1 Agent評(píng)估在這一部分,作者從 AI Society 和 AI Code 數(shù)據(jù)集中分別隨機(jī)選擇 100 個(gè)任務(wù)進(jìn)行評(píng)估,然后使用 CAMEL 框架和單個(gè) gpt-3.5-turbo 進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果評(píng)估方面分為兩部分,一方面由人類受試者對(duì)兩種方法給出的解決方案給出 453 份投票數(shù)據(jù),來(lái)決定哪種方案更加可行。另一方面,作者提示 GPT4 模型對(duì)兩種方案直接給出評(píng)分,具體的對(duì)比數(shù)據(jù)如下表所示。從上表中可以看出,CAMEL 框架給出的解決方案在人類評(píng)估和 GPT4 評(píng)估中均大幅優(yōu)于 gpt-3.5-turbo 給出的解決方案,其中人類評(píng)估和 GPT4 評(píng)估的總體趨勢(shì)高度一致。3.2 使用GPT-4對(duì)ChatBot評(píng)估在這一部分,作者在 CAMEL 生成的四個(gè)數(shù)據(jù)集上對(duì) LLaMA-7B 模型進(jìn)行了逐步的微調(diào),通過(guò)向 LLM 中不斷注入來(lái)自社會(huì)、代碼、數(shù)學(xué)和科學(xué)等不同領(lǐng)域的知識(shí),來(lái)觀察模型對(duì)知識(shí)發(fā)現(xiàn)的接受效果。
作者首先從 AI Society 數(shù)據(jù)集開(kāi)始,讓模型了解人類的互動(dòng)常識(shí)和社會(huì)動(dòng)態(tài),隨后 AI Code 和其他數(shù)據(jù)集的注入,模型獲得了編程邏輯和語(yǔ)法的知識(shí),同時(shí)拓寬了模型對(duì)科學(xué)理論、經(jīng)驗(yàn)觀察和實(shí)驗(yàn)方法的理解。
上表展示了模型在20 個(gè) Society 任務(wù)、20 個(gè)代碼編寫(xiě)任務(wù)、20 個(gè)數(shù)學(xué)任務(wù)和 60 個(gè)科學(xué)任務(wù)上的測(cè)試效果,可以看到在每次添加數(shù)據(jù)集時(shí),模型在已訓(xùn)練過(guò)的任務(wù)域上都會(huì)表現(xiàn)得更好。3.3 HumanEval
為了進(jìn)一步評(píng)估 CAMEL 框架的代碼編寫(xiě)任務(wù)解決能力,作者在 HumanEval 和 HumanEval+ 兩個(gè)評(píng)估基準(zhǔn)上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下表所示。
上表中清楚地證明了 CAMEL 框架的卓越性能,它不僅遠(yuǎn)遠(yuǎn)超過(guò)了 LLaMA-7B 模型,而且還大大超過(guò)了 Vicuna-7B 模型,這表明使用 CAMEL 生成的數(shù)據(jù)集在增強(qiáng) LLM 處理編碼相關(guān)任務(wù)方面有獨(dú)特的效果。
參考文獻(xiàn)
?[1]Minsky M. Society of mind[M]. Simon and Schuster, 1988.
[2] https://towardsdatascience.com/4-autonomous-ai-agents-you-need-to-know-d612a643fa92
原文標(biāo)題:NeurIPS 2023 | AI Agents先行者CAMEL:首個(gè)基于大模型的多智能體框架
文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2909文章
44729瀏覽量
374416
原文標(biāo)題:NeurIPS 2023 | AI Agents先行者CAMEL:首個(gè)基于大模型的多智能體框架
文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論