★AI Agent;人工智能體,RPA;大語言模型;prompt;Copilot;AGI;ChatGPT;LLM;AIGC;CoT;Cortex;Genius;MetaGPT;大模型;人工智能;通用人工智能;數(shù)據(jù)并行;模型并行;流水線并行;混合精度訓(xùn)練;梯度累積;Nvidia;A100;H100;A800;H800;L40s;混合專家;910B;HGX H20;L20 PCIe;L2 PCIe
AI Agent是一種智能實體,能夠感知環(huán)境、決策并執(zhí)行動作,具有獨立思考和執(zhí)行任務(wù)的能力。與傳統(tǒng)大模型相比,AI Agent能夠獨立思考目標(biāo)并采取行動,而不僅僅依賴于提示。AI Agent基于大模型,具備上下文學(xué)習(xí)、推理和思考的能力,因此是通往AGI(通用人工智能)的主要研究方向。
AI Agent由大模型、規(guī)劃、記憶和工具使用四個部分組成,其中大模型是核心,提供推理和規(guī)劃等能力。近期在AI Agent領(lǐng)域涌現(xiàn)出多個研究成果,包括在游戲、個人任務(wù)助理和情感陪伴方面表現(xiàn)優(yōu)異的產(chǎn)品。雖然目前AI Agent研究主要集中在學(xué)術(shù)和開發(fā)者領(lǐng)域,商業(yè)化產(chǎn)品較少,但在企業(yè)環(huán)境中,AI Agent建立對某一垂直領(lǐng)域的認(rèn)知的場景更為適合。一些初創(chuàng)公司已經(jīng)在以企業(yè)級Agent平臺為核心進(jìn)行產(chǎn)品研發(fā),未來幾年內(nèi)預(yù)計將有更多以Agent為核心的產(chǎn)品涌現(xiàn)。
當(dāng)然,AI Agent的訓(xùn)練離不開算力,服務(wù)器作為一個強(qiáng)大的計算中心,為AI Agent提供算力基礎(chǔ),支持其進(jìn)行復(fù)雜計算和處理大規(guī)模數(shù)據(jù)的任務(wù),包括模型訓(xùn)練、推理和處理大規(guī)模數(shù)據(jù)集。
藍(lán)海大腦大模型訓(xùn)練平臺基于開放加速模組高速互聯(lián)的AI加速器,提供強(qiáng)大的算力支持。配置高速內(nèi)存且支持全互聯(lián)拓?fù)洌瑵M足大模型訓(xùn)練中張量并行的通信需求。支持高性能I/O擴(kuò)展,同時可以擴(kuò)展至萬卡AI集群,滿足大模型流水線和數(shù)據(jù)并行的通信需求。強(qiáng)大的液冷系統(tǒng)熱插拔及智能電源管理技術(shù),當(dāng)BMC收到PSU故障或錯誤警告(如斷電、電涌,過熱),自動強(qiáng)制系統(tǒng)的CPU進(jìn)入ULFM(超低頻模式,以實現(xiàn)最低功耗)。致力于通過“低碳節(jié)能”為客戶提供環(huán)保綠色的高性能計算解決方案。主要應(yīng)用于深度學(xué)習(xí)、學(xué)術(shù)教育、生物醫(yī)藥、地球勘探、氣象海洋、超算中心、AI及大數(shù)據(jù)等領(lǐng)域。
大模型引領(lǐng)前行:AI Agent
自主智能體在AGI之路的探索
一、AI Agent:探索 AGI 的真實形態(tài)
1、什么是 AI Agent?
AI Agent是一種智能實體,具備感知環(huán)境、決策和執(zhí)行動作的能力。與傳統(tǒng)人工智能不同,AI Agent通過獨立思考和調(diào)用工具逐步完成給定目標(biāo),實現(xiàn)自主操作。雖然AI Agent在人工智能和計算機(jī)領(lǐng)域成為研究熱點,但由于數(shù)據(jù)和算力限制,實現(xiàn)真正智能的AI Agents仍面臨挑戰(zhàn)。
Hyperwrite 研發(fā)的 AI Agent 個人助理插件實現(xiàn)自動預(yù)訂航班機(jī)票
AI Agent與大語言模型和RPA的區(qū)別在于,具備獨立思考和行動的能力,相較于大模型需要基于明確的prompt進(jìn)行交互,而RPA則僅能在預(yù)設(shè)流程下工作。AI Agent的工作僅需目標(biāo)就能獨立思考并采取行動,拆解任務(wù)并根據(jù)反饋自主創(chuàng)建prompt。與RPA相比,AI Agent能處理未知信息和復(fù)雜環(huán)境,使其成為更靈活的自主智能體。
AI Agent 的工作流程
2、AIAgent 的最終發(fā)展目標(biāo):通用人工智能 AGI
AI Agent并非新概念,早在多年前已有研究,如2014年AlphaGo和2017年OpenAI Five。這些AI能通過實時信息分析規(guī)劃操作,滿足AI Agent基本定義。當(dāng)時主要應(yīng)用在具有對抗性和明顯輸贏場景的游戲中,采用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。然而,通用性在真實世界中難以實現(xiàn)。
近年來,大語言模型的崛起推動AI Agent相關(guān)研究的快速發(fā)展。這些模型基于龐大的訓(xùn)練數(shù)據(jù)集,包括豐富的人類行為數(shù)據(jù),為模擬類人交互提供堅實基礎(chǔ)。大模型的快速發(fā)展使其具有上下文學(xué)習(xí)、推理和思維鏈等類似人類思考方式的能力,成為AI Agent的核心。
大模型的能力涌現(xiàn)現(xiàn)象
盡管大模型在全球范圍內(nèi)引起熱潮,但隨著時間推移,人們對大模型實際能力的認(rèn)識更為清晰。大模型仍存在幻覺、上下文容量限制等。因此,AI Agent成為新的研究焦點。通過讓大模型結(jié)合一個或多個Agent,構(gòu)建具備自主思考、決策和執(zhí)行能力的智能體,繼續(xù)探索通往AGI之路。
研究 AI Agent 的最終目標(biāo)是通向 AGI
AI Agent的發(fā)展可以類比為自動駕駛的L4階段,盡管已取得一定進(jìn)展,但距離真正的實現(xiàn)仍存在一定差距。據(jù)甲子光年報告,與人類的協(xié)作程度可以與自動駕駛的不同級別相媲美。對話機(jī)器人(如ChatGPT)可視為L2級別,人類向AI尋求意見,但AI不直接參與工作;副駕駛工具(如Copilot)相當(dāng)于L3級別,人類和AI共同協(xié)作完成工作,AI生成初稿,人類進(jìn)行修改;而AI Agent則相當(dāng)于L4,人類給定目標(biāo),Agent自行完成任務(wù)規(guī)劃和工具調(diào)用。然而,類似于L4級別的自動駕駛尚未真正實現(xiàn),AI Agent雖易于想象和演示,但在真實應(yīng)用中仍存在一定挑戰(zhàn),其真正的應(yīng)用前景仍是未知。
將 AI 和人類協(xié)作的程度類比自動駕駛的不同階段
3、應(yīng)用兩大方向:自動化(自主智能體)、擬人化(智能體模擬)
AI Agent的發(fā)展在基于大語言模型(LLM)的應(yīng)用中呈現(xiàn)出兩大主要趨勢:
1)自主智能體
這類AI Agent致力于實現(xiàn)復(fù)雜流程的自動化。當(dāng)賦予自主智能體一個目標(biāo)時,能夠自主創(chuàng)建、執(zhí)行、調(diào)整任務(wù),并根據(jù)目標(biāo)優(yōu)先級不斷重復(fù)這個過程,直至完成目標(biāo)。由于對準(zhǔn)確性要求較高,通常需要外部工具輔助,以減少大模型不確定性。
2)智能體模擬
這一類Agent致力于更加擬人和可信的表現(xiàn)。分為強(qiáng)調(diào)情感和情商的智能體,以及注重交互的智能體。后者通常在多智能體環(huán)境中操作,在預(yù)期之外展現(xiàn)出場景和能力。由于具備多樣性的特點,使其能夠充分利用大模型生成不確定性。
當(dāng)然這兩個方向并非完全獨立,相反自動化和擬人化作為AI Agent的兩大核心能力將同步發(fā)展。隨著底層模型的不斷成熟和對不同行業(yè)的深入探索,AI Agent的適用范圍和實用性有望進(jìn)一步擴(kuò)大。
二、AI Agent 拆解:大模型、規(guī)劃、記憶與工具
基于大型語言模型的AI Agent可分為四個主要組件:大型語言模型(LLM)、規(guī)劃、記憶和工具使用。
由 LLM 驅(qū)動的自主智能體系統(tǒng)的架構(gòu)
1、大模型+規(guī)劃:Agent 的“大腦”,通過思維鏈能力實現(xiàn)任務(wù)分解
Agent可以有效引導(dǎo)和激發(fā)LLM的邏輯推理能力。當(dāng)模型規(guī)模足夠大時,LLM本身就具備推理能力,在簡單推理問題上展現(xiàn)出良好的表現(xiàn)。然而,在處理復(fù)雜推理問題時,LLM有時可能會出現(xiàn)錯誤,導(dǎo)致用戶無法獲得理想回答。這主要是因為prompt不夠合適,無法充分激發(fā)LLM的推理能力。通過追加輔助推理prompt,可以顯著提高LLM在推理問題上的效果。在《Large language models are zero-shot reasoners》一文中的測試中,通過在提問時追加“Let’s think step by step”prompt,數(shù)學(xué)推理測試集GSM8K上的推理準(zhǔn)確率從10.4%提升到40.7%。作為智能體Agent能夠自主創(chuàng)建適當(dāng)?shù)膒rompt,更好地引發(fā)大型模型的推理能力。
通過調(diào)整 prompt 可以提升大模型推理效果
在處理復(fù)雜任務(wù)時,Agent可以調(diào)用LLM的思維鏈進(jìn)行任務(wù)分解和規(guī)劃。在AI Agent架構(gòu)中,任務(wù)分解和規(guī)劃過程依賴于大模型能力。大模型具有思維鏈(CoT)能力,通過提示模型“逐步思考”,充分利用計算時間,將復(fù)雜任務(wù)逐步分解為更小、更簡單的步驟,從而降低每個子任務(wù)難度。
AI Agent 的反思框架
通過反思與自省框架,Agent不斷提升任務(wù)規(guī)劃能力。其具有對過去行為的自我評估機(jī)制,從中學(xué)習(xí)并改進(jìn)未來步驟,以提高最終結(jié)果質(zhì)量。自省框架允許Agent修正決策和改正之前錯誤,實現(xiàn)性能不斷優(yōu)化。在任務(wù)執(zhí)行中,嘗試和錯誤是常態(tài),而反思和自省在這個過程中發(fā)揮著核心作用。
2、記憶:用有限的上下文長度實現(xiàn)更多的記憶
AI智能體系統(tǒng)的輸入成為系統(tǒng)記憶,與人類的記憶模式一一對應(yīng)。記憶是獲取、存儲、保留和檢索信息的過程,包括感覺記憶、短期記憶和長期記憶。對于AI Agent系統(tǒng)而言,與用戶的交互生成內(nèi)容被視為Agent的記憶。感覺記憶是學(xué)習(xí)嵌入表示的原始輸入,包括文本、圖像或其他模態(tài);短期記憶是上下文受到有限上下文窗口長度限制;長期記憶可看作是Agent在工作中查詢外部向量數(shù)據(jù)庫,通過快速檢索進(jìn)行訪問。目前,Agent主要利用外部長期記憶完成復(fù)雜任務(wù),如閱讀PDF、聯(lián)網(wǎng)搜索實時新聞等。任務(wù)與結(jié)果存儲在記憶模塊中,當(dāng)信息被調(diào)用時,存儲在記憶中的信息將回到與用戶的對話中,創(chuàng)造更加緊密的上下文環(huán)境。
人類記憶與 AI Agent 記憶映射
向量數(shù)據(jù)庫通過將數(shù)據(jù)轉(zhuǎn)化為向量形式,解決大模型海量知識存儲、檢索和匹配問題。向量成為AI理解世界的通用數(shù)據(jù)形式,而大模型為獲取豐富語義和上下文信息需要龐大訓(xùn)練數(shù)據(jù),導(dǎo)致數(shù)據(jù)量呈指數(shù)級增長。通過Embedding方法,向量數(shù)據(jù)庫將非結(jié)構(gòu)化數(shù)據(jù)如圖像、音視頻等抽象為多維向量,實現(xiàn)結(jié)構(gòu)化管理,從而實現(xiàn)高效數(shù)據(jù)存儲和檢索過程,為Agent提供“長期記憶”。同時,將多模態(tài)數(shù)據(jù)映射到低維空間,大幅降低存儲和計算成本,向量數(shù)據(jù)庫存儲成本較存儲在神經(jīng)網(wǎng)絡(luò)中的成本低2到4個數(shù)量級。
Embedding技術(shù)將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為計算機(jī)可識別的語言,如地圖對地理信息的Embedding。通過Embedding技術(shù),將文本等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為向量后,使用數(shù)學(xué)方法計算兩個向量之間的相似度,從而實現(xiàn)對文本的比較。向量數(shù)據(jù)庫基于向量相似度計算實現(xiàn)強(qiáng)大的檢索功能,通過相似性檢索特性,找出近似匹配結(jié)果,為模糊匹配提供支持,適用于更廣泛的應(yīng)用場景。
不同文本在向量空間中的相似度計算
3、工具:懂得使用工具才會更像人類
AI Agent與大模型的一個顯著區(qū)別在于,AI Agent能夠利用外部工具拓展模型能力。與人類使用工具相似,為大模型配備外部工具,使其完成原本無法處理的任務(wù)。例如,ChatGPT的缺陷是其訓(xùn)練數(shù)據(jù)截止到2021年底,無法直接回答關(guān)于更新知識的問題。雖然OpenAI為ChatGPT添加插件功能,允許調(diào)用瀏覽器插件以獲取最新信息,但仍需用戶明確指定是否需要使用插件,不能實現(xiàn)完全自然回答。相比之下,AI Agent具備自主調(diào)用工具能力,對于每個子任務(wù),Agent會判斷是否需要調(diào)用外部工具來完成,并將外部工具返回信息提供給LLM,以繼續(xù)下一步子任務(wù)。此外,OpenAI在6月為GPT-4和GPT-3.5引入函數(shù)調(diào)用功能,使開發(fā)者能夠描述函數(shù),并讓模型智能地選擇輸出函數(shù)調(diào)用參數(shù)的JSON對象。
GPT 模型函數(shù)調(diào)用功能示例
以HuggingGPT為例,將模型社區(qū)HuggingFace和ChatGPT緊密結(jié)合,構(gòu)建成一個綜合AI Agent。在2023年4月,浙江大學(xué)和微軟聯(lián)合團(tuán)隊推出HuggingGPT,這一系統(tǒng)能夠連接不同的AI模型來解決用戶提出的各種任務(wù)。HuggingGPT整合HuggingFace社區(qū)中的眾多模型和GPT,可應(yīng)對24種任務(wù),包括文本分類、對象檢測、語義分割、圖像生成、問答、文本語音轉(zhuǎn)換以及文本視頻轉(zhuǎn)換。其工作流程分為四步:
1)任務(wù)規(guī)劃:通過使用ChatGPT獲取用戶的請求;
2)模型選擇:基于HuggingFace中函數(shù)描述選擇適當(dāng)模型,并使用選中模型執(zhí)行AI任務(wù);
3)任務(wù)執(zhí)行:執(zhí)行由第2步選擇模型完成的任務(wù),將結(jié)果總結(jié)成回答返回給ChatGPT;
4)回答生成:利用ChatGPT整合所有模型推理,生成回答并返回給用戶。
HuggingGPT 的工作步驟流程
AI Agent智探視野
應(yīng)用領(lǐng)域深入剖析與龍頭公司
一、自主智能體:自動化,新一輪生產(chǎn)力革命
1、軟件新范式,非大模型玩家亦有機(jī)會
自主智能體力圖實現(xiàn)復(fù)雜流程自動化,被類比為自動駕駛的L4階段,在任務(wù)執(zhí)行中不僅能夠減輕人類負(fù)擔(dān),還需外部輔助和監(jiān)督。這一新型智能體有望引發(fā)軟件行業(yè)的交互方式和商業(yè)模式變革。交互方式方面,Agent決策、規(guī)劃、執(zhí)行等環(huán)節(jié)要更深刻理解用戶需求,需要設(shè)計更智能架構(gòu)解決問題。商業(yè)模式上,服務(wù)內(nèi)容收費可能會向按token收費轉(zhuǎn)變,對Agent功能實用性提出更高要求。雖然基座大模型能力重要,但在實際應(yīng)用中,自主智能體架構(gòu)設(shè)計、工程能力、垂類數(shù)據(jù)質(zhì)量同樣至關(guān)重要。在企業(yè)應(yīng)用中,準(zhǔn)確度和效率是關(guān)鍵指標(biāo),同時也存在對低門檻定制Agent的需求。
2、實驗性 VS 實操性,單智能體 VS 多智能體
行業(yè)內(nèi)對自主智能體的探索可分為實驗性VS實操性、單智能體VS多智能體兩大類。實驗性項目如AutoGPT雖可能在運行中出錯,但對開發(fā)者提供創(chuàng)意、思路和經(jīng)驗的啟發(fā)。實操性應(yīng)用更注重與實際場景的適配。在單智能體和多智能體之間,單智能體適用于簡單任務(wù),在C端應(yīng)用上有潛力,但在B端場景中面臨評估不足、任務(wù)繁重和大模型幻覺等挑戰(zhàn),而多智能體在解決復(fù)雜工作上具有更突出優(yōu)勢。
1)單智能體1:實驗性項目
AutoGPT
AutoGPT是由游戲開發(fā)者Toran Bruce Richards于2023年3月開源的實驗性AI Agent項目。該項目在GitHub上線5個月,星標(biāo)數(shù)量已超過149K,成為代表性實驗性項目,對后續(xù)Agent發(fā)展有啟發(fā)意義。AutoGPT可以根據(jù)用戶目標(biāo)自動生成提示,利用GPT-4和多種工具API執(zhí)行多步驟項目,無需人類干預(yù)。使用多個外部工具,包括克隆GitHub倉庫、啟動其他Agent、發(fā)言、發(fā)送推文和生成圖片等,同時支持各種矢量數(shù)據(jù)庫、LLM提供商、文本到圖片模型和瀏覽器。該項目應(yīng)用場景主要涉及辦公和開發(fā)領(lǐng)域,包括自動化流程、市場研究、代碼編寫和網(wǎng)站/App開發(fā)等,但實際效果一般。
代碼開發(fā)類 GPTEngineer
GPT Engineer是由Anton Osika于6月11日推出的開源代碼生成工具,基于GPT模型,根據(jù)用戶的指示生成高質(zhì)量代碼,包括創(chuàng)建新函數(shù)、修復(fù)代碼錯誤等,支持多種編程語言。截至2023年9月,其在GitHub上的星星數(shù)量接近44k。
科研類 GPT Researcher
GPT Researcher是哥倫比亞大學(xué)研究團(tuán)隊推出的網(wǎng)絡(luò)科研任務(wù)專用的AI Agent項目,致力于生成詳盡、精確和客觀的研究報告。該項目已在GitHub上開源,截至2023年9月,星星數(shù)量超過4k。
GPT Researcher生成一系列研究問題,通過網(wǎng)絡(luò)爬蟲Agent從在線資源中收集與任務(wù)相關(guān)信息。每個獲取資源都會被概括,并追蹤其來源。當(dāng)然所有資源都會被篩選、匯總,形成一份完整的研究報告。
創(chuàng)作類 ShortGPT
ShortGPT 可實現(xiàn)自動編輯框架、編輯腳本和提、創(chuàng)建配音/內(nèi)容、生成字幕、從互聯(lián)網(wǎng)上獲取圖像和視頻片段等功能,并根據(jù)需要與網(wǎng)絡(luò)和 Pexels API 連接;確保使用 TinyDB 自動編輯變量的長期持久性等功能。
2)單智能體 2:實現(xiàn)交互變革,中心化應(yīng)用
功能升級后的 ChatGPT
ChatGPT在2023年經(jīng)歷多項功能增強(qiáng):
- 增加近900個插件,覆蓋多個領(lǐng)域,但每次最多只能啟動3個插件。
- 推出高級數(shù)據(jù)分析功能,允許編寫和執(zhí)行Python代碼,并能處理文件上傳,提高處理復(fù)雜任務(wù)和數(shù)學(xué)推理準(zhǔn)確度。
- 自定義指令功能允許用戶預(yù)設(shè)身份和指令,提高ChatGPT的個性化水平。
- 9月引入多模態(tài)輸入,支持語音對話和圖像輸入,降低使用門檻,使其更具廣泛應(yīng)用性。
- 企業(yè)版本提供更多功能和支持,有望推動ChatGPT在B端應(yīng)用和商業(yè)領(lǐng)域的發(fā)展。
Adept AI
AI初創(chuàng)公司Adept于2022年9月發(fā)布大型行動模型ACT-1。ACT-1以桌面對話框形式存在,用戶通過自然語言與其進(jìn)行交互,改變過去鼠標(biāo)/鍵盤的操作方式。用戶可通過在文本框中輸入命令,在電腦上隨時調(diào)用ACT-1,一步步完成操作,并在需要時跨多個工具進(jìn)行協(xié)調(diào)。用戶可以即時反饋和修改錯誤。使用示例包括在Google Sheet中創(chuàng)建損益欄、更新收入總值、添加新產(chǎn)品和聯(lián)系人,以及在交易平臺上尋找適合商品。
3)單智能體 3:實現(xiàn)交互變革,可定制、平臺化
Cortex
Cortex是由Kinesys AI推出產(chǎn)品,允許用戶在其私有數(shù)據(jù)上構(gòu)建AI合作伙伴,提供按使用量計費的定制AI助手服務(wù)。Cortex整合多個大型模型并通過調(diào)用向量數(shù)據(jù)、實時聯(lián)網(wǎng)搜索和API等方式增強(qiáng)專業(yè)領(lǐng)域的實用性。在同一公司內(nèi),Cortex根據(jù)不同業(yè)務(wù)部門的需求,輸出適應(yīng)每個人崗位關(guān)鍵點信息,實現(xiàn)個性化服務(wù)。Cortex的客戶群體主要包括個人開發(fā)者和早期初創(chuàng)企業(yè),旨在減少從調(diào)試開始的工作量。已有10多家付費用戶和上千個個人用戶。
MindOS
MindOS是心識宇宙發(fā)布的多功能AI Agent引擎和平臺,用戶能在短短3分鐘內(nèi)開發(fā)獨特記憶、個性和專業(yè)知識的可定制Genius。平臺提供1000多個具有性格和功能的預(yù)置Genius,其準(zhǔn)確推斷意圖的準(zhǔn)確率高達(dá)97%。功能包括Marketplace(分享和發(fā)現(xiàn)Genius)、Workflow(通過拖放和簡單配置構(gòu)建Genius)、Structured Memory(從對話中提取結(jié)構(gòu)化信息),未來還將增加Deep Thinking(深度思考)、Self Learning(自主學(xué)習(xí))和Teamwork(團(tuán)隊協(xié)作)等板塊。
4)多智能體:AGENT 團(tuán)隊完成復(fù)雜開發(fā)任務(wù)
MetaGPT
MetaGPT是深度賦智于7月開源的多智能體框架,旨在幫助用戶快速搭建虛擬公司。虛擬公司中的員工都是智能體,涵蓋工程師、產(chǎn)品經(jīng)理、架構(gòu)師和項目經(jīng)理等角色。用戶只需輸入簡短需求,MetaGPT能輸出整個軟件公司的工作流程和詳細(xì)的SOP,如創(chuàng)作故事、競品分析等。
該框架包括基礎(chǔ)組件層和協(xié)作層。基礎(chǔ)組件層構(gòu)建單個Agent操作和全系統(tǒng)信息交換所需的核心構(gòu)件,包括環(huán)境、記憶、角色和工具。協(xié)作層在基礎(chǔ)組件層之上建立,協(xié)調(diào)單個Agent協(xié)同解決復(fù)雜問題,實現(xiàn)知識共享和封裝工作流程。知識共享允許Agent交換信息,而封裝工作流則利用SOP將任務(wù)分解為易于管理的組件,確保符合總體目標(biāo)。
MetaGPT在橫向?qū)Ρ戎姓宫F(xiàn)出較高的實操價值,在GitHub上開源兩個月內(nèi)獲得超過24K的STAR數(shù)量。與大模型相比,MetaGPT基于GPT4-32k,利用4個Agent(工程師、產(chǎn)品經(jīng)理、架構(gòu)師、項目經(jīng)理),在MBPP和HumanEval開源數(shù)據(jù)集上的單次嘗試通過率明顯優(yōu)于其他代碼生成LLM,包括GPT4和CODEX等。MetaGPT的獨特之處在于其能夠生成產(chǎn)品需求文檔和技術(shù)設(shè)計,展示出在不同場景下具有更強(qiáng)通用性項目執(zhí)行方法。實驗證明,在低成本和低門檻下MetaGPT可以開發(fā)簡易軟件項目,平均每個項目消耗26.6k token用于prompt,完成任務(wù)后總成本為1.09美元耗時8-9分鐘,遠(yuǎn)低于傳統(tǒng)軟件工程開發(fā)成本和時間。但MetaGPT偶爾會引用不存在資源文件,容易在執(zhí)行復(fù)雜任務(wù)時調(diào)用未定義或未導(dǎo)入的類或變量,這些問題可以通過更清晰、更高效的AGENT協(xié)作工作流程來處理。
ChatDev
ChatDev是由清華大學(xué)NLP實驗室孫茂松教授指導(dǎo),與面壁智能、北京郵電大學(xué)、布朗大學(xué)研究人員聯(lián)合發(fā)布全流程自動化軟件開發(fā)框架。
ChatDev采用gpt3.5-turbo-16k版本ChatGPT API,從Camel指令跟隨對話數(shù)據(jù)集中隨機(jī)選擇70個任務(wù),作為CHATDEV軟件開發(fā)分析基礎(chǔ)。
該框架驅(qū)動智能體對話的關(guān)鍵機(jī)制包括:
- 角色專業(yè)化通過角色扮演確保每個智能體在專業(yè)角色下完成相應(yīng)方案提議和決策討論;
- 記憶流保存每輪對話記錄以確保思路連貫性;
- 自反思當(dāng)智能體未能滿足要求時,生成一個“偽我”向instructor反饋問題和相關(guān)對話。
CHATDEV為軟件開發(fā)提供一種高效、無需培訓(xùn)且具有成本效益新方法。與傳統(tǒng)軟件開發(fā)相比,CHATDEV平均生產(chǎn)時間不到7分鐘,成本不到0.3美元,遠(yuǎn)低于傳統(tǒng)軟件開發(fā)費用和周期(通常需要數(shù)周或數(shù)月)。然而,在使用CHATDEV時提供更具體的說明可以更好地發(fā)揮其功能,尤其適用于中小型軟件項目。
二、智能體模擬:擬人化,新的精神消費品
1、陪伴類,提供情緒價值
陪伴類智能體強(qiáng)調(diào)人類特征,包括情感情商和個性化"人格",具備記憶用戶歷史交流能力。隨著大模型情商的不斷迭代和多模態(tài)技術(shù)的發(fā)展,預(yù)計未來陪伴類智能體將更加立體擬人,能夠提供更高情感價值。
當(dāng)前,國內(nèi)情感消費市場仍有巨大的發(fā)展空間,尤其在社會婚姻觀念轉(zhuǎn)變和現(xiàn)代工作生活緊張的情況下,人們對陪伴的需求不斷增加。陪伴類智能體有望成為LLM時代的重要原生應(yīng)用。從商業(yè)角度出發(fā),預(yù)計陪伴類智能體的主要商業(yè)價值將集中在知名IP上。當(dāng)前,那些擁有豐富IP儲備或允許用戶定制智能體的平臺將在市場上有廣闊前景。
具體而言,陪伴類智能體商業(yè)應(yīng)用包括在線社交和秀場直播,但需要注意在線社交可能面臨用戶在建立情感聯(lián)系后轉(zhuǎn)向主流社交平臺問題,而秀場直播用戶價值可能更加集中在熱門主播而非平臺。
1)InflectionAI:高情商個人 AI——Pi
Inflection AI推出名為Pi的個人AI產(chǎn)品于2023年5月正式上線。該初創(chuàng)公司成立于2022年估值已達(dá)40億美元,僅次于OpenAI在人工智能領(lǐng)域的地位。Pi與ChatGPT有所不同,并非以專業(yè)性或替代人工方式進(jìn)行宣傳。Pi無法編寫代碼或生成原創(chuàng)內(nèi)容,與通用聊天機(jī)器人不同,Pi專注于友好對話、提供簡潔建議,甚至只是傾聽。其主要特點包括富有同情心、謙虛好奇、幽默創(chuàng)新,具備較高的情商。Pi的定位是個人智能(Personal Intelligence),旨在提供個性化知識和陪伴,而非僅僅是輔助人工作的工具。
Inflection-1 可媲美 GPT-3.5 和 LLaMA(65B)
Pi的核心是Inflection AI開發(fā)的Inflection-1大模型其性能與GPT-3.5相當(dāng)。Inflection-1在多任務(wù)語言理解和常識問題等方面表現(xiàn)略勝于GPT-3.5和LLaMA等常見大模型,但在代碼方面稍顯不足。然而,這正是公司的差異化競爭之處,因為Pi作為以情感陪伴為主的Agent,無需具備強(qiáng)大的代碼和輔助工作能力。
與輔助工作的Agent不同,Pi更能滿足情感陪伴需求。作為一個情商高的AI Agent,Pi能夠使用更日常和生活化的語言與用戶進(jìn)行交流。Pi的回復(fù)貼近生活,語氣得體,關(guān)心用戶當(dāng)前狀態(tài)和事態(tài)發(fā)展,就像心理醫(yī)生或最好的朋友一樣。在回答可能涉及負(fù)面情緒問題時,Pi避免使用冒犯用戶的俏皮表情或輕松口吻。甚至使用表情來增強(qiáng)對話人性化感覺,使用戶感覺像在與真正的人類進(jìn)行交流。此外,Pi還能記住與用戶的對話,隨著時間的推移更好地理解用戶。Pi填補傳統(tǒng)人工智能對人類情感需求忽視,類似于Pi這樣提供情感陪伴的個人AI Agent在市場上具有巨大潛力。
2)平臺化娛樂化,如 Character.AI、Glow 等
Character.AI成立于2021年10月,創(chuàng)始團(tuán)隊專注于深度學(xué)習(xí)、大型語言模型和對話領(lǐng)域,團(tuán)隊成員曾在Google Brain和Meta AI工作。在2022年9月推出Beta版本,采用GPT-3大模型,通過大量虛構(gòu)人物數(shù)據(jù)進(jìn)行訓(xùn)練,使聊天機(jī)器人能夠根據(jù)人物的個性和特征生成對話和文本響應(yīng)。據(jù)Character.AI官方透露,Beta版本推出2個月后,每天生成10億個單詞,截至2022年12月,用戶已創(chuàng)建超過35萬個機(jī)器人,涵蓋信息檢索、教練、教育、娛樂等多個領(lǐng)域。類似的產(chǎn)品還包括Replika、Glow等。
2、重交互,提高用戶體驗
交互智能體著重于強(qiáng)化與環(huán)境的互動能力,使智能體能夠與其他智能體或虛擬世界內(nèi)的事物進(jìn)行實質(zhì)性互動。這種能力可能導(dǎo)致超越設(shè)計者規(guī)劃的場景和能力,尤其在開放世界游戲等領(lǐng)域,創(chuàng)造可信的智能體(主要是可信NPC)是為了賦予虛擬世界以生命的感覺。這些智能體能夠做出決策并根據(jù)自己的意愿行動,從而創(chuàng)造出更真實的游戲體驗,提升玩家的沉浸感,同時解決開放世界游戲中內(nèi)容消耗過快的問題。隨著可信智能體技術(shù)的成熟,可能會孕育出新的游戲品類,并在AIGC中扮演重要角色。
1)單智能體:游戲世界 AI 玩家,如 Voyager
Voyager是英偉達(dá)推出的首個大模型游戲智能體于2023年5月開源。該智能體在《我的世界》中應(yīng)用,該游戲以無限可能性的虛擬世界而著稱。沒有預(yù)定的最終目標(biāo)或故事情節(jié)。Voyager被設(shè)計成一個高效的終身學(xué)習(xí)Agent類似于人類玩家的能力,可以根據(jù)當(dāng)前技能水平和世界狀態(tài)發(fā)現(xiàn)適當(dāng)?shù)娜蝿?wù),并通過反饋學(xué)習(xí)和改進(jìn)技能,持續(xù)探索世界。英偉達(dá)采用“無梯度”的訓(xùn)練方法,使基于GPT-4的Voyager在游戲中表現(xiàn)出色,獨特物品增加3.3倍,行進(jìn)距離增加2.3倍,解鎖科技樹里程碑的速度更是提高15.3倍。
Voyager 玩游戲的水平相比之前的方法大幅提升
Voyager引入三個創(chuàng)新組件:自動課程、技能庫和迭代prompt機(jī)制。自動課程設(shè)定開放性探索目標(biāo),由GPT-4生成,根據(jù)探索進(jìn)度和Agent狀態(tài)最大程度地實現(xiàn)探索。技能庫存儲有助于解決任務(wù)行動程序,使Voyager能夠逐步建立起一個技能庫,并隨時間增強(qiáng)其能力,有效緩解“災(zāi)難性遺忘”問題。迭代prompt機(jī)制通過環(huán)境反饋、執(zhí)行錯誤和自我驗證來更新prompt,使GPT-4能夠自主迭代,直到生成足夠完成當(dāng)前任務(wù)的prompt。
Voyager由三大新型組件組成
Voyager在探索性能、科技樹掌握速度和地圖覆蓋率等方面顯著優(yōu)于其他Agent框架,特別是在解鎖科技樹和拓展地圖范圍方面表現(xiàn)突出。然而,與此強(qiáng)大性能相比,Voyager的高昂成本成為一大制約因素。其使用GPT-4的代碼生成能力導(dǎo)致成本居高不下。此外,存在“幻覺”問題,例如自動課程可能提出無法完成的任務(wù)。盡管如此,學(xué)界普遍認(rèn)為Voyager是AI Agent領(lǐng)域的一項重大突破,使得實現(xiàn)真正的AGI更為接近。
Voyager 的探索范圍遠(yuǎn)大于其他 Agent 框架
2)多智能體:Smallville 小鎮(zhèn)、網(wǎng)易《逆水寒》手游、昆侖萬維《ClubKoala》虛擬世界
多智能體:Smallville 小鎮(zhèn),類西部世界的模擬社會
斯坦福大學(xué)研究者們在2023年4月首次創(chuàng)造一個虛擬的西部小鎮(zhèn),其中包含25個生成式AI代理,構(gòu)成一個交互式沙盒環(huán)境。這些智能體展現(xiàn)出類似人類行為,如在公園散步、在咖啡館喝咖啡,甚至規(guī)劃舉辦情人節(jié)派對。這些Agent具有人類特質(zhì)、獨立決策和長期記憶等功能,被稱為“原生AI Agent”。在這個虛擬環(huán)境中,這些Agent不僅服務(wù)于人類工具,還能夠在數(shù)字世界中相互合作,建立社交關(guān)系。
在西部世界小鎮(zhèn)的AI Agents架構(gòu)中,記憶流是核心要素,包含三大基本要素:記憶、反思和規(guī)劃。記憶流(MemoryStream)存儲Agent的所有經(jīng)歷記錄,每個觀察包含事件描述、創(chuàng)建時間和最近訪問的時間戳。檢索過程考慮最近性、重要性和相關(guān)性三個因素,通過分?jǐn)?shù)確定權(quán)重最高記憶,作為prompt傳遞給大模型,決定Agent下一步動作。
網(wǎng)易《逆水寒》手游,AINPC 提高玩家體驗
《逆水寒》手游于2023年6月30日上線,首日登頂iOS游戲免費榜,截至7月3日仍位居榜首。在iOS游戲暢銷榜上,公測當(dāng)天晚間躍升至第3名,次日晚上進(jìn)一步升至第2名。游戲引入百位AINPC,這些NPC不僅與玩家互動自如,還具有記憶功能,極大增加游戲的趣味性。AINPC提供豐富的探索劇情,使游戲內(nèi)容更加豐富多彩。通過與NPC互動,玩家可以深入了解游戲世界,獲取寶貴信息,例如了解boss的弱點。此外,NPC之間的關(guān)系網(wǎng)還能幫助玩家巧妙解決難題。
昆侖萬維《ClubKoala》虛擬世界更可信
引入AI NPC,賦予虛擬世界更真實的體驗。采用Play for Fun的Atom AI系統(tǒng),每個AI NPC都具備獨特的性格和行為模式,自主安排日程并相互影響。加入記憶系統(tǒng)后,AI NPC能夠記住與玩家的互動,根據(jù)玩家行為調(diào)整自身,展現(xiàn)出逐漸發(fā)展的“自我意識”,實現(xiàn)更自然、真實的動作和對話。與AI NPC的互動將被NPC牢記,分析玩家行為并在后續(xù)互動中反映,構(gòu)建真正的玩家與NPC紐帶。
三、AI Agent 應(yīng)用領(lǐng)域
1、AI Agent 有望多個領(lǐng)域?qū)崿F(xiàn)落地應(yīng)用
AI Agent是釋放大型語言模型(LLM)潛能的關(guān)鍵,未來將與人類合作更加密切。當(dāng)前的大模型如GPT-4擁有強(qiáng)大的能力,但其性能仍受用戶prompt質(zhì)量限制。AI Agent出現(xiàn)將用戶從prompt工程中解放出來,只需提供任務(wù)目標(biāo),以大模型為核心的AI Agent即可為其提供行動能力,實現(xiàn)任務(wù)完成。雖然目前AI Agent主要處理簡單任務(wù),但隨著研究的深入,人類與AI Agent的合作將不斷增多,形成一個自動化的合作體系,推動人類社會的生產(chǎn)結(jié)構(gòu)變革。AI Agent有望在多個領(lǐng)域?qū)崿F(xiàn)實際應(yīng)用,一些演示產(chǎn)品已經(jīng)表現(xiàn)出色。AI Agent已初步應(yīng)用于各領(lǐng)域,并有望成為AI應(yīng)用的基礎(chǔ)架構(gòu),涵蓋toC、toB等產(chǎn)品領(lǐng)域。
Al Agent 可能的應(yīng)用領(lǐng)域
2、2B+垂類 Agent 認(rèn)知正在形成,有望率先落地
AI Agents在2B和垂直領(lǐng)域有望率先實現(xiàn)實際應(yīng)用。由于Agent對環(huán)境反饋的依賴性,特定的企業(yè)環(huán)境更適合Agent建立對某一垂直領(lǐng)域認(rèn)知。傳統(tǒng)企業(yè)與AI結(jié)合應(yīng)用主要集中在流程任務(wù)自動化,而Agent能夠進(jìn)一步提升一線員工工作質(zhì)量。通過將企業(yè)在私域業(yè)務(wù)上的知識傳授給Agent,使其成為領(lǐng)域的虛擬專家,指導(dǎo)并幫助一線員工。從時間角度看,經(jīng)驗豐富的高級員工需要長時間培養(yǎng),而訓(xùn)練得到的垂類Agent可以低成本規(guī)模化復(fù)制。
大模型時代的到來加速AI技術(shù)平民化,未來5-10年內(nèi)AI智能成本有望迅速降低,從而實現(xiàn)企業(yè)為每一位員工搭配Agent愿景。用戶對Agent的認(rèn)知逐漸形成,初創(chuàng)企業(yè)正在積極布局。盡管AI Agent的未來形態(tài)尚未確定,但用戶對Agent的關(guān)注度正在上升,對于提升效率的認(rèn)知也在形成。未來幾年可能涌現(xiàn)出大量以Agent為核心的產(chǎn)品應(yīng)用于各行各業(yè)。
四、龍頭企業(yè)公司
大模型賦能讓進(jìn)一步智能化的 AI Agent 成為可能。具備底層大模型算法技術(shù)的公司以及相關(guān)的應(yīng)用軟件公司有望基于 AI Agent 實現(xiàn)應(yīng)用的落地。
1、OpenAI:OpenAI GPTs 展現(xiàn) AI Agent 初級形態(tài)
GPTs+Assistants API為用戶提供創(chuàng)建自定義AI Agent的簡便途徑。通過自然語言構(gòu)建專屬GPT,整合個性化知識,并通過API調(diào)用外部功能,使每個人都有可能擁有自己的人工智能助理。
在GPTs方面,OpenAI推出自定義GPT功能,用戶可添加知識、操作和說明,并選擇私有、專屬或公開發(fā)布。企業(yè)版用戶還可為特定客戶或部門創(chuàng)建專屬ChatGPT。通過GPT Builder,用戶可以以自然語言交互方式創(chuàng)建自定義的GPT,大幅降低開發(fā)門檻,GPT應(yīng)用生態(tài)正在迅速發(fā)展。
另一方面,Assistants API是OpenAI專為開發(fā)者設(shè)計的全面API開發(fā)助手。提供代碼解釋器、檢索和函數(shù)調(diào)用等功能,代碼解釋器支持在沙盒中編寫和運行Python代碼,檢索功能增強(qiáng)助手的知識,而函數(shù)調(diào)用允許助手調(diào)用開發(fā)者定義的函數(shù),并將函數(shù)響應(yīng)合并到消息中。
OpenAl發(fā)布的官方 GPTs
OpenAI即將推出GPT Store成為官方應(yīng)用商店,為用戶提供GPT iPhone時代可能性。在插件系統(tǒng)基礎(chǔ)上升級,GPT Store將允許開發(fā)者分享和提交自定義GPTs,驗證后可供用戶下載使用,并由此創(chuàng)造收入將與OpenAI共享。插件系統(tǒng)已經(jīng)開放70多個插件,包括網(wǎng)頁創(chuàng)建、視頻編輯、數(shù)據(jù)分析等功能。自ChatGPT推出以來,已有超過200萬開發(fā)者使用API,92%的財富500強(qiáng)公司也在使用API,周活躍用戶已超過1億。
2、科大訊飛:訊飛構(gòu)建星火助手生態(tài)
訊飛星火插件推出AI工具集市,將第三方生產(chǎn)力工具整合到訊飛星火SparkDesk和星火App中。這些插件實現(xiàn)對大模型的即時信息更新和互聯(lián)網(wǎng)接入,消除數(shù)據(jù)集滯后問題有很大幫助。同時,插件擴(kuò)展模型應(yīng)用場景,使其適應(yīng)更多場景和需求,并支持企業(yè)私有化部署,確保內(nèi)部信息隱私和安全。目前,訊飛星火已接入8款插件,包括PPT生成、文檔問答、簡歷生成、ProcessOn、智能翻譯、內(nèi)容運營、AI面試官、郵件生成等,覆蓋18個主要應(yīng)用場景,如營銷、工具、旅游、購物、教育和招聘。
星火插件為大模型賦能助力
3、昆侖萬維:昆侖發(fā)布天工 SkyAgents
昆侖萬維于12月1日正式發(fā)布基于“天工大模型”的全新平臺“天工 SkyAgents”,旨在幫助用戶構(gòu)建具有自主學(xué)習(xí)和獨立思考能力的AI個人助理。該平臺涵蓋從感知到?jīng)Q策再到執(zhí)行的全方位智能,用戶可以通過自然語言構(gòu)建個性化的“私人助理”,實現(xiàn)協(xié)同作業(yè),跨部門和業(yè)務(wù)流程進(jìn)行信息整合與傳遞,為每個用戶提供智能管理助手。此外,平臺采用任務(wù)模塊化的方式,類似操作系統(tǒng)的模塊,覆蓋問題預(yù)設(shè)、指定回復(fù)、知識庫創(chuàng)建與檢索、意圖識別、文本提取、HTTP請求等多個任務(wù)方面。
SkyAgents 六大優(yōu)勢
SkyAgents的使用無需編碼,用戶能夠通過可視化設(shè)計自主定義和配置AI Agent的行為,使搭建過程變得簡單高效。昆侖萬維通過簡化開發(fā)流程和降低技術(shù)門檻,讓所有開發(fā)者都能輕松創(chuàng)建自己的個性化AI。平臺提供多種AI能力模塊組件,覆蓋工作、編輯、金融、寫作、助手、翻譯、營銷、生活等多個應(yīng)用場景。用戶還可以建立個人的“我的Agents”列表,方便管理和使用。
4、拓爾思:“拓天大模型”發(fā)布,AIGC 業(yè)務(wù)加速進(jìn)展及落地
公司專注于NLP、知識圖譜、OCR、圖像視頻結(jié)構(gòu)化等多模態(tài)內(nèi)容處理底層技術(shù),構(gòu)建全面的多模態(tài)人工智能產(chǎn)品體系,為客戶提供文本、音視頻、多模態(tài)等全棧服務(wù)。AIGC業(yè)務(wù)實現(xiàn)營收782.18萬元同比增長206.02%,主要應(yīng)用于消保報告自動生成和媒體智能輔助寫稿等領(lǐng)域。
公司當(dāng)前致力于研發(fā)拓天大模型Agent技術(shù),側(cè)重提升Agent的任務(wù)規(guī)劃、記憶、外部工具使用、多Agent協(xié)同等能力。拓天大模型主要服務(wù)金融、媒體、政務(wù)等領(lǐng)域,公司建立基于各行業(yè)的主題數(shù)據(jù)庫,為不同行業(yè)提供整合大模型產(chǎn)品,包括內(nèi)容生成、多輪對話、語義理解、跨模態(tài)交互、知識型搜索、邏輯推理、安全合規(guī)、數(shù)學(xué)計算、編程能力和插件擴(kuò)展等基礎(chǔ)能力。
5、彩訊股份:國產(chǎn)郵箱領(lǐng)軍者,AI、信創(chuàng)鑄就新機(jī)遇
公司初期專注基礎(chǔ)互聯(lián)網(wǎng)業(yè)務(wù),后轉(zhuǎn)型為產(chǎn)業(yè)互聯(lián)網(wǎng)技術(shù)及服務(wù)提供商,聚焦協(xié)助企業(yè)打造新型產(chǎn)品和渠道。在信創(chuàng)領(lǐng)域,公司的Richmail郵箱產(chǎn)品成為國內(nèi)主力,其信創(chuàng)適配與數(shù)據(jù)安全技術(shù)領(lǐng)先,已被中央集采郵箱項目采用,并備受政企客戶好評。
隨著大模型技術(shù)發(fā)展,公司在AI技術(shù)領(lǐng)域布局,于2023年發(fā)布了下一代智能郵箱demo產(chǎn)品,具備秘書級主動服務(wù)、大模型信息整合處理及跨域信息獲取與存儲等核心功能,提升日常郵件辦公效率超過20%。
6、金山辦公:AIGC+Copilot+Insight 三箭齊發(fā),AI 全面賦能 WPS 八大應(yīng)用
金山辦公是國內(nèi)領(lǐng)先的辦公軟件及服務(wù)提供商,旗下產(chǎn)品包括WPS Office、金山文檔、WPS 365和WPS AI等,具備全球競爭力,毛利率長期保持在80%以上。公司持續(xù)投入高強(qiáng)度研發(fā),并在行業(yè)信創(chuàng)和辦公軟件數(shù)智化趨勢下,WPS AI與WPS 365預(yù)計將迎來新的黃金發(fā)展期。
WPS AI是國內(nèi)首個實現(xiàn)AI+辦公軟件的產(chǎn)品,擁有三層次產(chǎn)品結(jié)構(gòu),包括AIGC輔助文章生成、Copilot實現(xiàn)自動操作和Insight提供個性化知識庫檢索。WPSAI已經(jīng)在WPS的八大應(yīng)用中實現(xiàn)全面賦能,涵蓋文檔、表格、文字和演示,通過公測展示在各個場景中的出色表現(xiàn),實現(xiàn)工作自動化和智能化,提高用戶效率和產(chǎn)品體驗。
WPS AI整合外部和自研模型,采用混合部署策略。與百度文心一言、MiniMax、智譜 AI、科大訊飛、阿里等廠商建立合作關(guān)系,同時公司自研的7B和13B模型共同支持WPS AI功能,提高在特定場景中的推理效率和性價比,也滿足具備私有化部署需求的客戶。
六、AI Agent 可能面臨的挑戰(zhàn)
1、安全與隱私
智能體的安全性和隱私性直接關(guān)系到用戶和社會的信任和保護(hù)。如OpenAI的GPTs在發(fā)布后出現(xiàn)的安全漏洞,可能導(dǎo)致用戶數(shù)據(jù)泄露。
2、倫理與責(zé)任
智能體的核心原則包括倫理和責(zé)任,不公平、不透明或不可靠的智能體可能會引起用戶和社會擔(dān)憂。此外,責(zé)任的明確歸屬是重要的議題。
3、經(jīng)濟(jì)和社會影響
智能體的發(fā)展對未來工作和社會就業(yè)產(chǎn)生影響。例如,智能體平臺可能對傳統(tǒng)自由職業(yè)者造成沖擊,而在社會工作中,雇主可能更趨向于減少人力投入,這引發(fā)對智能體技術(shù)對職業(yè)生涯的長期影響的關(guān)注。
未來3年,AI Agent能在哪些場景
為企業(yè)帶來業(yè)務(wù)增長與變革
一、AI Agent在企業(yè)內(nèi)的落地方式
盡管AI Agent的概念自今年五、六月份開始引起關(guān)注,并在國外涌現(xiàn)多個實際應(yīng)用場景和案例,但從企業(yè)用戶、廠商和學(xué)術(shù)界的角度來看,對AI Agent的定義存在差異。在企業(yè)用戶實施AI Agent的具體方案中,大致將其分為兩類。
1、與整體大模型能力建設(shè)密切相關(guān)的方案。企業(yè)用戶通常認(rèn)為大模型適用于多種場景,傾向于從中臺或能力層次來考慮大模型的運用。例如,某股份制銀行表示計劃在明年在六到七個特定場景中使用大模型,強(qiáng)調(diào)需要構(gòu)建整體大模型能力。
2、AI Agent在具體應(yīng)用場景中的應(yīng)用,如問答、運維管理、客服、數(shù)字人等,以及與RPA結(jié)合用于流程自動化,擔(dān)任招聘助理、人力資源助理、財務(wù)助理等。
這兩類方案指引企業(yè)用戶在大模型部署中的不同方向,同時需要注意AI Agent是被視為一種能力建設(shè)還是一個具體的應(yīng)用場景建設(shè)。
二、打造Agent中臺,建設(shè)大模型能力
AI Agent架構(gòu)的核心組件聚焦于四個關(guān)鍵因素:長短時記憶、相關(guān)配置工具、整體實現(xiàn)路徑規(guī)劃和最終執(zhí)行。在底層能力方面,依賴于大模型的支持,而這些模型可以是通用、商業(yè)或?qū)儆?xùn)練的。
在能力組件層面,AI Agent包括多種通用能力組件,如多模態(tài)檢索、內(nèi)容生成,以及Text to SQL、Text to Chart、Text to BI等數(shù)據(jù)分析中的處理能力。記憶組件主要依賴于向量數(shù)據(jù)庫和實時數(shù)據(jù)庫,賦予Agent特定的記憶功能。AI Agent借鑒RPA機(jī)器人的整體構(gòu)建思路,涵蓋單個設(shè)計、整體執(zhí)行、執(zhí)行環(huán)節(jié)實現(xiàn)以及用戶端互動。
在構(gòu)建AI Agent的整體平臺時,企業(yè)需考慮資源投入、底層計算能力、產(chǎn)品工具以及擁有深厚NLP經(jīng)驗的團(tuán)隊。不過,大多數(shù)企業(yè)在初期可能不需直接進(jìn)行這樣的建設(shè),而可專注于實際應(yīng)用的需求。
三、AI Agent未來應(yīng)用場景規(guī)劃
企業(yè)通過AI Agent在四個方向中尋求不同的價值:變革類、增收類、體驗類和降本類。盡管變革和增收是更大的價值所在,當(dāng)前許多公司,特別是面向消費者的企業(yè),更傾向于體驗類價值,因為對C端用戶具有高比重,并通過提升用戶體驗收集更多交互數(shù)據(jù)。
在技術(shù)方面,Agent的能力組件包括記憶、相關(guān)配置工具、實現(xiàn)路徑規(guī)劃和執(zhí)行。對于大模型的支持,特別是記憶組件的建設(shè),仍面臨挑戰(zhàn),但體驗類場景為企業(yè)提供收集用戶交互數(shù)據(jù)的機(jī)會,彌補一些企業(yè)在數(shù)據(jù)建設(shè)方面的不足。
在應(yīng)用方面,辦公助理和知識庫問答是實際應(yīng)用較好的領(lǐng)域,而面向整個公司層面的應(yīng)用尚有提升空間。運維管理、客服領(lǐng)域以及數(shù)據(jù)分析被認(rèn)為是未來重要的發(fā)展方向。數(shù)據(jù)分析的價值在于滿足短期和長期的管理和業(yè)務(wù)需求,促使企業(yè)建立更完善的數(shù)據(jù)文化,提升決策依據(jù)。零售場景的導(dǎo)購賦能和銷售賦能也被認(rèn)為是未來帶來收入增長的關(guān)鍵領(lǐng)域。
大型模型訓(xùn)練
GPU 內(nèi)存需求與優(yōu)化筆記
在處理大型模型時,必須綜合考慮計算能力、內(nèi)存使用以及GPU的適配情況。這不僅影響GPU在推理大型模型時的性能,還直接決定在訓(xùn)練集群中可用的總GPU內(nèi)存,從而對能夠訓(xùn)練的模型規(guī)模產(chǎn)生影響。
推理大型模型的內(nèi)存計算只需考慮模型權(quán)重。而在進(jìn)行大型模型訓(xùn)練時,內(nèi)存計算則需要考慮模型權(quán)重、反向傳播的梯度、優(yōu)化器所需的內(nèi)存以及正向傳播的激活狀態(tài)內(nèi)存。
以ChatGLM-6B為例,其參數(shù)設(shè)置包括隱藏層神經(jīng)元數(shù)量(hidden_size)為4096,層數(shù)(num_layers)為28,token長度為2048,注意力頭數(shù)(attention heads)為32。下面將詳細(xì)講解如何計算推理內(nèi)存和訓(xùn)練內(nèi)存。
一、推理內(nèi)存
1、模型權(quán)重
對于不同精度的模型內(nèi)存計算,可以使用以下簡化規(guī)則:
int8精度模型內(nèi)存=參數(shù)量的1倍(6GB)
fp16和bf16精度模型內(nèi)存=參數(shù)量的2倍(12GB)
fp32精度模型內(nèi)存=參數(shù)量的4倍(24GB)
因為1 GB ≈ 1B字節(jié),這種簡化規(guī)則使得估算ChatGLM-6B模型在不同精度下的內(nèi)存需求更為便捷。
2、推理總內(nèi)存
在進(jìn)行前向傳播時,除了用于存儲模型權(quán)重的內(nèi)存之外,通常會有一些額外的開銷。根據(jù)以往經(jīng)驗,通常被控制在總內(nèi)存的20%以內(nèi)。因此,可以估算推理總內(nèi)存≈1.2×模型內(nèi)存。
二、訓(xùn)練
1、模型權(quán)重
模型權(quán)重的內(nèi)存需求在訓(xùn)練階段涉及不同精度的訓(xùn)練,包括純fp32、純fp16以及混合精度(fp16/bf16 + fp32):
純fp32訓(xùn)練模型內(nèi)存=4 * 參數(shù)量(字節(jié))
純fp16訓(xùn)練模型內(nèi)存=2 * 參數(shù)量(字節(jié))
混合精度訓(xùn)練(fp16/bf16 + fp32)模型內(nèi)存=2 * 參數(shù)量(字節(jié))
對于ChatGLM-6B,這意味著:
純fp32訓(xùn)練模型內(nèi)存=4 * 6GB=24GB
純fp16訓(xùn)練模型內(nèi)存=2 * 6GB=12GB
混合精度訓(xùn)練模型內(nèi)存=2 * 6GB=12GB
這樣的設(shè)定允許在訓(xùn)練過程中選擇不同的精度,權(quán)衡模型性能和內(nèi)存開銷。
2、優(yōu)化器狀態(tài)
不同優(yōu)化器在內(nèi)存使用上有不同的計算方式:
純AdamW優(yōu)化器內(nèi)存=12 * 參數(shù)量(字節(jié))
8位優(yōu)化器(如bitsandbytes)內(nèi)存=6 * 參數(shù)量(字節(jié))
帶動量的類SGD優(yōu)化器內(nèi)存=8 * 參數(shù)量(字節(jié))
對于ChatGLM-6B,具體內(nèi)存計算如下:
純AdamW優(yōu)化器內(nèi)存=12 * 6GB=72GB
8位優(yōu)化器內(nèi)存=6 * 6GB=36GB
帶動量的類SGD優(yōu)化器內(nèi)存=8 * 6GB=48GB
這些設(shè)定允許在訓(xùn)練過程中選擇不同的優(yōu)化器,權(quán)衡模型訓(xùn)練速度和內(nèi)存開銷。
3、梯度
梯度的內(nèi)存需求取決于存儲的數(shù)據(jù)類型,通常為fp32或fp16。對于不同的數(shù)據(jù)類型,梯度內(nèi)存的計算方式如下:
fp32梯度內(nèi)存=4 * 參數(shù)量(字節(jié))
fp16梯度內(nèi)存=2 * 參數(shù)量(字節(jié))
對于ChatGLM-6B,具體梯度內(nèi)存計算如下:
fp32梯度內(nèi)存=4 * 6GB=24GB
fp16梯度內(nèi)存=2 * 6GB=12GB
這些設(shè)定允許在混合精度訓(xùn)練過程中選擇不同的梯度存儲類型,權(quán)衡訓(xùn)練速度和數(shù)值穩(wěn)定性。
訓(xùn)練總內(nèi)存=模型內(nèi)存+優(yōu)化器內(nèi)存+激活內(nèi)存+梯度內(nèi)存 = 12GB + 72GB + 12Gb + 7.8GB = 103GB
AI Agent對算力的需求
解析人工智能發(fā)展中的計算力挑戰(zhàn)
隨著人工智能技術(shù)的不斷發(fā)展,AI Agent作為其中的關(guān)鍵組成部分,對算力的需求日益增加。下面將深入分析AI Agent對算力的具體需求,以及這一需求在人工智能領(lǐng)域中所帶來的挑戰(zhàn)和影響。
一、AI Agent與算力的密切關(guān)系
AI Agent作為自主智能體,具備學(xué)習(xí)、推理和決策的能力,其運行和發(fā)揮功能需要強(qiáng)大的算力支持。在訓(xùn)練階段,AI Agent需要處理大量的數(shù)據(jù)和復(fù)雜的模型,而這就需要大規(guī)模的計算資源。算力的提供決定模型的規(guī)模、訓(xùn)練速度和推理效率,直接影響到AI Agent的性能和智能水平。
二、AI Agent的算力需求分析
大規(guī)模神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練需要處理龐大的數(shù)據(jù)集和復(fù)雜的模型結(jié)構(gòu)。如GPT-3和BERT,其訓(xùn)練過程更是對算力提出極高要求。隨著模型規(guī)模和復(fù)雜性的不斷增加,AI Agent對算力的需求也呈現(xiàn)出指數(shù)級的增長。大模型在處理更多參數(shù)和更復(fù)雜的模型結(jié)構(gòu)時能夠獲得更好的性能,但這也帶來訓(xùn)練和推理時的計算負(fù)擔(dān)。硬件供應(yīng)商和云服務(wù)提供商需要不斷提升計算資源的性能和規(guī)模,以滿足Agent日益增加的需求。
除訓(xùn)練過程,AI Agent在推理和實時決策中同樣對算力有著高效響應(yīng)需求。在處理實時數(shù)據(jù)和作出即時決策情境下,算力的快速響應(yīng)成為保證Agent高效運行關(guān)鍵因素。這對硬件架構(gòu)和計算資源的設(shè)計提出更高的要求,需要實現(xiàn)低延遲和高吞吐量。
AI Agent算力需求不僅僅影響到硬件供應(yīng)鏈,還對云服務(wù)行業(yè)和數(shù)據(jù)中心產(chǎn)業(yè)產(chǎn)生深遠(yuǎn)影響。云服務(wù)提供商需要提供彈性的計算資源,以適應(yīng)用戶對于AI Agent使用的不斷增長。數(shù)據(jù)中心的設(shè)計和運維也需要根據(jù)算力需求的變化進(jìn)行不斷優(yōu)化和升級。
三、大模型訓(xùn)練常用配置推薦
1、處理器CPU:
- Intel Xeon Gold 8358P 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W
- Intel Xeon Platinum 8350C 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W
- Intel Xeon Platinum 8458P 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W
- Intel Xeon Platinum 8468 Processor 48C/64T 2.1GHz 105M Cache 350W
- AMD EPYC? 7742 64C/128T,2.25GHz to 3.4GHz,256MB,DDR4 3200MT/s,225W
-AMD EPYC? 9654 96C/192T,2.4GHz to 3.55GHz to 3.7GHz,384MB,DDR5 4800MT/s,360W
2、顯卡GPU:
- NVIDIA L40S GPU 48GB
- NVIDIA NVLink-A100-SXM640GB
- NVIDIA HGX A800 80GB
- NVIDIA Tesla H800 80GB HBM2
- NVIDIA A800-80GB-400Wx8-NvlinkSW
審核編輯 黃宇
-
AI
+關(guān)注
關(guān)注
87文章
30897瀏覽量
269113 -
Agi
+關(guān)注
關(guān)注
0文章
80瀏覽量
10207 -
算力
+關(guān)注
關(guān)注
1文章
977瀏覽量
14822 -
模型訓(xùn)練
+關(guān)注
關(guān)注
0文章
18瀏覽量
1341 -
大模型
+關(guān)注
關(guān)注
2文章
2451瀏覽量
2714
發(fā)布評論請先 登錄
相關(guān)推薦
評論