穿越小说完本,盗墓笔记,已完本玄幻小说排行榜

Game Changer 還是標(biāo)題黨？

隨著大型語言模型（LLM）的發(fā)展，人工智能正處于變革的爆發(fā)期。眾所周知，LLM 可用于商業(yè)、科學(xué)和金融等應(yīng)用，因而越來越多的公司（OpenAI、AI21、CoHere 等）都在提供 LLM 作為基礎(chǔ)服務(wù)。雖然像 GPT-4 這樣的 LLM 在問答等任務(wù)中取得了前所未有的性能，但因?yàn)槠涓咄掏铝康奶刭|(zhì)，使得它們在應(yīng)用中非常昂貴。

例如，ChatGPT 每天的運(yùn)營成本超過 70 萬美元，而使用 GPT-4 來支持客戶服務(wù)可能會(huì)讓一個(gè)小企業(yè)每月花費(fèi)超過 2.1 萬美元。除了金錢成本外，使用最大的 LLM 還會(huì)帶來巨大的環(huán)境和能源影響。

現(xiàn)在很多公司通過 API 提供 LLM 服務(wù)，它們收費(fèi)各異。使用 LLM API 的成本通常包括三個(gè)組成部分：1）prompt 成本（與 prompt 的長度成比例），2）生成成本（與生成的長度成比例），以及 3）有時(shí)還會(huì)有對于每個(gè)查詢的固定成本。

下表 1 比較了 12 個(gè)不同商業(yè) LLM 的成本，這些 LLM 來自主流供應(yīng)商，包括 OpenAI、AI21、CoHere 和 Textsynth。它們的成本相差高達(dá) 2 個(gè)數(shù)量級：例如，對于 1000 萬個(gè) token，OpenAI 的 GPT-4 的 prompt 成本為 30 美元，而 Textsynth 托管的 GPT-J 僅為 0.2 美元。

成本和準(zhǔn)確性之間的平衡是決策制定的關(guān)鍵因素，尤其是在采用新技術(shù)時(shí)。如何有效和高效地利用 LLM 是從業(yè)者面臨的關(guān)鍵挑戰(zhàn)：如果任務(wù)相對簡單，那么聚合來自 GPT-J （其規(guī)模比 GPT-3 小 30 倍）的多個(gè)響應(yīng)可以實(shí)現(xiàn)與 GPT-3 類似的性能，從而實(shí)現(xiàn)成本和環(huán)境上的權(quán)衡。然而，在較為困難任務(wù)上，GPT-J 的性能可能會(huì)大大下降。因此，如何經(jīng)濟(jì)高效地使用 LLM 需要采用新的方法。

最近的一項(xiàng)研究嘗試提出解決這一成本問題的方法，研究者通過實(shí)驗(yàn)表明，F(xiàn)rugalGPT 可以與最佳個(gè)體 LLM（例如 GPT-4）的性能相媲美，成本降低高達(dá) 98%，或者在相同成本下將最佳個(gè)體 LLM 的準(zhǔn)確性提高 4%。

論文地址：https://arxiv.org/pdf/2305.05176.pdf

來自斯坦福大學(xué)的研究者回顧了使用 LLM API（例如 GPT-4，ChatGPT，J1-Jumbo）所需的成本，并發(fā)現(xiàn)這些模型具有不同的定價(jià)，費(fèi)用可能相差兩個(gè)數(shù)量級，特別是在大量查詢和文本上使用 LLM 可能更昂貴。基于這一點(diǎn)，該研究概述并討論了用戶可以利用的三種策略來降低使用 LLM 的推理成本：1）prompt 適應(yīng)，2）LLM 近似和 3）LLM 級聯(lián)。此外，該研究提出了級聯(lián) LLM 一個(gè)簡單而靈活的實(shí)例 FrugalGPT，它學(xué)習(xí)在不同查詢中使用哪些 LLM 組合以減少成本并提高準(zhǔn)確性。

這項(xiàng)研究提出的思想和發(fā)現(xiàn)為可持續(xù)高效地使用 LLM 奠定了基礎(chǔ)。如果能夠在不增加預(yù)算的情況下采用更高級的 AI 功能，這可能會(huì)推動(dòng)人工智能技術(shù)在各個(gè)行業(yè)的更廣泛采用，即使是較小的企業(yè)也有能力在其運(yùn)營中實(shí)施復(fù)雜的人工智能模型。

當(dāng)然，這只是一個(gè)角度，F(xiàn)rugalGPT 到底能實(shí)現(xiàn)怎樣的影響力，能否成為「AI 行業(yè)的游戲規(guī)則改變者」，還需要一段時(shí)間才能揭曉。在論文發(fā)布之后，這項(xiàng)研究也引發(fā)了一些爭議：

「摘要嚴(yán)重夸大了論文的內(nèi)容，這里的標(biāo)題也有嚴(yán)重的誤導(dǎo)性。他們所做的是設(shè)計(jì)了一種方法，以減少在論文中所涉及的一類問題中需要調(diào)用高端模型的次數(shù)。這不是以 2% 的成本替代 GPT-4，也不是以 4% 的精度替代 GPT-4。它是一種將 GPT-4 與更低廉的模型和支持性基礎(chǔ)設(shè)施相結(jié)合的方法。摘要中沒有指出的是，這需要建立一個(gè)自定義模型來對結(jié)果進(jìn)行評分，而這是該機(jī)制的真正核心。…… 這種方法有合法的用例，其中包括基本的成本工程，如緩存結(jié)果。但對于大多數(shù)用例來說，這完全不相關(guān)，因?yàn)槟銢]有一個(gè)合適的評分模型。」

「他們只在三個(gè)（小的）數(shù)據(jù)集上評估了這一點(diǎn)，并且沒有提供關(guān)于 FrugalGPT 選擇各自模型的頻率的信息。另外，他們報(bào)告說較小的模型取得了比 GPT-4 更高的準(zhǔn)確性，這使我對這篇論文總體上非常懷疑。」

具體如何判斷，讓我們看一下論文內(nèi)容。

如何經(jīng)濟(jì)、準(zhǔn)確地使用 LLM

接下來論文介紹了如何在預(yù)算范圍內(nèi)高效的使用 LLM API。如圖 1 （b）所示，該研究討論了三種降低成本的策略，即 prompt 適應(yīng)、LLM 近似和 LLM 級聯(lián)。

策略 1：prompt 適應(yīng)。LLM 查詢的成本與 prompt 的大小呈線性增長。因此，降低使用 LLM API 成本的一個(gè)合理方法包括減小 prompt 大小，該研究將這個(gè)過程稱為 prompt 適應(yīng)。prompt 選擇如圖 2（a）所示：與使用包含許多示例以演示如何執(zhí)行任務(wù)的 prompt 相比，可以只保留 prompt 中的一個(gè)小子集示例。這將導(dǎo)致更小的 prompt 和更低的成本。另一個(gè)例子是查詢串聯(lián)（圖 2（b）所示）。

策略 2：LLM 近似。LLM 近似的概念非常簡單：如果使用 LLM API 成本太高，可以使用更實(shí)惠的模型或基礎(chǔ)設(shè)施進(jìn)行近似。其中一個(gè)例子如圖 2（c）所示，其基本思想是在向 LLM API 提交查詢時(shí)將響應(yīng)存儲在本地緩存（例如數(shù)據(jù)庫）中。LLM 近似的另一個(gè)例子是模型微調(diào)，如圖 2 （d）所示。

策略 3：LLM 級聯(lián)。不同的 LLM API 在各種查詢中都有自己的優(yōu)勢和劣勢。因此，適當(dāng)選擇要使用的 LLM 既能降低成本又能提高性能。如圖 2（e）所示為 LLM 級聯(lián)的一個(gè)例子。

成本的降低與精度的提高

研究者進(jìn)行了一項(xiàng)關(guān)于 FrugalGPT LLM 級聯(lián)的實(shí)證研究，目標(biāo)有三個(gè)：

了解 LLM 級聯(lián)的簡單實(shí)例所學(xué)習(xí)的內(nèi)容；

量化 FrugalGPT 在匹配最佳的單個(gè) LLM API 的性能時(shí)實(shí)現(xiàn)的成本節(jié)約；

衡量 FrugalGPT 所實(shí)現(xiàn)的性能和成本之間的 trade-off。

實(shí)驗(yàn)設(shè)置分為幾方面：LLM API（表 1）、任務(wù)、數(shù)據(jù)集（表 2）和 FrugalGPT 實(shí)例。

FrugalGPT 是在上述 API 之上開發(fā)的，并在一系列屬于不同任務(wù)的數(shù)據(jù)集上進(jìn)行了評估。其中，HEADLINES 是一個(gè)金融新聞數(shù)據(jù)集，目標(biāo)是通過閱讀金融新聞標(biāo)題來確定金價(jià)趨勢（上升、下降、中性或無），這對于過濾金融市場的相關(guān)新聞特別有用；OVERRULING 是一個(gè)法律文件數(shù)據(jù)集，其目標(biāo)是確定一個(gè)給定的句子是否是一個(gè)「overruling」，即推翻以前的法律案件；COQA 是一個(gè)在對話環(huán)境中開發(fā)的閱讀理解數(shù)據(jù)集，研究者將其改編為一個(gè)直接查詢回答任務(wù)。他們專注于 LLM 級聯(lián)方法，級聯(lián)長度為 3，因?yàn)檫@簡化了優(yōu)化空間，并且已經(jīng)展示了良好的結(jié)果。每個(gè)數(shù)據(jù)集被隨機(jī)分成一個(gè)訓(xùn)練集來學(xué)習(xí) LLM 級聯(lián)和一個(gè)測試集進(jìn)行評估。

這里是一個(gè) HEADLINES 數(shù)據(jù)集案例研究：設(shè)定預(yù)算為 6.5 美元，是 GPT-4 成本的五分之一。采用針對回歸的 DistilBERT ［SDCW19］作為評分函數(shù)。值得注意的是，DistilBERT 比這里考慮的所有 LLM 都要小得多，因此成本較低。如圖 3（a）所示，學(xué)習(xí)的 FrugalGPT 順序調(diào)用 GPT-J、J1-L 和 GPT-4。對于任何給定的查詢，它首先從 GPT-J 中提取一個(gè)答案。如果這個(gè)答案的分?jǐn)?shù)大于 0.96，這個(gè)答案就被接受為最終的響應(yīng)。

否則，將對 J1-L 進(jìn)行查詢。如果 J1-L 的答案得分大于 0.37，則被接受為最終答案；否則，將調(diào)用 GPT-4 來獲得最終答案。有趣的是，這種方法在許多查詢中都優(yōu)于 GPT-4。例如，基于納斯達(dá)克的頭條新聞「美國 GDP 數(shù)據(jù)慘淡，黃金脫離低點(diǎn)」，F(xiàn)rugalGPT 準(zhǔn)確地預(yù)測了價(jià)格將下跌，而 GPT-4 提供了一個(gè)錯(cuò)誤的答案（如圖 3（b）所示）。

總體來說，F(xiàn)rugalGPT 的結(jié)果是既提高了準(zhǔn)確率又降低了成本。如圖 3 （c）所示，其成本降低了 80%，而準(zhǔn)確率甚至高出 1.5%。

LLM 的多樣性

為什么多個(gè) LLM API 有可能產(chǎn)生比最好的單個(gè) LLM 更好的性能？從本質(zhì)上講，這是由于生成的多樣性：即使是一個(gè)低成本的 LLM 有時(shí)也能正確地回答更高成本的 LLM 所不能回答的查詢。為了衡量這種多樣性，研究者使用最大的性能改進(jìn)，也可以成為 MPI。LLM A 相對于 LLM B 的 MPI 是指 LLM A 產(chǎn)生正確答案而 LLM B 提供錯(cuò)誤答案的概率。這個(gè)指標(biāo)實(shí)質(zhì)上是衡量在調(diào)用 LLM B 的同時(shí)調(diào)用 LLM A 所能達(dá)到的最大性能提升。

圖 4 顯示了所有數(shù)據(jù)集的每一對 LLM API 之間的 MPI。在 HEADLINES 數(shù)據(jù)集上，GPT-C、GPT-J 和 J1-L 都可以將 GPT-4 的性能提高 6%。在 COQA 數(shù)據(jù)集上，有 13% 的數(shù)據(jù)點(diǎn) GPT-4 出現(xiàn)了錯(cuò)誤，但 GPT-3 提供了正確的答案。盡管這些改進(jìn)的上界可能并不總是可以實(shí)現(xiàn)的，但它們確實(shí)證明了利用更低廉的服務(wù)來實(shí)現(xiàn)更好性能的可能性。

成本節(jié)約

隨后，研究者考察了 FrugalGPT 是否能在保持準(zhǔn)確性的同時(shí)降低成本，如果能，又能降低多少。表 3 顯示了 FrugalGPT 的總體成本節(jié)約，范圍從 50% 到 98%。這是可行的，因?yàn)?FrugalGPT 可以識別那些可以由較小的 LLM 準(zhǔn)確回答的查詢，因此只調(diào)用那些具有成本效益的 LLM。而強(qiáng)大但昂貴的 LLM，如 GPT-4，只用于由 FrugalGPT 檢測到的挑戰(zhàn)性查詢。

性能和成本的權(quán)衡

接著，研究者探討了 FrugalGPT 實(shí)現(xiàn)的性能和成本之間的權(quán)衡，如圖 5 所示，得出了幾個(gè)有趣的觀察結(jié)果。

首先，不同 LLM API 的成本排名并不是固定的。此外，更昂貴的 LLM APIs 有時(shí)會(huì)導(dǎo)致比其更便宜的同類產(chǎn)品更差的性能。這些觀察結(jié)果強(qiáng)調(diào)了適當(dāng)選擇 LLM API 的重要性，即使在沒有預(yù)算限制的情況下。

接下來，研究者還注意到，F(xiàn)rugalGPT 能夠在所有被評估的數(shù)據(jù)集上實(shí)現(xiàn)平滑的性能 - 成本權(quán)衡。這為 LLM 用戶提供了靈活的選擇，并有可能幫助 LLM API 供應(yīng)商節(jié)約能源和減少碳排放。事實(shí)上，F(xiàn)rugalGPT 可以同時(shí)降低成本和提高精確度，這可能是因?yàn)?FrugalGPT 整合了來自多個(gè) LLM 的知識。

圖 5 所示的例子查詢進(jìn)一步解釋了為什么 FrugalGPT 可以同時(shí)提高性能和降低成本。GPT-4 在一些查詢上犯了錯(cuò)誤，比如例如（a）部分的第一個(gè)例子，但一些低成本的 API 提供了正確的預(yù)測。FrugalGPT 準(zhǔn)確地識別了這些查詢，并完全依賴低成本的 API。例如，GPT-4 錯(cuò)誤地從法律陳述「現(xiàn)在是協(xié)調(diào)和規(guī)范我們在這個(gè)領(lǐng)域的案件的時(shí)候了」中推斷出沒有推翻，如圖 5（b）所示。

然而，F(xiàn)rugalGPT 接受了 GPT-J 的正確答案，避免了昂貴的 LLM 的使用，提高了整體性能。當(dāng)然，單一的 LLM API 并不總是正確的；LLM 級聯(lián)通過采用一連串的 LLM API 克服了這一點(diǎn)。例如，在圖 5 （a）所示的第二個(gè)例子中，F(xiàn)rugalGPT 發(fā)現(xiàn) GPT-J 的生成可能不可靠，于是轉(zhuǎn)向鏈中的第二個(gè) LLM J1-L，以找到正確的答案。同樣，GPT-4 提供了錯(cuò)誤的答案。FrugalGPT 并不完美，仍有足夠的空間來減少成本。例如，在圖 5 （c）的第三個(gè)例子中，鏈中所有的 LLM API 都給出了相同的答案。然而，F(xiàn)rugalGPT 不確定第一個(gè) LLM 是否正確，導(dǎo)致需要查詢鏈中的所有 LLM。確定如何避免這種情況仍然是一個(gè)開放的問題。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴