斗破苍穹续集,懒人听书,言情小说君子以泽

昨天Meta AI+CMU這篇文章一出，twitter都炸了！

LIMA，只使用1000個精心挑選的樣本微調一個 65B LLaMa，無需RLHF，性能媲美甚至優于GPT-4！

論文：LIMA: Less Is More for Alignment
地址：https://arxiv.org/pdf/2305.11206.pdf

天下人苦“對齊”久矣！要讓預訓練語言模型的響應和特定任務和用戶偏好對齊，動輒需要百萬示例數據集上的instruction tuning、以及最近從人類反饋中進行的強化學習，才能實現ChatGPT級別的性能。

這篇文章旨在用簡單的方法解決復雜的對齊問題，作者提出表面對齊假說(Superf icial Alignment Hypothesis)，將對齊視為一個簡單的過程：學習與用戶交互的樣式或格式，來展示預訓練期間就已經獲得的知識和能力！

結果發現，少量高質量樣例上的簡單微調就足以與當今最先進的技術競爭！這也證明預訓練過程的強大威力和重要性，遠勝于大規模instruction tuning和強化學習！

實驗設置

數據集來源：這1000個近似真實用戶提示和高質量響應的示例中，有750個來自Stack Exchange和wikiHow這樣的社區論壇，其余250個則是手動編寫。

微調的超參數：使用AdamW進行微調，其中，權重衰減為0.1。沒有熱身步驟，初始學習率設置為，并線性地降至訓練結束時的。批量大小設為32個示例（更小的模型為64個），長度大于2048 token的文本將被裁剪。與以往的顯著不同是在殘差連接上應用dropout，從底層的開始，線性升高到最后一層的（更小的模型為）。

基準模型

實驗將 LIMA 與五個基準模型進行比較：

(1)Alpaca 65B：將 LLaMa 65B 在 Alpaca 訓練集中的 52,000 個樣例上進行微調；(2) OpenAI 的DaVinci003，經過 RLHF 訓練的大語言模型；(3) 基于 PaLM 的谷歌Bard；(4) Anthropic 的Claude， 52B 參數，經過從 AI 反饋進行強化學習 (Constitutional AI) 訓練；(5) OpenAI 的GPT-4，經過 RLHF 訓練，目前認為最先進的大語言模型。

結果

根據人類偏好的實驗結果，LIMA 的表現比 Alpaca 65B 和 DaVinci003 都要更好！盡管Alpaca 65B 的訓練數據量比 LIMA 高52倍，而DaVinci003 采用了 RLHF，一種被認為是更優秀的對齊方法。

Bard 情況要好，在 42% 的時間產生了比 LIMA 更好的響應；然而，這也意味著至少58%的時間， LIMA 的表現和 Bard 相當。

最后，雖然 Claude 和 GPT-4 通常比 LIMA 的表現更加出色，但很多情況下，LIMA 確實能產生更好的響應。有些諷刺的是，即使是 GPT-4 也有19% 的時間會認為 LIMA 的輸出更好。

我們來欣賞下LLaMa的出色表演。藍色文本為prompt，左邊是與訓練集中示例相關的提示，中間是訓練集中不存在的提示，右邊則是挑戰模型拒絕不安全行為。

數據質量和多樣性更重要

為了證明LIMA （Less Is More for Alignment）這個少勝于多的觀點，作者通過消融實驗研究了訓練數據的多樣性、質量和數量對模型的影響。

結果發現，數據質量對生成質量存在顯著影響，使用篩選過的數據集訓練的模型與使用未經過濾的數據源訓練的模型之間存在0.5分差異。但是，令人驚訝的是，示例數量的加倍并不能改善響應的質量。這表明對齊的 scaling laws 不僅僅取決于數量，而在于保證質量的同時提高提示的多樣性。

多輪對話

不過，一個僅在1,000個單輪對話上進行微調的模型能否從事多輪對話（Multi-Turn Dialogue）呢？

在零樣本上，LIMA的響應出奇地連貫，并引用了前面對話的信息。但很明顯，這個模型正在超出分布范圍；在10次交流中有6次，LIMA在3個互動之內未能遵循提示。

為了提高對話能力，作者收集了30個多輪對話鏈。使用組合的1,030個示例對預訓練的LLaMa模型進行微調，得到一個新版本的LIMA，并針對相同的提示進行了10次實時對話。發現加入這30個示例后生成質量顯著提升，優質響應比例從45.2％提高到76.1％！

30個樣本的有限監督就能調用模型的多輪對話能力，這也支持了作者提出的表面對齊假說，即：這些能力是在預訓練期間學習的。

總結

作者在discussion部分指出了該方法的一系列問題：比如構建數據集示例需要巨大的腦力投入、難以擴展，不如產品級別的模型穩健等~

話雖如此，這篇研究證明了簡單方法就有解決復雜對齊問題的潛力。幾乎所有大語言模型中的知識都是在預訓練期間學習的，教導模型產生高質量輸出只需少量但精心的instructional tuning.

簡單才是王道！

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

語言模型

語言模型

+關注

關注
0

文章
524

瀏覽量
10277
CMU

CMU

+關注

關注
0

文章
21

瀏覽量
15251
ChatGPT

ChatGPT

+關注

關注
29

文章
1561

瀏覽量
7675

原文標題：Meta AI 重磅推出LIMA！媲美GPT-4、無需RLHF就能對齊！

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

ChatGPT升級　OpenAI史上最強大模型GPT-4發布

ChatGPT升級史上最強大模型GPT-4發布 OpenAI正式推出了ChatGPT升級版本，號稱史上最強大模型GPT-4發布。OpenAI期待GPT-4成為一個更有價值的

發表于 03-15 18:15 ?2825次閱讀

關于GPT-4的產品化狂想

GPT-4是條件，而不是結果

發表于 03-26 10:48 ?3003次閱讀

AIGC(GPT-4)賦能通信行業應用白皮書

”，2023 年 3 月 GPT-4 的發布則進一步推動了“態勢升級”。由 ChatGPT/GPT-4 引發的全球關注，令許多人回憶起 2016 年 AlphaGo 戰勝人類圍棋世界冠軍的時刻。如果說 AlphaGo 代表了 AI

發表于 03-29 16:59 ?27次下載

GPT-4是這樣搞電機的

GPT-4寫電機基礎程序沒問題

發表于 04-17 09:41 ?1020次閱讀

微軟GPT-4搜索引擎重大升級新Bing開放AI能力

GPT-4，GPT-4有更強悍的能力可以提供創意性文章創作和圖像識別功能。微軟馬上跟進，宣布旗下的Bing Chat已經升級使用了OpenAI提供的GPT-4技術。現在，微軟公司在官網聲明稱，基于

發表于 05-05 17:15 ?2601次閱讀

一樣媲美GPT-4、Bard，Meta發布650億參數語言模型LIMA

該研究使用了一個 65B 參數的 LLaMa 模型（該模型稱為 LIMA）在 1000 個精選樣本上進行有監督學習，在完全沒使用 RLHF 方法的情況下，LIMA 表現出非常強大的性能，并且能夠很好地泛化到訓練數據以外的任務上。

發表于 05-24 11:46 ?871次閱讀

人工通用智能的火花：GPT-4的早期實驗

人工智能（AI）研究人員一直在開發和完善大型語言模型（LLMs），這些模型在各種領域和任務中表現出非凡的能力，挑戰我們對學習和認知的理解。由OpenAI開發的最新模型GPT-4[Ope23

發表于 06-20 15:49 ?1次下載

GPT-4已經會自己設計芯片了嗎？

? GPT-4已經會自己設計芯片了！芯片設計行業的一個老大難問題HDL，已經被GPT-4順利解決。并且，它設計的130nm芯片，已經成功流片。 GPT-4，已經可以幫人類造芯片了！只用簡單的英語

發表于 06-20 11:51 ?974次閱讀

GPT-4催生的接口IP市場空間

自GPT-4大語言模型公布以來，百度、阿里、知乎、出門問問等國內互聯網公司紛紛跟進，在近兩個月中相繼推出了自家的產品。日前，鮮有公開演講的奇績創壇創始人兼CEO陸奇也分享了他對大模型時代的宏觀思考

發表于 07-03 14:17 ?873次閱讀

GPT-4沒有推理能力嗎？

今年三月，OpenAI 重磅發布了 GPT-4 大模型，帶來了比 ChatGPT 背后 GPT-3.5 更強的推理、計算、邏輯能力，也引發了全民使用的熱潮。在各行各領域研究人員、開發者、設計師的使用過程中，「

發表于 08-11 14:20 ?897次閱讀

ChatGPT重磅更新　OpenAI發布GPT-4 Turbo模型價格大降2/3

ChatGPT重磅更新 OpenAI發布GPT-4 Turbo模型價格大降2/3 目前OpenAI算是全球大模型的引領者，一舉一動都牽動著大家的關注，現在ChatGPT迎來重磅更新。 OpenAI

發表于 11-07 18:20 ?2815次閱讀

AI觀察 | 今年最火的GPT-4，正在締造科幻版妙手仁心！

近來，微軟對于提示工程能力的最新研究 1 （鏈接詳見文末）再次吸引了一眾媒體的目光：“無需額外微調、無需專業策劃，僅憑提示GPT-4就能化身專家！”報道中這樣描述道 2 。基于最新提

發表于 12-11 08:15 ?487次閱讀

ChatGPT plus有什么功能？OpenAI 發布 GPT-4 Turbo 目前我們所知道的功能

OpenAI 發布 GPT-4 Turbo 目前我們所知道的功能分析解答在最近的OpenAI DevDay上，該組織發布了一項備受期待的公告：推出GPT-4 Turbo，這是對其突破性AI

發表于 12-13 09:19 ?1143次閱讀

微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

起初，Copilot作為Bing Chat AI助手推出，初期采用GPT-3.5模型，隨后升級至GPT-4取得顯著進步，如今再次更新至性能卓越的GP

發表于 03-13 13:42 ?733次閱讀

OpenAI推出新模型CriticGPT，用GPT-4自我糾錯

基于GPT-4的模型——CriticGPT，這款模型專為捕獲ChatGPT代碼輸出中的錯誤而設計，其獨特的作用在于，讓人們能夠用GPT-4來查找GPT-4的錯誤。

發表于 06-29 09:55 ?549次閱讀