遮天辰东小说,魔天记忘语小说,欢乐颂小说结局是什么

最近復旦大學自然語言處理組鄭驍慶和黃萱菁團隊提出了基于表征工程（Representation Engineering）的生成式語言大模型人類偏好對齊方法RAHF（如圖1所示），作為基于人類反饋的強化學習算法RLHF[1]的代替方法之一，其性能上超過其他現有的替代方案，媲美RLHF。實現較為簡單，訓練時對于硬件資源要求也相對較低。

論文內容

動機

圖1.不同人類偏好對齊算法的對比。(a)人類反饋的強化學習算法RLHF；(b)基于對比學習的偏好優化方法DPO；(c)基于提示工程的HIR；(d) 基于表征工程的RAHF。

構建類似ChatGPT生成式語言大模型一般要經過語言模型、提令精調和強化學習三個主要訓練步驟，其中第三步使用強化學習來實現人類期望對齊既有一定的技術難度，又需要多次人工標注反饋，因而實現上有一定挑戰。經過前兩步語言模型和提令精調之后，語言大模型仍然會生成帶有偏見、歧視或者令人不適的回答。為了提升大模型的安全性、可用性和可信性，與人類期望對齊是必不可少的步驟。然而目前研究表明利用人類反饋的強化學習算法[1]（RLHF）存在訓練不穩定、對超參數敏感和訓練代價較高等問題。

針對基于強化學習的人類偏好對齊方法的上述不足，最近提出了一些替代的方法，相關實現思路和方法包括：

(1)借助對比學習的方法[2-4]，代表性工作為DPO（Direct preference optimization）[2]，即提高符合人類偏好回復生成概率的同時，降低人類滿意度較低回復的生成概率；

(2)基于提示工程的方法[5-6]，代表性工作為HIR（Hindsight instruction relabeling）[5]，即根據與人類偏好相符程度，設計不同的提示。在推理時使用匹配人類偏好較高的提示，從而引出更好的回答。

雖然上述方法都是Reward-free的方法（即不需要訓練獎勵評估模型），但實驗表明這些替代強化學習方法存在容易受到訓練集中噪聲樣本的影響（比如：錯誤標注、Dull Sentences和較短回復等）。主要原因是它們都是采用在樣本上直接精調的方式實現與人類偏好對齊，因而易受樣本質量的影響，而基于人類反饋的強化學習算法先訓練評估模型，然后采用評估模型的評分來引導模型的訓練過程。即使訓練樣本存在的噪聲，也通過評估模型的“過濾”，對最終模型不會產生直接的影響。

方法

為了獲得輕量級、易實現和Reward-free的人類偏好對齊方法，同時也緩解最終模型受訓練樣本中噪聲數據的不利影響。受到表征工程Representation Engineering）[7]方面最新進展的啟發，我們提出了RAHF（Representation Alignment from Human Feedback）方法。在神經網絡中，網絡權重決定了隱層表征、隱層表征決定了網絡輸出、網絡輸出決定了網絡行為（如：安全、真實、偏見等方面）。我們通過首先發現模型在生成不同質量回復時網絡隱層激發模式及差異，然后利用差異來對模型行為進行調整和操控。具體方法包括以下三個主要步驟：

(1)使用帶偏好注釋的數據集來讓大型語言模型“感知”人類的偏好；

(2)收集模型在不同偏好“刺激”情況下的隱層激活模式；

(3)利用收集到的激活模式及差異來調整模型使其與與人類偏好對齊。

我們嘗試了兩種方法讓模型“感知”人類偏好：單一模型（RAHF-SCIT）和二元模型（RAHF-DualLLMs）。都取得了不錯的結果，雖然二元模型RAHF-DualLLMs性能更佳，但單一模型RAHF-SCIT實現更為簡單，對硬件資源的要求也更低。

結果

我們在對話任務上對進行了對比實驗。實驗結果表明所提出的RAHF人類偏好對齊方法在各項指標上都優于其他非強化學習方法，并取得了與RLHF-PPO相媲美的結果。如表1所示，在Anthropic-HH數據集上相對于首選回復的勝率（結果使用GPT-4進行評判），我們所提出的RAHF-DualLLMs超過了除RLHF-PPO之外的所有代替方法，并且與RLHF-PPO僅有0.01的差距。表2報告了在不同生成采樣溫度下，偏好注釋數據上我們自己所訓練的獎勵模型（Reward model）和第三方提供的獎勵模型上的各方法的平均得分比較，這些數據也與表1的結果相吻合，并且表現出相似的趨勢。

表1. 在Anthropic-HH數據集上相對于首選回復的勝率（結果使用GPT-4進行評判）。

表2. 在不同生成采樣溫度下，偏好注釋數據上所訓練的獎勵模型（Reward model）和第三方提供的獎勵模型上的各方法的平均得分比較。

這項工作我們嘗試了一種受認知神經科學理論啟發的基于表征工程來實現生成式語言大模型與人類偏好對齊的策略，旨在提出一種輕量級和易實現的解決方案。目前仍然還有許多可改進的空間，我們希望這項研究能夠有助于更可控人工智能技術的發展。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

自然語言處理

自然語言處理

+關注

關注
1

文章
618

瀏覽量
13561

原文標題：基于表征工程的生成式語言大模型人類偏好對齊

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》

的未來發展方向進行了展望，包括跨領域、跨模態和自動提示生成能力方向，為讀者提供了對未來技術發展的深刻見解。《大語言模型原理與工程實踐》是一本

發表于 04-30 15:35

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

學習能力。這些模型以生成能力強和靈活性強為特點，逐漸演變成一種通用計算平臺。其參數多樣性、生成能力和涌現性使其不僅在自然語言處理領域表現出色

發表于 05-04 23:55

【大語言模型：原理與工程實踐】大語言模型的基礎技術

，這也是如今生成式 AI 中大語言模型最流行訓練架構。(3) Encoder-Decoder預訓練語言模

發表于 05-05 12:17

【大語言模型：原理與工程實踐】大語言模型的預訓練

如此卓越的性能，就是通過其核心能力對海量數據進行預訓練，再進行微調或對其什么型更好的根據人類的指令和偏好，發揮這些性能。隨著語言模型參數的不斷增加，

發表于 05-07 17:10

【大語言模型：原理與工程實踐】大語言模型的評測

。對齊訓練基于人類反饋和標注的偏好數據進行，使模型輸出內容與人類價值觀一致。此舉提高

發表于 05-07 17:12

【大語言模型：原理與工程實踐】大語言模型的應用

，它通過抽象思考和邏輯推理，協助我們應對復雜的決策。相應地，我們設計了兩類任務來檢驗大語言模型的能力。一類是感性的、無需理性能力的任務，類似于人類的系統1，如情感分析和抽取

發表于 05-07 17:21

大語言模型：原理與工程時間+小白初識大語言模型

開拓深度學習的思路。對于新涌現的大語言模型的能力，主要是表現在學習能力的提升、語言理解和生成能力、創新和探索的能力。基礎技術詞表示技術詞表示一

發表于 05-12 23:57

大語言模型：原理與工程實踐+初識2

的一系列變革。大語言模型是深度學習的應用之一，可以認為，這些模型的目標是模擬人類交流，為了理解

發表于 05-13 00:09

一種參數自調節優化控制策略

和頻率波動的問題，該文提出一種參數自調節優化控制策略。首先，建立VSG雙機并聯系統的小信號模型，分析轉動慣量及阻尼系數對輸出有功特性的影響；其次，在滿足系統動穩態性能的轉動慣量及阻尼系數限定取值范圍內，根據...

發表于 09-09 09:08

一種基于策略元素三元組的策略描述語言

分析常用策略描述語言的缺點，總結策略的主要配置方式，分析策略的組成成員，提出策略主要元素ECA三元組并給出其關系，設計

發表于 04-09 09:22 ?19次下載

一種基于域的遞增式策略部署模型

在介紹策略、域和策略目標等基本概念的基礎上，提出了一個通用性的策略部署模型，該模型采用基于域的分

發表于 05-25 21:47 ?7次下載

一種基于用戶偏好的權重搜索及告警選擇方法

用戶在現有交互方式下選擇最為嚴重的告警時完全依據其個人偏好，而未考慮處理不同告警所需成本的差異性問題。為此，提出一種基于用戶偏好的權重搜索及告警選擇方法。挖掘用戶對不同嚴重程度告警的偏好

發表于 04-29 16:26 ?4次下載

LLMs實際上在假對齊！

LLM的訓練分為預訓練和安全訓練。預訓練是指在大規模語料庫上進行訓練，因此LLM獲得了各種強大的能力，如文本生成、推理和主題知識等。安全訓練使用有監督的微調、RLHF、RLAIF和其他技術來對齊模型

發表于 11-20 17:41 ?1029次閱讀

大語言模型中的語言與知識：一種神秘的分離現象

自然語言處理領域存在著一個非常有趣的現象：在多語言模型中，不同的語言之間似乎存在著一種隱含的

發表于 02-20 14:53 ?526次閱讀

2024 年 19 種最佳大型語言模型

大型語言模型是2023年生成式人工智能熱潮背后的推動力。然而，它們已經存在了一段時間了。LLM是黑盒AI系統，它使用深度學習對超大數據集進行

發表于 08-30 12:56 ?531次閱讀