在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

RL究竟是如何與LLM做結合的?

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2024-01-03 16:34 ? 次閱讀

RLHF 想必今天大家都不陌生,但在 ChatGPT 問世之前,將 RL 和 LM 結合起來的任務非常少見。這就導致此前大多做 RL 的同學不熟悉 Language Model(GPT)的概念,而做 NLP 的同學又不太了解 RL 是如何優化的。在這篇文章中,我們將簡單介紹 LM 和 RL 中的一些概念,并分析 RL 中的「序列決策」是如何作用到 LM 中的「句子生成」任務中的,希望可以幫助只熟悉 NLP 或只熟悉 RL 的同學更快理解 RLHF 的概念。

1. RL: Policy-Based & Value Based

強化學習(Reinforcement Learning, RL)的核心概念可簡單概括為:一個機器人(Agent)在看到了一些信息(Observation)后,自己做出一個決策(Action),隨即根據采取決策后得到的反饋(Reward)來進行自我學習(Learning)的過程。

光看概念或許有些抽象,我們舉個例子:現在有一個機器人找鉆石的游戲,機器人每次可以選擇走到相鄰的格子,如果碰到火焰會被燒死,如果碰到鉆石則通關。

5a3653c2-aa00-11ee-8b88-92fbcf53809c.png

機器人找鉆石的例子:碰到火焰則會被燒死

在這個游戲中,機器人(Agent)會根據當前自己的所在位置(Observation),做出一次行為選擇(Action):

如果它此時選擇「往上走」,則會碰到火焰,此時會得到一個來自游戲的負反饋(Reward),于是機器人會根據當前的反饋進行學習(Learning),總結出「在當前的位置」「往上走」是一次錯誤的決策。

如果它此時選擇「向右走」,則不會碰到火焰,并且因為離鉆石目標更近了一步,此時會得到一個來自游戲的正反饋(Reward),于是機器人會根據當前的反饋進行學習(Learning),總結出「在當前位置」「往右走」是一次相對安全的決策。

通過這個例子我們可以看出,RL 的最終目標其實就是要讓機器人(Agent)學會:在一個給定「狀態」下,選擇哪一個「行為」是最優的。

一種很直覺的思路就是:我們讓機器人不斷的去玩游戲,當它每次選擇一個行為后,如果這個行為得到了「正獎勵」,那么下次就多選擇這個行為;如果選擇行為得到了「負懲罰」,那么下次就少選擇這個行為。

為了實現「多選擇得分高的行為,少選擇得分低的行為」,早期存在 2 種不同的流派:Policy Based 和 Value Based。

5a43258e-aa00-11ee-8b88-92fbcf53809c.png

Policy Based 將行為量化為概率;Value Based 將行為量化為值

其實簡單來說,這 2 種流派的最大區別就是在于將行為量化為「概率」還是「值」,具體來講:

Policy Based:將每一個行為量化為「概率分布」,在訓練的時候,好行為的概率值將被不斷提高(向右走,0.9),差行為的概率將被不斷降低(向上走,0.1)。當機器人在進行行為選擇的時候,就會按照當前的概率分布進行采樣,這樣就實現了「多選擇得分高的行為,少選擇得分低的行為」。

Value Based:將每一個行為量化為「值」,在訓練的時候,好行為的行為值將被不斷提高(向右走,1分),差行為的行為值將被不斷降低(向上走,-1)。當機器人在進行行為選擇的時候會選擇「行為值最大的動作」,這樣也實現了「多選擇得分高的行為,少選擇得分低的行為」。

5a521eb8-aa00-11ee-8b88-92fbcf53809c.png

兩種策略輸入一樣,只是輸出的形式不一樣(概率 v.s. 值)

關于這 2 種流派的更多訓練細節在這里就不再展開,如果感興趣可以看看比較出名的代表算法:[Policy Gradient](Policy Based)和 [Q-Learning](Value Based)。

講到這里,我們可以思考一下,Language Model(GPT)是屬于 Policy Based 還是 Value Based ?

為了弄明白這個問題,我們下面一起看看 GPT 是怎么工作的。

2. Language Model(GPT)是一種 Policy Based 還是一種 Value Based?

GPT 是一種 Next Token Prediction(NTP),即:給定一段話的前提下,預測這段話的下一個字是什么。

5a6845f8-aa00-11ee-8b88-92fbcf53809c.png

GPT 工作原理(Next Token Prediction,NTP)

而 GPT 在進行「下一個字預測」的時候,會計算出所有漢字可能出現的概率,并根據這個概率進行采樣。

在這種情況下,我們完全可以將「給定的一段話」看成是我們上一章提到的 Observation,

將「預測的下一個字」看成是上一章提到的 Action,而 GPT 就充當了其中 Agent 的角色:

5a7870b8-aa00-11ee-8b88-92fbcf53809c.png

GPT 生成文本的過程,一個典型的 Policy Based 過程

如此看來,Language Model 的采樣過程其實和 Policy Based 的決策過程非常一致。

回顧一下我們之前提到過 RL 的目標:在一個給定「狀態」下,選擇哪一個「行為」是最優的,

遷移到 GPT 生成任務上就變成了:在一個給定的「句子」下,選擇(續寫)哪一個「字」是最優的。

因此,將 RL 中 Policy Based 的訓練過程應用到訓練 GPT 生成任務里,一切都顯得非常的自然。

5a928e4e-aa00-11ee-8b88-92fbcf53809c.png

通過 RL 對 GPT 進行訓練,我們期望 GPT 能夠學會如何續寫句子才能夠得到更高的得分,

但,現在的問題是:游戲中機器人每走一步可以通過游戲分數來得到 reward,GPT 生成了一個字后誰來給它 reward 呢?

3. 序列決策(Sequence Decision)以及單步獎勵(Step Reward)的計算

在第一章和第二章中,我們其實討論的都是「單步決策」:機器人只做一次決策,GPT 也只生成一個字。

但事實上,機器人想要拿到鉆石,通常需要做出 N 次行為選擇。

5a9a6e2a-aa00-11ee-8b88-92fbcf53809c.png

不同的行為選擇序列得到的得分:假設拿到 得1分,碰到 得-1分,其余情況不加分也不扣分

在這種情況下我們最終只有 1 個得分和 N 個行為,但是最終 RL 更新需要每個行為都要有對應的分數,

我們該如何把這 1 個總得分對應的分配給所有的行為呢?

答案是計算「折扣獎勵(discount reward)」。

我們認為,越靠近最末端的行為對得分的影響越大,于是從后往前,每往前行為就乘以 1 次折扣因子 γ:

5aa94d50-aa00-11ee-8b88-92fbcf53809c.png

根據最終得分(total reward),從后往前倒推出每一個行為的得分(step reward)

同樣,GPT 在生成一個完整句子的過程中,也會做出 N 個行為(續寫 N 個字),

而我們在評分的時候,只會針對最后生成的完整句子進行一個打分(而不是生成一個字打一個分),

最后,利用上述方法通過完整句子的得分倒推出每個字的對應得分:

5ab822bc-aa00-11ee-8b88-92fbcf53809c.png

注意:在 GPT 的得分計算中,通常折扣因子(γ)取 1.0

值得注意的是:通常在對 GPT 生成句子進行得分拆解的時候,折扣因子(γ)會取 1.0,

這意味著,在句子生成任務中,每一個字的生成都會同等重要地影響著最后生成句子的好壞。

我們可以這么理解:在找鉆石的游戲中,機器人采取了一些「不當」的行為后是可以通過后續行為來做修正,比如機器人一開始向右走(正確行為),再向左走(不當行為),再向右走(修正行為),再向上走(正確行為),這個序列中通過「修正行為」能夠修正「不當行為」帶來的影響;但在句子生成任務中,一旦前面生成了一個「錯別字」,后面無論怎么生成什么樣的字都很難「修正」這個錯別字帶來的影響,因此在文本生成的任務中,每一個行為都會「同等重要」地影響最后句子質量的好壞。

4. 加入概率差異(KL Penalty)以穩定 RL 訓練

除了折扣獎勵,在 OpenAI 的 [Learning to summarize from human feedback] 這篇工作中指出,

在最終生成句子的得分基礎上,我們還可以在每生成一個字時候,計算 RL 模型和 SFT 模型在生成當前字的「概率差異」,并以此當作生成當前字的一個 step reward:

5ac5ee7e-aa00-11ee-8b88-92fbcf53809c.png

通過概率差異(KL)作為 reward 有 2 個好處:1. 避免模型崩潰到重復輸出相同的一個字(模式崩潰)。2. 限制 RL 不要探索的離一開始的模型(SFT)太遠

通常在進行 RL 訓練時,初始都會使用 SFT 模型做初始化,隨即開始探索并學習。

由于 RL 的訓練本質就是:探索 + 試錯,

加上「概率差異」這一限制條件,就相當于限制了 RL 僅在初始模型(SFT)的附近進行探索,

這就大大縮小了 RL 的探索空間:既避免了探索到那些非常差的空間,又緩解了 Reward Model 可能很快被 Hacking 的問題。

我們舉一個具體的例子:

5ad49aa0-aa00-11ee-8b88-92fbcf53809c.png

加上 KL 懲罰(概率差異)約束后的 step reward

如上圖所示,對于「大家好,我是」這個 prompt,Policy(RL)Model 認為「雞太美」是一個很好的答案,

這可能是 Reward Model 打分不準導致的(這很常見),上圖中 RM 給「雞太美」打出了 2 分的高分(綠色)。

但是,這樣一個不通順的句子在原始的模型(SFT Model)中被生成出來的概率往往是很低的,

因此,我們可以計算一下「雞太美」這 3 個字分別在 RL Model 和在 SFT Model 中被采樣出來的概率,

并將這個「概率差異」加到 RM 給出的「折扣分數」中,

我們可以看到:盡管對于這個不通順的句子 RM 給了一個很高的分數,但是通過「概率差異」的修正,每個字的 reward 依然被扣除了很大的懲罰值,從而避免了這種「RM 認為分數很高,但實則并不通順句子」被生成出來的情況。

通過加入「概率差異」的限制,我們可以使得 RL 在 LM 的訓練中更加穩定,防止進化為生成某種奇怪的句子,但又能「哄騙」Reward Model 給出很高分出的情況(RL 非常擅長這一點)。

但,如果你的 RM 足夠的強大,永遠無法被 Policy 給 Hack,或許你可以完全放開概率限制并讓其自由探索。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    211

    文章

    28512

    瀏覽量

    207509
  • 強化學習
    +關注

    關注

    4

    文章

    268

    瀏覽量

    11270
  • LLM
    LLM
    +關注

    關注

    0

    文章

    294

    瀏覽量

    353

原文標題:RL 究竟是如何與 LLM 做結合的?

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    嵌入式和人工智能究竟是什么關系?

    嵌入式和人工智能究竟是什么關系? 嵌入式系統是一種特殊的系統,它通常被嵌入到其他設備或機器中,以實現特定功能。嵌入式系統具有非常強的適應性和靈活性,能夠根據用戶需求進行定制化設計。它廣泛應用于各種
    發表于 11-14 16:39

    PCM1861 INT腳究竟是輸出還是輸入?

    這個芯片activce或是idle. 是否有人解釋下,INT腳究竟是輸出還是輸入。我希望是輸出,我需要讀取到是否有analog audio輸入的信息。 或者,輸入輸出與否還要靠其他什么地方設置? 盼望有人回復解答,不勝感激!
    發表于 10-29 07:29

    超高頻讀寫器究竟是什么,能做什么?一文讀懂!

    在物聯網技術日新月異的今天,超高頻讀寫器作為射頻識別(RFID)技術的重要組成部分,正逐漸滲透到我們生活的各個領域。那么,超高頻讀寫器究竟是什么?它又能做些什么呢?本文將帶您一探究竟。一、超高頻
    的頭像 發表于 10-23 14:41 ?243次閱讀
    超高頻讀寫器<b class='flag-5'>究竟是</b>什么,能做什么?一文讀懂!

    揭秘貼片功率電感發燙究竟是不是燒壞了

    電子發燒友網站提供《揭秘貼片功率電感發燙究竟是不是燒壞了.docx》資料免費下載
    發表于 09-30 14:44 ?0次下載

    電感器線徑究竟是粗好還是細好

    電子發燒友網站提供《電感器線徑究竟是粗好還是細好.docx》資料免費下載
    發表于 09-20 11:25 ?0次下載

    tas5756m使用GPIO口加內部PLL產生MCLK的方法究竟是怎么樣的?

    tas5756m使用GPIO口加內部PLL產生MCLK的方法究竟是怎么樣的?
    發表于 08-19 06:06

    蟬聯“第一”背后,是vivo的“快樂飛輪”正循環

    “快樂公司”究竟是如何脫離紅海競爭?
    的頭像 發表于 07-30 08:24 ?2936次閱讀
    蟬聯“第一”背后,是vivo的“快樂飛輪”正循環

    請問cH340G的TX引腳電平究竟是3v還是5v?

    用CD34G來實現usb轉串口的時候,直接用usb口的5v作為電源電壓,它的tx引腳輸出的高電平究竟是5v還是3v,我實測是3v,但網上有的人是5v,想進一步得到大家的確認。
    發表于 05-14 08:15

    MPLS究竟是什么?

    由于運行 MPLS 的服務提供商只查看數據包上的標簽,而不是 IP 本身,這使得服務提供商能夠使用 MPLS 為此類客戶提供 VPN 服務。
    發表于 04-26 16:09 ?403次閱讀
    MPLS<b class='flag-5'>究竟是</b>什么?

    工業物聯網究竟是什么呢?它又有哪些作用呢?

    隨著科技的快速發展,物聯網技術已經逐漸滲透到我們生活的各個角落,而 工業物聯網(IIoT) 更是引領著工業領域的數字化轉型。那么,工業物聯網究竟是什么呢?它又有哪些作用呢?本文將對此進行深度解析
    的頭像 發表于 04-22 15:26 ?416次閱讀

    STM32擦除后數據究竟是0x00還是0xff ?

    STM32擦除后數據究竟是0x00還是0xff ,百度查了許多發現大多數都是0xff的多,都說SD卡(TF)儲存介質是Flash 所以擦除后為0xff,但是我遇到了讀出來的數據是0x00的情況,為什么呢
    發表于 04-18 07:59

    MOSFET的柵源振蕩究竟是怎么來的?柵源振蕩的危害什么?如何抑制

    MOSFET的柵源振蕩究竟是怎么來的呢?柵源振蕩的危害什么?如何抑制或緩解柵源振蕩的現象呢? MOSFET(金屬-氧化物-半導體場效應晶體管)的柵源振蕩是指在工作過程中,出現的柵極與源極之間產生
    的頭像 發表于 03-27 15:33 ?1759次閱讀

    吸塵器究竟是如何替你“吃灰”的【其利天下技術】

    如今,吸塵器已成為大多數人居家必備的小家電產品,那么說起吸塵器,你對吸塵器有了解多少呢?不知道大家知不知道它的原理是什么?今天我們就來說一說吸塵器究竟是如何替你“吃灰”的。
    的頭像 發表于 03-07 21:17 ?891次閱讀
    吸塵器<b class='flag-5'>究竟是</b>如何替你“吃灰”的【其利天下技術】

    什么是激光二極管 激光二極管的三個引腳究竟是什么呢?

    什么是激光二極管 激光二極管的三個引腳究竟是什么呢?它的三個引腳又是用什么材質制作的呢? 激光二極管是一種常見的半導體激光器,是將電能轉化為激光光能的電子元件。它是由半導體材料構成的,通常是將P型
    的頭像 發表于 01-26 15:17 ?3805次閱讀

    “其貌不揚”的共模電感究竟是如何做到抗干擾的呢?

    “其貌不揚”的共模電感究竟是如何做到抗干擾的呢? 共模電感是一種用于濾除電子設備中的共模噪聲的重要元件,其主要作用是提供阻抗來濾除共模干擾信號。盡管外觀看起來“其貌不揚”,但共模電感通過其特殊
    的頭像 發表于 01-11 16:27 ?812次閱讀
    主站蜘蛛池模板: 婷婷午夜影院| 色天使色护士| 男男h文小说阅| 老师下面好紧| 最新欧美精品一区二区三区| 最新午夜宅男| 四虎在线网址| 欧美性生交xxxxx久久久| 六月天丁香婷婷| 国模视频一区二区| 一级片免费在线观看视频| 婷婷 夜夜| 激情综合网站| 美女视频黄a| 狠狠鲁狠狠操| 夜夜夜夜操| 免费一级毛片在线播放不收费| 国产亚洲片| 一区二区三区四区在线不卡高清| 韩国一区二区三区视频| 特黄毛片| 精品玖玖| 天天射天天做| www.av毛片| 久久e热| 特级免费毛片| 久久精品国产2020观看福利色| 97av在线| 国产农村一一级特黄毛片| www成年人视频| 欧美成人免费网站| 六月激情丁香| 一级特黄色片| 欧美军同video69视频| 俺去在线| 国产亚洲欧美成人久久片| 日本边添边爱边摸边做边爱| 天堂ww| 国产拍拍| 久久精品免费观看久久| 亚洲偷偷|