在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大模型訓練中RM分數越來越高,那訓出來LLM的效果一定好嗎?

深度學習自然語言處理 ? 來源:包包算法筆記 ? 2023-07-26 15:45 ? 次閱讀

之前在文章大模型面試八股中提到一個問題,大模型訓練中RM分數越來越高,那訓出來LLM的效果一定好嗎?

這么肯定的判斷肯定是有坑的,值得懷疑。

如果你動手跑幾次ppo的過程就發現了,大模型的強化學習非常難以訓練,難以訓練不僅僅指的是費卡,還是指的非常容易訓崩。

第一,費卡。假設你訓llama 7b,SFT 和 RM 都用7B的模型,那么顯存耗費 = 2*7B(TRIAN MODE) + *7B(EVAL MODE), 分別對應 policy model / critic model,還有ref model/reward model

本來你能用幾張40GB A100的卡+deepspeed 做7b的全參數微調,強化學習就得升級到80GB的A100了,勉勉強強能跑到7B。想跑更大的就得充錢了。

第二,容易崩。LLM訓著訓著就不聽你話了,要么變成停不下來的復讀機,輸出到后面沒有邏輯直到maxlen,要么變成啞巴,直接一個eosid躺平。

RLHF中的問題其實在RL游戲訓練里面很常見了,如果環境和參數設置不好的話,agent很容走極端,在 一頭撞死or循環鬼畜之間反復橫跳。

原始的ppo就是很難訓,對SFT基模型和RM的訓練數據以及采樣prompt的數據要求很高,參數設置要求也很高。

自從openai帶了一波RLHF的節奏后,大家都覺得強化學習在對齊方面的無敵功力,但自己跑似乎又不是那么回事,這玩意也太有講究了吧。

更多的魔鬼在細節了,openai像拿了一個比賽的冠軍,告訴你了成功的solution,結果沒告訴你各個步驟的重要性和關鍵設置,更沒有告訴你失敗和無效的經驗。

在講trick之前,首先復旦-MOSS也對LLM的訓練過程加了更多監測,其實這些都是實驗中非常重要的監控過程指標,能很清楚的發現你模型是否出現異常。

然后這個圖很好,非常清楚地講述了trick是如何作用在RLHF中的各個階段的,另外配套的開源代碼實現也非常清晰易懂,典型的面條代碼沒有什么封裝,一碼到底,易讀性和魔改都很方便。

下面我們看看這7個trick,對應圖中右側畫星號的部分。

54a58abc-2496-11ee-962d-dac502259ad0.png

1, token級別的KL散度懲罰

kl_penalty = (-self.kl_penalty_weight * (logprobs - ref_logprobs)).cpu()

這一步主要解決的問題是訓練穩定性,防止步子太大扯著蛋,如果你輸出的和參考模型差別過大的話就減分。

2,Reward Normalization and Clipping

3,Value Function Loss Clipping

Clipping類似梯度裁剪,也是止步子太大扯著蛋,對一些異常的loss和reward做了限制,Normalization為了對reward做標準化。

這部分的代碼可以對應開源中的這些設置仔細查看,原理大同小異

self.use_reward_clip: bool = opt.use_reward_clip
self.use_reward_norm:bool=opt.use_reward_norm
self.use_advantage_norm:bool=opt.use_advantage_norm
self.use_advantage_clip: bool = opt.use_advantage_clip
self.use_critic_loss_clip:bool=opt.use_critic_loss_clip
self.use_policy_loss_clip:bool=opt.use_policy_loss_clip

4.Critic Model Initialization

用RM model初始化Critic可能不是一個必要的選擇,作者做了一些實驗證明這個問題,推薦使用critic model pre-training。代碼里這部分還沒有,還是使用rm初始化的,后續跟進一下這個問題。

5. Generalized Advantage Estimation

附錄里C.3有GAE的調參實驗。

54cc5f48-2496-11ee-962d-dac502259ad0.png

6.Clipped Surrogate Objective

這個也是一種正則化方法,防止步子太大扯著蛋,確保訓練過程的中的穩定性,這個方法比一般policy gradient處理的更為高效。

54ebd882-2496-11ee-962d-dac502259ad0.png

7.Global Gradient Clipping

5507a0da-2496-11ee-962d-dac502259ad0.png

原理還是同上,所有的Clipping無非都是砍掉太大的步子。

另外作者還用了一個instruct gpt里面用到的方案,增加了訓練過程使用 llm_pretrain_loss,參考代碼

if self.use_entropy_loss:
    loss1 = pg_loss + self.vf_loss_weight * vf_loss + self.entropy_loss_weight * entro_loss
else:
    loss1 = pg_loss + self.vf_loss_weight * vf_loss
loss2 = self.ppo_pretrain_loss_weight * pretrain_loss
loss = loss1 + loss2

總結下,整體ppo-max的改進主要集中在訓練過程的穩定性上,用的東西還是模型的老三樣,訓練過程裁剪,初始化,loss改進,主要集中在如何能讓RLHF更好調,推薦參考作者的源碼進行一些實驗。

另外,作者在論文里留了一個彩蛋,技術報告的第二部分預告主要是講Reward Model的成功和踩坑經驗,目前還沒有發布,靜待作者更新。之前大家一直的爭論點用什么scale的RM,說要用遠遠大于SFT model的RM model,這到底是不是一個關鍵的問題,是不是deberta 和 65B都行,期待作者第二個技術報告里給一個實驗~






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19387

    瀏覽量

    230537
  • SFT
    SFT
    +關注

    關注

    0

    文章

    9

    瀏覽量

    6822
  • GAE
    GAE
    +關注

    關注

    0

    文章

    5

    瀏覽量

    6779

原文標題:大模型RLHF的trick

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    ADAS比重越來越高 汽車電子或成半導體增長重要動能

    全球品牌車廠采用先進駕駛輔助系統(ADAS)比重越來越高,更新娛樂信息系統愈益頻繁,加上無人駕駛、自動駕駛等新應用持續竄起,全球芯片供應商紛將車用電子市場視為新波的主戰場,可能扮演未來半導體產業成長的重要動能。
    發表于 10-25 10:56 ?550次閱讀

    研發投入越來越高 什么樣的工具才能保障變現?

    芯片系統復雜度的增加使得芯片設計的投入越來越高——顆7nm芯片從設計到流片需要2億美金——因而保障它們被正確的設計和運行最終得以變現的工具就愈發重要。
    的頭像 發表于 05-11 01:01 ?6624次閱讀

    為什么Web前端工程師薪資越來越高?

    2019年,為什么Web前端工程師薪資越來越高
    發表于 06-18 10:14

    LED展望:光效越來越高 價格越來越

    LED展望:光效越來越高 價格越來越低   LED照明使用的白色LED發光效率的提高非常明顯,最近1~2年的進步尤為顯著。雖然數值超過了
    發表于 01-07 09:04 ?690次閱讀

    未來芯片的發展對FPGA的要求將會越來越高

    AI、5G技術的發展對芯片架構和軟件支持提出了越來越高的要求,芯片設計更加復雜,業界需要更大容量的FPGA實現高效的仿真和功能驗證。
    發表于 09-11 15:43 ?891次閱讀

    新能源汽車在市場的普及度越來越高

    路上跑的綠牌車越來越多,以純電動汽車和插電混合動力汽車為代表的新能源汽車,正在逐漸成為汽車生活的??汀2还苁堑土氖褂贸杀荆€是免費的牌照,身邊也有朋友開始將新能源汽車作為個購車選擇,這說明新能源汽車在市場的普及度越來越高
    發表于 09-27 08:52 ?1096次閱讀

    動力電池企業對工業相機的要求越來越高

    作為視覺檢測裝備的核心零部件,動力電池企業對于工業相機的要求也越來越高。
    的頭像 發表于 09-05 09:38 ?1967次閱讀

    中國芯呼聲越來越高,國內EDA龍頭華大九天新突破

     到了現在,相信大家都知道了芯片的重要性,對于擁有性能不錯而且全程自研的“中國芯”的呼聲也越來越高了!
    發表于 09-23 16:42 ?6460次閱讀

    越來越高的帶寬需求要怎樣的通信衛星來配合

    電子發燒友網站提供《越來越高的帶寬需求要怎樣的通信衛星來配合.pdf》資料免費下載
    發表于 11-26 16:58 ?14次下載
    <b class='flag-5'>越來越高</b>的帶寬需求要怎樣的通信衛星來配合

    基于個完整的 LLM 訓練流程

    ? ? 在這篇文章,我們將盡可能詳細地梳理個完整的 LLM 訓練流程。包括模型訓練(Pre
    的頭像 發表于 06-29 10:08 ?2003次閱讀
    基于<b class='flag-5'>一</b>個完整的 <b class='flag-5'>LLM</b> <b class='flag-5'>訓練</b>流程

    為何開關頻率要大于30kHz,且有越來越高的趨勢?

    為何開關頻率要大于30kHz,且有越來越高的趨勢?開關頻率大小的限制因素是什么? 開關頻率的大小是指開關電路每秒鐘進行開關操作的次數。在電力電子設備,開關頻率主要用于調節電路的響應速度和功率傳輸
    的頭像 發表于 01-31 17:39 ?3097次閱讀

    llm模型訓練般用什么系統

    LLM(Large Language Model,大型語言模型)是近年來在自然語言處理領域取得顯著成果的種深度學習模型。它通常需要大量的計算資源和數據來進行
    的頭像 發表于 07-09 10:02 ?461次閱讀

    如何訓練自己的LLM模型

    訓練自己的大型語言模型LLM)是個復雜且資源密集的過程,涉及到大量的數據、計算資源和專業知識。以下是訓練
    的頭像 發表于 11-08 09:30 ?680次閱讀

    什么是大模型、大模型是怎么訓練出來的及大模型作用

    ,基礎模型。 ? 大模型個簡稱,完整的叫法,應該是“人工智能預訓練模型”。預訓練,是
    的頭像 發表于 11-25 09:29 ?2098次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓練出來</b>的及大<b class='flag-5'>模型</b>作用

    小白學大模型:構建LLM的關鍵步驟

    隨著大規模語言模型LLM)在性能、成本和應用前景上的快速發展,越來越多的團隊開始探索如何自主訓練LLM
    的頭像 發表于 01-09 12:12 ?304次閱讀
    小白學大<b class='flag-5'>模型</b>:構建<b class='flag-5'>LLM</b>的關鍵步驟
    主站蜘蛛池模板: 簧片视频在线观看| 国产成人啪午夜精品网站男同| 99久在线| 亚洲久久草| 天天射天天搞| 黄色国产精品| 日本人xxxxxxxxxⅹ69| 一区视频| 在线色网站| 色综合久久久久久久久五月 | 天天色天天色天天色| 天天色天天爽| 九九热九九| 高清xxx| 欧美aⅴ| 天天狠狠弄夜夜狠狠躁·太爽了| 三区在线观看| 精品综合久久久久久98| 爱爱免费视频| 日本在线看小视频网址| 亚洲啪啪看看| 扒开双腿猛进湿润18p| 色偷偷免费| 狠狠狠狼鲁欧美综合网免费| 中国一级特黄剌激爽毛片| 日日干天天爽| 2021国产成人午夜精品| 欧美人成一本免费观看视频| 五月天在线播放| 久久夜色tv网站| 最色网在线观看| 国产视频福利| 嘿嘿嘿视频在线观看| 色偷偷中文字幕| 国产精品成人在线播放| 日本噜噜影院| 6080yy午夜不卡一二三区| 亚洲国产婷婷综合在线精品| 欧美爽爽网| 亚洲天堂免费看| 中文天堂在线观看|