在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大模型微調開源項目全流程

深度學習自然語言處理 ? 來源:青稞AI ? 2024-03-13 14:56 ? 次閱讀

作者:1050Ti全量微調.,東北大學軟件工程

微調實戰經歷

本次微調經驗分享依據于我們在2023年參加的“第2屆·百度搜索創新大賽——搜索答案組織”整個比賽過程。

我們團隊選擇的基座模型是ChatGLM3-6B-Base模型,訓練數據集為官方提供的數據集(9000條),訓練方法為LORA sft 監督微調。

最終結果:score 36.12--ROUGE-L 41.03--BLEU-4 31.22,東三省排名第1名,全國最終排名為44/220.

開始微調(SFT)

準備微調框架

微調框架選擇的是github上面的llama-factory開源項目

gitclonehttps://github.com/hiyouga/LLaMA-Factory.git
cdLLaMA-Factory
pipinstall-rrequirements.txt

推薦python=3.10,如果要在 Windows 平臺上開啟量化 LoRA(QLoRA),需要安裝預編譯的 bitsandbytes 庫, 支持 CUDA 11.1 到 12.1

pipinstallhttps://github.com/jllllll/bitsandbytes-windows-webui/releases/download/wheels/bitsandbytes-0.39.1-py3-none-win_amd64.whl

加載數據集

在data文件夾下面創建xxx.json命名格式的數據集json文件,本人設置的是baidutrain.json

json文件格式如下

[
{
"query":"王者榮耀鉆石奪寶幸運值滿是多少",
"refs":[
"積分奪寶幸運值滿值為360點,鉆石奪寶幸運值滿值為200點,但是奪寶幸運值滿了之后還需要一抽才能獲得水晶,所以積分奪寶361抽必定獲得水晶,鉆石奪寶201抽必定獲得水晶。",
"王者鉆石奪寶幸運值滿是200。",
"1、最高的幸運值上限是200,每抽一次會獲得1點幸運值。王者榮耀里面的鉆石奪寶幸運值達到200就滿了,也就是說當幸運值滿200時,再奪寶一次是必出一個王者水晶的,擁有王者水晶可以到水晶商店里面去兌換物品了,兌換的物品都是永久的。",
"幸運值滿值是360,玩家在抽361的時候是保底必出水晶,這個保底是人人都能抽出水晶的,也就是100%可以讓玩家得到水晶,榮耀水晶的概率是0.8%,但是玩家們如果在不斷增加抽獎的次數,那么抽出水晶的概率也會增加,想要抽出水晶的玩家可以將361次當做保底的次數。",
"玩家獲取王者水晶之后,可以使用該道具兌換王者商店中的獎勵,包含了回城特效、英雄、中級品質的皮膚等獎勵。"
],
"answer":"《王者榮耀》鉆石奪寶幸運值滿值為200點。

鉆石奪寶幸運值滿200后再抽一次必出一個王者水晶,玩家獲取王者水晶之后,可以使用該道具兌換王者商店中的獎勵,其中包含了回城特效、英雄、中級品質的皮膚等,兌換的物品永久有效。"
},
{
"query":"王手是什么意思",
"refs":[
"一、原神王手。王手這個詞出現在PV短片《雪姬逢椿》中。王手是小神里說的,小神里很可愛,說王手二字的聲音也不錯。所以玩家說王手二字讓我氪了648。二、王手原意。王手是日本將棋的說法,與中國象棋將軍的用法相似。意思是將軍(棋步),將軍。",
"一、原神王手在PV短片——「雪霽逢椿」中出現了王手這個詞。王手是由小神里說出的,小神里十分可愛,說王手二字時聲音也好聽。所以玩家就表示王手二字讓我氪了648。二、王手原本意思王手是日本將棋的說法,和中國象棋將軍的用法差不多。是將軍(的棋步),將一軍的意思。",
"王手是日本將棋的說法,與中國象棋將軍的用法相似。意思是將軍(棋步),將軍。",
"其中的王手是指,如能下了能擒拿對方王將的一手,類似于象棋里的將軍。稱之為王手。",
"王手,男,浙江溫州市人。1981年開始發表小說。近年小說散見于《收獲》《人民文學》《當代》《鐘山》《花城》《作家》《山花》等刊,出版中短篇小說集《火藥槍》《柯依娜一個人》《獅身人面》"
],
"answer":"王手是指下了這步棋能擒拿對方王將的一手,類似于象棋里的將軍,是日本將棋中的一種說法。

此外,王手還是中國作家協會會員,一級作家,出版中短篇小說集《火藥槍》《柯依娜一個人》等。"
}
]

一定要將數據集所在的json文件加載到dataset_info.json中!!!!!!!!

"baidu_train":{
"file_name":"baidutrain.json",
"columns":{
"prompt":"",#系統prompt
"query":"refs"+"query",#輸入
"response":"answer",#輸出
"history":""#歷史對話
}
}

啟動微調

使用sft進行微調

CUDA_VISIBLE_DEVICES=0pythonwork/jwx/ChatGLM-Efficient-Tuning-main/src/train_bash.py
--stagesft#微調方式
--model_name_or_pathwork/jwx/ChatGLM3-main/model#模型路徑
--do_train
--dataset_dirwork/jwx/ChatGLM-Efficient-Tuning-main/data#數據集文件夾
--datasetbaidu_dev,baidu_train#數據集
--finetuning_typelora#微調方法
--max_source_length2048#最大長度
--max_target_length512
--learning_rate3e-05#學習率
--num_train_epochs3.0#學習輪數
--max_samples10000
--lora_rank8#lora訓練的秩
--lora_dropout0.1
--lora_targetq_proj,v_proj#lora作用層
--resume_lora_trainingTrue
--output_dirsaves/output#輸出微調的文件夾
--fp16True#開啟fp16微調
--per_device_train_batch_size4
--gradient_accumulation_steps4
--lr_scheduler_typecosine
--max_grad_norm1.0
--logging_steps5
--save_steps1000

對于所有“基座”(Base)模型,–template 參數可以是 default, alpaca, vicuna 等任意值。但“對話”(Chat)模型請務必使用對應的模板。

更多參數信息

https://github.com/hiyouga/ChatGLM-Efficient-Tuning/wiki/%E4%BD%BF%E7%94%A8%E6%96%B9%E6%B3%95

合并模型并導出

pythonsrc/export_model.py
--model_name_or_pathwork/jwx/ChatGLM3-main/model
--adapter_name_or_pathsaves/output
--templatedefault
--finetuning_typelora
--export_dirpath_to_export
--export_size7
--export_legacy_formatFalse

RW

獎勵模型訓練

數據準備

獎勵模型,作為RL中的critic,應該讓模型知道什么是正確的答案和什么是錯誤的答案,因此需要在數據集上進行對于不同答案的一個打分情況,來讓機器進行學習。格式如下:

[
0:{
input:"",
instruction:"Whatarethethreeprimarycolors?",
output:[
0:"Thethreeprimarycolorsarered,blue,andyellow.Thesecolorsarecalledprimarybecausetheycannotbecreatedbymixingothercolorsandallothercolorscanbemadebycombiningtheminvariousproportions.Intheadditivecolorsystem,usedforlight,theprimarycolorsarered,green,andblue(RGB).",
1:"Red,Yellow,andGreen."
]
},
1:{
input:"4/16",
instruction:"Explainwhythefollowingfractionisequivalentto1/4",
output:[
0:"Thefraction4/16isequivalentto1/4becausebothnumeratorsanddenominatorsaredivisibleby4.Dividingboththetopandbottomnumbersby4yieldsthefraction1/4.",
1:"1/4isthesameas1/4."
]
}
]

運行微調

微調之后的獎勵模型不可以直接進行使用,因為rw模型的輸出是一個打分,相當于RL中的critic。

CUDA_VISIBLE_DEVICES=0pythonsrc/train_bash.py
--stagerm
--do_train
--model_name_or_pathpath_to_llama_model
--adapter_name_or_pathpath_to_sft_checkpoint#sft模型微調的權重文件,可加可不加
--create_new_adapter
--datasetcomparison_gpt4_zh
--templatedefault
--finetuning_typelora
--lora_targetq_proj,v_proj
--output_dirpath_to_rm_checkpoint
--per_device_train_batch_size2
--gradient_accumulation_steps4
--lr_scheduler_typecosine
--logging_steps10
--save_steps1000
--learning_rate1e-6
--num_train_epochs1.0
--plot_loss
--fp16

RLHF

253c63f2-de15-11ee-a297-92fbcf53809c.jpg

準備actor和critic

actor:對應的是sft輸出的權重文件

critic:對應的是RW輸出的權重文件

運行RLHF

CUDA_VISIBLE_DEVICES=0pythonsrc/train_bash.py
--stageppo
--do_trainTrue
--model_name_or_pathbaichuan-inc/baichuan-7B
--adapter_name_or_pathsaves/Baichuan-7B-Base/lora/sft#sft輸出的權重文件
--finetuning_typelora
--templatedefault
--dataset_dirdata
--datasetalpaca_gpt4_en
--cutoff_len1024
--learning_rate5e-05
--num_train_epochs3.0
--max_samples100000
--per_device_train_batch_size4
--gradient_accumulation_steps4
--lr_scheduler_typecosine
--max_grad_norm1.0
--logging_steps5
--save_steps100
--warmup_steps0
--lora_rank8
--lora_dropout0.1
--lora_targetW_pack
--create_new_adapterTrue
--output_dirsaves/Baichuan-7B-Base/lora/train_2024-03-01-09-49-43
--fp16True
--reward_modelsaves/Baichuan-7B-Base/lora/rw#rw輸出的權重文件
--reward_model_typelora
--plot_lossTrue

多卡訓練

使用accelerate進行訓練

accelerateconfig#首先配置分布式環境
acceleratelaunchsrc/train_bash.py
--stagesft#微調方式
--model_name_or_pathwork/jwx/ChatGLM3-main/model#模型路徑
--do_train
--dataset_dirwork/jwx/ChatGLM-Efficient-Tuning-main/data#數據集文件夾
--datasetbaidu_dev,baidu_train#數據集
--finetuning_typelora#微調方法
--max_source_length2048#最大長度
--max_target_length512
--learning_rate3e-05#學習率
--num_train_epochs3.0#學習輪數
--max_samples10000
--lora_rank8#lora訓練的秩
--lora_dropout0.1
--lora_targetq_proj,v_proj#lora作用層
--resume_lora_trainingTrue
--output_dirsaves/output#輸出微調的文件夾
--fp16True#開啟fp16微調
--per_device_train_batch_size4
--gradient_accumulation_steps4
--lr_scheduler_typecosine
--max_grad_norm1.0
--logging_steps5
--save_steps1000#參數同上

使用deepspeed進行訓練

deepspeed--num_gpus8--master_port=9901src/train_bash.py
--deepspeedds_config.json
--stagesft#微調方式
--model_name_or_pathwork/jwx/ChatGLM3-main/model#模型路徑
--do_train
--dataset_dirwork/jwx/ChatGLM-Efficient-Tuning-main/data#數據集文件夾
--datasetbaidu_dev,baidu_train#數據集
--finetuning_typelora#微調方法
--max_source_length2048#最大長度
--max_target_length512
--learning_rate3e-05#學習率
--num_train_epochs3.0#學習輪數
--max_samples10000
--lora_rank8#lora訓練的秩
--lora_dropout0.1
--lora_targetq_proj,v_proj#lora作用層
--resume_lora_trainingTrue
--output_dirsaves/output#輸出微調的文件夾
--fp16True#開啟fp16微調
--per_device_train_batch_size4
--gradient_accumulation_steps4
--lr_scheduler_typecosine
--max_grad_norm1.0
--logging_steps5
--save_steps1000

心得分享

下面我將本次比賽微調訓練的得分的過程分享給大家

254cfd20-de15-11ee-a297-92fbcf53809c.png

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8428

    瀏覽量

    132840
  • 大模型
    +關注

    關注

    2

    文章

    2512

    瀏覽量

    2927

原文標題:詳解大模型微調全流程

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    2月志芯片開源項目分享合集

    手勢識別模型,轉為TFlite模型,再通過谷歌提供的 TFlite C API 運行模型。 3、項目名稱:ConcoPi-基于F1C100S的小終端 使用
    發表于 03-02 14:39

    【「基于大模型的RAG應用開發與優化」閱讀體驗】+大模型微調技術解讀

    。對于文本數據,可以采用同義詞替換、句法變換、上下文擴展等技術。微調策略和方法參數微調:對模型的所有參數進行再訓練。雖然需要大量的計算資源,但它可以充分適應特定任務。輕量級
    發表于 01-14 16:51

    開源匯總】精選開源硬件項目匯總

    本帖為開源硬件項目分享匯總帖,各位小伙伴可以在帖子下方分享自己的開源項目經歷哦~PS.本帖會持續更新,歡迎大家分享各自的經驗開源
    發表于 04-29 18:45

    手繪圖的方式帶你了解機器學習模型構建的流程

    周末在家無聊閑逛github,發現一個很有趣的開源項目,作者用手繪圖的方式講解了機器學習模型構建的流程,邏輯清晰、生動形象。同時,作者也對
    的頭像 發表于 09-25 11:07 ?2680次閱讀

    0-30V、0-7A可調開關電源開源項目

    電子發燒友網站提供《0-30V、0-7A可調開關電源開源項目.zip》資料免費下載
    發表于 07-12 10:27 ?129次下載
    0-30V、0-7A可<b class='flag-5'>調開</b>關電源<b class='flag-5'>開源</b><b class='flag-5'>項目</b>

    油門象限和微調開源硬件

    電子發燒友網站提供《油門象限和微調開源硬件.zip》資料免費下載
    發表于 02-02 16:42 ?0次下載
    油門象限和<b class='flag-5'>微調</b>輪<b class='flag-5'>開源</b>硬件

    調開關電源的原理 可調開關電源的工作流程

      可調開關電源可以根據不同的應用需求,調節輸出電壓和電流,以滿足不同設備的電源要求,而且可以有效地降低電源的損耗,提高電源的可靠性和效率。缺點是價格較高,而且由于可調開關電源的復雜性,它的維護和保養也比較復雜。
    發表于 02-22 15:11 ?4398次閱讀

    iPhone都能微調模型了嘛

    一起提出的新方法 QLoRA 把微調模型的 顯存需求從>780GB降低到 。 開源社區直接開始狂歡,相關論文成為24小時內關注度最高的AI論文。 ? 以Meta的美洲駝LLaMA為基礎,得到原駝
    的頭像 發表于 06-02 15:26 ?721次閱讀
    iPhone都能<b class='flag-5'>微調</b>大<b class='flag-5'>模型</b>了嘛

    清華等開源「工具學習基準」ToolBench,微調模型ToolLLaMA性能超越ChatGPT

    最近,清華大學自然語言處理實驗室等支持的開源社區OpenBMB (Open Lab for Big Model Base)發布了ToolBench項目,可以幫助開發者構建開源、大規模、高質量的指令調優數據,促進構建具有通用工具使
    的頭像 發表于 06-08 11:39 ?601次閱讀
    清華等<b class='flag-5'>開源</b>「工具學習基準」ToolBench,<b class='flag-5'>微調</b><b class='flag-5'>模型</b>ToolLLaMA性能超越ChatGPT

    七彩曲調開源硬件

    電子發燒友網站提供《七彩曲調開源硬件.zip》資料免費下載
    發表于 07-11 15:36 ?0次下載
    七彩曲<b class='flag-5'>調開源</b>硬件

    【AI簡報20230818期】人形機器人問世:大模型加持;用AI微調AI,微軟華班出品!

    、應用流程簡單、可全程低代碼操作。企業、開發者可以根據不同細分場景的業務需求,靈活選擇各類大模型,降低大模型使用成本。 據騰訊云公眾號透露,騰訊云是國內第一批上架和支持開源
    的頭像 發表于 08-18 18:15 ?1657次閱讀
    【AI簡報20230818期】人形機器人問世:大<b class='flag-5'>模型</b>加持;用AI<b class='flag-5'>微調</b>AI,微軟<b class='flag-5'>全</b>華班出品!

    四種微調模型的方法介紹

    微調(Full Fine-tuning):微調是指對整個預訓練模型進行微調,包括所有的
    發表于 01-03 10:57 ?2.4w次閱讀
    四種<b class='flag-5'>微調</b>大<b class='flag-5'>模型</b>的方法介紹

    最佳開源模型刷新多項SOTA,首次超越Mixtral Instruct!「開源版GPT-4」家族迎來大爆發

    Mixtral 8x7B模型開源后,AI社區再次迎來一大波微調實踐。來自Nous Research應用研究小組團隊微調出新一代大模型Nous
    的頭像 發表于 01-30 15:29 ?988次閱讀
    最佳<b class='flag-5'>開源</b><b class='flag-5'>模型</b>刷新多項SOTA,首次超越Mixtral Instruct!「<b class='flag-5'>開源</b>版GPT-4」家族迎來大爆發

    紅帽發布RHEL AI開發者預覽版,集成IBM Granite模型,簡化AI開發流程

    RHEL AI依托InstructLab開源項目,結合IBM Research的開源授權Granite大型語言模型與InstructLab模型
    的頭像 發表于 05-08 15:01 ?509次閱讀

    模型為什么要微調?大模型微調的原理

    難以達到最佳性能。為了提升模型在特定任務上的表現,微調(Fine-tuning)成為了一個關鍵步驟。本文將詳細探討大模型為什么要進行微調以及微調
    的頭像 發表于 07-10 10:43 ?4324次閱讀
    主站蜘蛛池模板: 操美女免费网站| 日本人善交69xxx| 又长又大又粗又硬3p免费视频| 国产欧美亚洲精品第二区首页 | 黄网地址| 26uuu欧美日本| 在线一区二区观看| 国产午夜三级| 天天摸天天做天天爽水多| 色中色综合| 免费人成a大片在线观看动漫| 九九全国免费视频| 99视频网站| 清纯唯美亚洲综合一区| 国产午夜精品理论片久久影视| 人色网| 涩狠狠狠狠色| 亚洲狠狠网站色噜噜| 色牛网| 国产三级国产精品| 天天干夜夜拍| 澳门色视频| 美女扒开内裤无遮挡禁18| 亚洲爱爱网站| 欧美大片一区| 成年女人毛片免费视频| 天天插天天干天天操| 草馏社区| 老师我好爽再深一点好大| 特黄特色大片免费播放器9| 免费四虎永久在线精品| 91寡妇天天综合久久影院| 黄色网久久| 久久99热精品这里久久精品| 四虎新网址| 国产精品毛片一区二区三区| 神马午夜影院| 亚洲区在线播放| 日韩成人午夜| 亚洲综合区图片小说区| 在线观看免费视频网站色|