在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微調(diào)前給預(yù)訓(xùn)練模型參數(shù)增加噪音提高效果的方法

深度學(xué)習(xí)自然語言處理 ? 來源:NLP工作站 ? 作者:劉聰NLP ? 2022-06-07 09:57 ? 次閱讀

寫在前面

昨天看完NoisyTune論文,做好實(shí)驗(yàn)就來了。一篇ACL2022通過微調(diào)前給預(yù)訓(xùn)練模型參數(shù)增加噪音提高預(yù)訓(xùn)練語言模型在下游任務(wù)的效果方法-NoisyTune,論文全稱《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better》。

paper地址:https://aclanthology.org/2022.acl-short.76.pdf

由于僅加兩行代碼就可以實(shí)現(xiàn),就在自己的數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn),發(fā)現(xiàn)確實(shí)有所提高,為此分享給大家;不過值得注意的是,「不同數(shù)據(jù)需要加入噪音的程度是不同」,需要自行調(diào)參。

模型

自2018年BERT模型橫空出世,預(yù)訓(xùn)練語言模型基本上已經(jīng)成為了自然語言處理領(lǐng)域的標(biāo)配,「pretrain+finetune」成為了主流方法,下游任務(wù)的效果與模型預(yù)訓(xùn)練息息相關(guān);然而由于預(yù)訓(xùn)練機(jī)制以及數(shù)據(jù)影響,導(dǎo)致預(yù)訓(xùn)練語言模型與下游任務(wù)存在一定的Gap,導(dǎo)致在finetune過程中,模型可能陷入局部最優(yōu)。

為了減輕上述問題,提出了NoisyTune方法,即,在finetune前加入給預(yù)訓(xùn)練模型的參數(shù)增加少量噪音,給原始模型增加一些擾動(dòng),從而提高預(yù)訓(xùn)練語言模型在下游任務(wù)的效果,如下圖所示,

43feda12-e589-11ec-ba43-dac502259ad0.png

通過矩陣級擾動(dòng)(matrix-wise perturbing)方法來增加噪聲,定義預(yù)訓(xùn)練語言模型參數(shù)矩陣為,其中,表示模型中參數(shù)矩陣的個(gè)數(shù),擾動(dòng)如下:

其中,表示從到范圍內(nèi)均勻分布的噪聲;表示控制噪聲強(qiáng)度的超參數(shù);表示標(biāo)準(zhǔn)差。

代碼實(shí)現(xiàn)如下:

forname,parainmodel.namedparameters():
model.statedict()[name][:]+=(torch.rand(para.size())?0.5)*noise_lambda*torch.std(para)

這種增加噪聲的方法,可以應(yīng)用到各種預(yù)訓(xùn)練語言模型中,可插拔且操作簡單。

如下表所示,在BERT、XLNET、RoBERTa和ELECTRA上均取得不錯(cuò)的效果。

444e5060-e589-11ec-ba43-dac502259ad0.png

并且比較的四種不同增加噪聲的方法,發(fā)現(xiàn)在矩陣級均勻噪聲最優(yōu)。

448791e0-e589-11ec-ba43-dac502259ad0.png

在不同數(shù)據(jù)量下,NoisyTune方法相對于finetune均有所提高。

44bb1fec-e589-11ec-ba43-dac502259ad0.png

在不同噪聲強(qiáng)度下,效果提升不同,對于GLUE數(shù)據(jù)集,在0.1-0.15間為最佳。

44f1b2f0-e589-11ec-ba43-dac502259ad0.png

總結(jié)

蠻有意思的一篇論文,加入少量噪音,提高下游微調(diào)效果,并且可插拔方便易用,可以納入到技術(shù)庫中。

本人在自己的中文數(shù)據(jù)上做了一些實(shí)驗(yàn),發(fā)現(xiàn)結(jié)果也是有一些提高的,一般在0.3%-0.9%之間,但是噪聲強(qiáng)度在0.2時(shí)最佳,并且在噪聲強(qiáng)度小于0.1或大于0.25后,會(huì)比原始效果差。個(gè)人實(shí)驗(yàn)結(jié)果,僅供參考。


審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 噪音
    +關(guān)注

    關(guān)注

    1

    文章

    170

    瀏覽量

    23914
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3254

    瀏覽量

    48889
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    618

    瀏覽量

    13573

原文標(biāo)題:ACL2022 | NoisyTune:微調(diào)前加入少量噪音可能會(huì)有意想不到的效果

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

    的應(yīng)用。MAML算法通過二階優(yōu)化找到對任務(wù)變化敏感的模型參數(shù),實(shí)現(xiàn)了快速適應(yīng)。上下文學(xué)習(xí)則引入了注意力機(jī)制,使模型能夠根據(jù)當(dāng)前場景動(dòng)態(tài)調(diào)整行為策略。在預(yù)
    發(fā)表于 12-24 15:03

    PyTorch GPU 加速訓(xùn)練模型方法

    在深度學(xué)習(xí)領(lǐng)域,GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時(shí)間的重要手段。PyTorch作為一個(gè)流行的深度學(xué)習(xí)框架,提供了豐富的工具和
    的頭像 發(fā)表于 11-05 17:43 ?575次閱讀

    預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

    預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的兩個(gè)重要概念,它們在提高模型性能、減少訓(xùn)練時(shí)間和降低對數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定
    的頭像 發(fā)表于 07-11 10:12 ?1082次閱讀

    大語言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語言模型預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使模型學(xué)習(xí)到語言的通用知識
    的頭像 發(fā)表于 07-11 10:11 ?439次閱讀

    模型為什么要微調(diào)?大模型微調(diào)的原理

    在人工智能(AI)領(lǐng)域,特別是自然語言處理(NLP)領(lǐng)域,大模型(如BERT、GPT系列等)的出現(xiàn)為許多復(fù)雜任務(wù)提供了強(qiáng)大的解決方案。然而,這些預(yù)訓(xùn)練的大模型雖然具有廣泛的適用性,但在
    的頭像 發(fā)表于 07-10 10:43 ?4183次閱讀

    人臉識別模型訓(xùn)練失敗原因有哪些

    : 1.1 數(shù)據(jù)量不足 人臉識別模型需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,以提高模型的泛化能力。如果數(shù)據(jù)量不足,模型可能無法學(xué)習(xí)到足夠的特征,導(dǎo)致
    的頭像 發(fā)表于 07-04 09:17 ?642次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    訓(xùn)練好的模型,這些模型通常在某些通用任務(wù)上表現(xiàn)出色,并且可以作為后續(xù)特定任務(wù)的起點(diǎn),通過遷移學(xué)習(xí)或微調(diào)(Fine-tuning)等方式進(jìn)行適應(yīng)和優(yōu)化。以下是對
    的頭像 發(fā)表于 07-03 18:20 ?2909次閱讀

    【大語言模型:原理與工程實(shí)踐】大語言模型的應(yīng)用

    。 關(guān)于大語言模型是否具備與人類“系統(tǒng)2”相似的能力,存在廣泛的爭議。然而,隨著模型參數(shù)量的增加和大規(guī)模預(yù)
    發(fā)表于 05-07 17:21

    【大語言模型:原理與工程實(shí)踐】大語言模型預(yù)訓(xùn)練

    如此卓越的性能,就是通過其核心能力對海量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,再進(jìn)行微調(diào)或?qū)ζ涫裁葱透玫母鶕?jù)人類的指令和偏好,發(fā)揮這些性能。隨著語言模型參數(shù)的不
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

    特定任務(wù)對模型進(jìn)行微調(diào)。這種方法的成功不僅是自然語言處理發(fā)展的一個(gè)轉(zhuǎn)折點(diǎn),還為許多現(xiàn)實(shí)世界的應(yīng)用場帶來了前所未有的性能提升。從廣為人知的GPT到BERT,預(yù)
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實(shí)踐】核心技術(shù)綜述

    預(yù)訓(xùn)練微調(diào),直到模型的部署和性能評估。以下是對這些技術(shù)的綜述: 模型架構(gòu): LLMs通常采用深層的神經(jīng)網(wǎng)絡(luò)架構(gòu),最常見的是Transf
    發(fā)表于 05-05 10:56

    【大語言模型:原理與工程實(shí)踐】揭開大語言模型的面紗

    更好地?cái)M合訓(xùn)練數(shù)據(jù),并在推理和泛化時(shí)表現(xiàn)出色。此外,特征復(fù)用通過共享參數(shù)提高效率和性能,使得大語言模型能夠更有效地利用學(xué)到的特征。最后,優(yōu)化效果
    發(fā)表于 05-04 23:55

    基于雙級優(yōu)化(BLO)的消除過擬合的微調(diào)方法

    這篇論文試圖解決的問題是大型預(yù)訓(xùn)練模型在下游任務(wù)中進(jìn)行微調(diào)時(shí)出現(xiàn)的過擬合問題。盡管低秩適應(yīng)(LoRA)及其變體通過學(xué)習(xí)低秩增量矩陣有效地減少了與完全
    的頭像 發(fā)表于 04-02 16:46 ?704次閱讀
    基于雙級優(yōu)化(BLO)的消除過擬合的<b class='flag-5'>微調(diào)</b><b class='flag-5'>方法</b>

    名單公布!【書籍評測活動(dòng)NO.30】大規(guī)模語言模型:從理論到實(shí)踐

    一階段訓(xùn)練的獎(jiǎng)勵(lì)模型,對有監(jiān)督微調(diào)模型對用戶提示詞補(bǔ)全結(jié)果的質(zhì)量進(jìn)行評估,與語言模型建模目標(biāo)綜合得到更好的
    發(fā)表于 03-11 15:16

    混合專家模型 (MoE)核心組件和訓(xùn)練方法介紹

    ): 與稠密模型相比,預(yù)訓(xùn)練速度更快 與具有相同參數(shù)數(shù)量的模型相比,具有更快的推理速度 需要大量顯存,因?yàn)樗袑<蚁到y(tǒng)都需要加載到內(nèi)存中 在
    的頭像 發(fā)表于 01-13 09:37 ?1287次閱讀
    混合專家<b class='flag-5'>模型</b> (MoE)核心組件和<b class='flag-5'>訓(xùn)練方法</b>介紹
    主站蜘蛛池模板: 中文字幕123| 四虎永久在线日韩精品观看| 中文字幕在线二区| 亚洲综合精品一区二区三区中文| 91中文在线观看| 一区二区三区免费在线| 日本aaaaa| 亚洲天堂h| 日本色图网站| 激情综合六月| 最新久久精品| 米奇777四色精品人人爽| 2018天天干夜夜操| 视频一区二区中文字幕| 亚洲影视网| 日本在线一级| 黄色3级| bt天堂资源在线种子| 人人射人人草| 欧美性猛交xxxx乱大交| 性久久久久久久| 亚洲人成网站色7777| 日本免费黄色| 国产卡1卡2卡三卡网站免费 | 91深夜福利| 四虎精品永久在线| 亚洲第一在线播放| 天堂资源在线官网资源| 在线观看网站国产| 好爽好黄的视频| 色视频在线播放| 婷婷久久综合网| 男女交性拍拍拍高清视频| 成 人色 网 站999| 女同国产| 亚洲一区二区三区四区在线| 午夜两性网| 狠狠色丁香久久婷婷综合丁香| 天天天操| 亚洲综合资源| 色欧美在线视频|