在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NLP中的對抗訓練到底是什么

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:李rumor ? 2021-01-18 17:17 ? 次閱讀

簡介

對抗訓練是一種引入噪聲的訓練方式,可以對參數進行正則化,提升模型魯棒性和泛化能力。

對抗訓練的假設是:給輸入加上擾動之后,輸出分布和原Y的分布一致

有監督的數據下使用交叉熵作為損失:

半監督數據下可計算KL散度:

擾動如何得來呢?這需要對抗的思想,即往增大損失的方向增加擾動

有監督下:

半監督下:

theta上面一個尖兒代表的是常數。目的是說在計算對抗擾動時雖然計算了梯度,但不對參數進行更新,因為當前得到的對抗擾動是對舊參數最優的。不理解的同學可以自己看下偽代碼體會一下。

用一句話形容對抗訓練的思路,就是在輸入上進行梯度上升(增大loss),在參數上進行梯度下降(減小loss)。由于輸入會進行embedding lookup,所以實際的做法是在embedding table上進行梯度上升。

接下來介紹不同的方法,后續方法優化的主要方向有兩點:得到更優的擾動 & 提升訓練速度

FGSM (Fast Gradient Sign Method): ICLR2015

FGSM是Goodfellow提出對抗訓練時的方法,假設對于輸入的梯度為:

那擾動肯定是沿著梯度的方向往損失函數的極大值走:

FGM (Fast Gradient Method): ICLR2017

FSGM是每個方向上都走相同的一步,Goodfellow后續提出的FGM則是根據具體的梯度進行scale,得到更好的對抗樣本:

偽代碼:

對于每個x: 1.計算x的前向loss、反向傳播得到梯度 2.根據embedding矩陣的梯度計算出r,并加到當前embedding上,相當于x+r 3.計算x+r的前向loss,反向傳播得到對抗的梯度,累加到(1)的梯度上 4.將embedding恢復為(1)時的值 5.根據(3)的梯度對參數進行更新

PGD (Projected Gradient Descent): ICLR2018

FGM直接通過epsilon參數一下子算出了對抗擾動,這樣得到的可能不是最優的。因此PGD進行了改進,多迭代幾次,慢慢找到最優的擾動。

引用[1]:

FGM簡單粗暴的“一步到位”,可能走不到約束內的最優點。PGD則是“小步走,多走幾步”,如果走出了擾動半徑為epsilon的空間,就映射回“球面”上,以保證擾動不要過大

偽代碼:

對于每個x: 1.計算x的前向loss、反向傳播得到梯度并備份 對于每步t: 2.根據embedding矩陣的梯度計算出r,并加到當前embedding上,相當于x+r(超出范圍則投影回epsilon內) 3.t不是最后一步:將梯度歸0,根據1的x+r計算前后向并得到梯度 4.t是最后一步:恢復(1)的梯度,計算最后的x+r并將梯度累加到(1)上 5.將embedding恢復為(1)時的值 6.根據(4)的梯度對參數進行更新

可以看到,在循環中r是逐漸累加的,要注意的是最后更新參數只使用最后一個x+r算出來的梯度。

FreeAT (Free Adversarial Training): NIPS2019

從FGSM到PGD,主要是優化對抗擾動的計算,雖然取得了更好的效果,但計算量也一步步增加。對于每個樣本,FGSM和FGM都只用計算兩次,一次是計算x的前后向,一次是計算x+r的前后向。而PGD則計算了K+1次,消耗了更多的計算資源。因此FreeAT被提了出來,在PGD的基礎上進行訓練速度的優化。

FreeAT的思想是在對每個樣本x連續重復m次訓練,計算r時復用上一步的梯度,為了保證速度,整體epoch會除以m。r的更新公式為:

偽代碼:

初始化r=0對于epoch=1...N/m: 對于每個x: 對于每步m: 1.利用上一步的r,計算x+r的前后向,得到梯度 2.根據梯度更新參數 3.根據梯度更新r

缺點:FreeLB指出,FreeAT的問題在于每次的r對于當前的參數都是次優的(無法最大化loss),因為當前r是由r(t-1)和theta(t-1)計算出來的,是對于theta(t-1)的最優。

注:

1.論文中提供偽代碼,但源碼中好像對1步輸入做了歸一化論文中并沒有提到

2.個人認為可以把FreeAT當成執行m次的FGSM,最開始r=0,第一次更新的是x的梯度,之后開始迭代更新r,則根據x+r的梯度更新參數。但代碼中有個問題是r只在最開始初始化,如果迭代到新的樣本x2,也是根據上個樣本的r進行更新的,這里我有些疑問,希望懂的大佬賜教下~

代碼:https://github.com/mahyarnajibi/FreeAdversarialTraining/blob/d70774030871fa3207e09ce8528c1b84cd690603/main_free.py#L160

YOPO (You Only Propagate Once): NIPS2019

代碼:https://github.com/a1600012888/YOPO-You-Only-Propagate-Once

YOPO的目標也是提升PGD的效率,這篇文章需要的理論知識比較雄厚,這里只簡要介紹一下。

感興趣又啃不下來原論文的同學(比如我)可以參考[9],如有解讀錯誤歡迎指出~

極大值原理PMP(Pontryagin's maximum principle)是optimizer的一種,它將神經網絡看作動力學系統。這個方法的優點是在優化網絡參數時,層之間是解藕的。通過這個思想,我們可以想到,既然擾動是加在embedding層的,為什么每次還要計算完整的前后向傳播呢?

基于這個想法,作者想復用后幾層的梯度,假設p為定值:

則對r的更新就可以變為

我們可以先寫出YOPO的梯度下降版本:

對于每個樣本x初始化r(1,0)對于j=1,2,...,m: 1.根據r(j,0),計算p 對于s=0,1,...,n-1: 2.計算r(j,s+1) 3.另r(j+1,0)=r(j,n)

作者又提出了PMP版本的YOPO,并證明SGD的YOPO是PMP版的一種特殊形式。這樣每次迭代r就只用到embedding的梯度就可以了。

引用[9]:

雖然YOPO-m-n只完成了m次完整的正反向傳播,但是卻實現了m*n次梯度下降。而PGD-r算法完成r次完整的正反向傳播卻只能實現r次梯度下降。這樣看來,YOPO-m-n算法的效率明顯更高,而實驗也表明,只要使得m*n略大于r,YOPO-m-n的效果就能夠與PGD-r相媲美。

然而故事的反轉來的太快,FreeLB指出YOPO使用的假設對于ReLU-based網絡不成立:

Interestingly, the analysis backing the extra update steps assumes a twice continuously differentiable loss, which does not hold for ReLU-based neural networks they experimented with, and thus the reasons for the success of such an algorithm remains obscure.

別問了,問就是PMP,來跟我一起進入下一部份的學習。

FreeLB (Free Large-Batch): ICLR2020

FreeLB認為,FreeAT和YOPO對于獲得最優r (inner max)的計算都存在問題,因此提出了一種類似PGD的方法。只不過PGD只使用了最后一步x+r輸出的梯度,而FreeLB取了每次迭代r輸出梯度的平均值,相當于把輸入看作一個K倍大的虛擬batch,由[X+r1, X+r2, ..., X+rk]拼接而成。具體的公式為:

為了方便對比,再貼下論文中PGD的公式:

FreeLB和PGD主要有兩點區別:

1.PGD是迭代K次r后取最后一次擾動的梯度更新參數,FreeLB是取K次迭代中的平均梯度

2.PGD的擾動范圍都在epsilon內,因為偽代碼第3步將梯度歸0了,每次投影都會回到以第1步x為圓心,半徑是epsilon的圓內,而FreeLB每次的x都會迭代,所以r的范圍更加靈活,更可能接近局部最優:

FreeLB的偽代碼為:

對于每個x: 1.通過均勻分布初始化r,梯度g為0 對于每步t=1...K: 2.根據x+r計算前后向,累計梯度g 3.更新r 4.根據g/K更新梯度

論文中還指出了很重要的一點,就是對抗訓練和dropout不能同時使用,加上dropout相當于改變了網絡結構,會影響r的計算。如果要用的話需要在K步中都使用同一個mask。

SMART (SMoothness-inducing Adversarial Regularization)

SMART論文中提出了兩個方法:

1.對抗正則 SMoothness-inducing Adversarial Regularization,提升模型魯棒性

2.優化算法 Bregman proximal point optimization,避免災難性遺忘

本文只介紹其中的對抗正則方法。

SMART提出了兩種對抗正則損失,加到損失函數中:

第一種參考了半監督對抗訓練,對抗的目標是最大化擾動前后的輸出,在分類任務時loss采用對稱的KL散度,回歸任務時使用平方損失損失:

第二種方法來自DeepMind的NIPS2019[8],核心思想是讓模型學習到的流行更光滑,即讓loss在訓練數據呈線性變化,增強對擾動的抵抗能力。作者認為,如果loss流行足夠平滑,那l(x+r)可以用一階泰勒展開進行近似,因此用來對抗的擾動需要最大化l(x+r)和一階泰勒展開的距離:

SMART的算法和PGD相似,也是迭代K步找到最優r,然后更新梯度。

總結

把最近的一些對抗訓練方法總結出來,可以看到趨勢從“優化PGD的速度”又回到了“找尋最優擾動”,個人也比較認同,訓練速度慢一些對于普通模型還是可以接受的,主要還是看最終的效果有沒有提升。之前自己試過FGM和PGD,FGM有輕微提升,但PGD沒有,應該需要在超參數上進行調整。FreeLB和SMART在GLUE榜單上都有出現過,相信之后對抗訓練也是標配了,坐等微軟放出源碼。

參考文獻:

[1]. 知乎:【煉丹技巧】功守道:NLP中的對抗訓練 + PyTorch實現

[2]. FGSM: Explaining and Harnessing Adversarial Examples

[3]. FGM: Adversarial Training Methods for Semi-Supervised Text Classification

[4]. FreeAT: Adversarial Training for Free!

[5]. YOPO: You Only Propagate Once: Accelerating Adversarial Training via Maximal Principle

[6]. FreeLB: Enhanced Adversarial Training for Language Understanding

[7]. SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural

[8]. Adversarial Robustness through Local Linearization

[9]. 知乎:加速對抗訓練——YOPO算法淺析

責任編輯:xj

原文標題:一文搞懂NLP中的對抗訓練

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 自然語言處理

    關注

    1

    文章

    619

    瀏覽量

    13612
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22066

原文標題:一文搞懂NLP中的對抗訓練

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    TLV320AIC3254內部的ADC處理模塊和minidsp到底是什么關系?

    我想請問一下幾個問題: 1.3254內部的ADC處理模塊和minidsp到底是什么關系,是并列的還是串行關系?還是ADC處理模塊就是minidsp特殊情況下的部分? 2.minidsp的抽取因子該怎么理解,到底怎么使用?
    發表于 10-31 06:02

    請問PCM2903C的溫度范圍到底是多少呢?

    如下圖,PCM2903C的溫度范圍到底是多少呢? 如果用在-25~85℃,是否會出問題?
    發表于 10-14 07:14

    放大器的共模輸入電壓到底是指什么?

    請問放大器的共模輸入電壓到底是指什么?
    發表于 09-19 07:17

    功放和運放到底是什么區別?

    想請問一下功放和運放到底是什么區別,感覺只要接一個小負載,運放的輸出電流也可以很大啊?到底有什么區別啊
    發表于 09-10 07:00

    請問LMV772到底是雙電源還是單電源啊?

    請問LMV772到底是雙電源還是單電源啊?手冊前面寫的太模糊了。求指教
    發表于 09-09 07:10

    運放的輸入電容到底是什么?

    我想請問一下運放的輸入電容到底是什么?
    發表于 09-04 06:52

    LMH6502的輸入電壓到底是多少?

    LMH6502的輸入電壓到底是多少,我稍微給如大一點點的信號,放大不行還能接受,我衰減都失真,
    發表于 08-27 07:02

    運放旁路電容必須靠近芯片引腳的原因到底是什么呢?

    運放旁路電容必須靠近芯片引腳的原因到底是什么呢?有的說是怕走線的電感與旁路電容形成諧振,旁路電容靠近運放的時候走線的電感不應該更大了嗎(走線越長,走線的寄生電感也就越大)
    發表于 08-01 06:56

    大語言模型的預訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使模型學習到語言的通用知識,為后續的任務微調奠定基礎。本文將深入探討大語言模型預
    的頭像 發表于 07-11 10:11 ?503次閱讀

    nlp自然語言處理模型怎么做

    的進展。本文將詳細介紹NLP模型的構建過程,包括數據預處理、模型選擇、訓練與優化等方面。 數據預處理 數據預處理是NLP模型構建的第一步,其目的是將原始文本數據轉換為模型能夠處理的格式。數據預處理主要包括以下幾個步驟: 1.1
    的頭像 發表于 07-05 09:59 ?686次閱讀

    NLP模型RNN與CNN的選擇

    NLP的應用場景、工作原理、優缺點,以及在選擇時應考慮的關鍵因素,以期為讀者提供一個全面而深入的理解。
    的頭像 發表于 07-03 15:59 ?609次閱讀

    對于STM8的固件庫,到底是怎么對文件進行配置的?

    對于STM8的固件庫,到底是怎么對文件進行配置的?
    發表于 05-17 15:59

    共享單車到底是什么通信原理

    我們經常騎的共享單車到底是什么通信原理,有人了解過嗎? 一、智能車鎖 共享單車最核心的硬件是智能車鎖,主要用于實現控制和定位功能。
    發表于 04-09 10:33 ?894次閱讀
    共享單車<b class='flag-5'>到底是</b>什么通信原理

    電子設備的“超級電容器”到底是什么?

    電子設備的“超級電容器”到底是什么?我們提到過電容器與普通電池的不同在于能量密度不同,與標準電容器相比,它還具有更高的電能存儲能力。超級電容器不能像電池一樣存儲盡可能多的功率,但它可以存儲比電容器
    的頭像 發表于 03-11 08:56 ?565次閱讀
    電子設備<b class='flag-5'>中</b>的“超級電容器”<b class='flag-5'>到底是</b>什么?

    共享單車到底是什么通信原理?

    我們經常騎的共享單車到底是什么通信原理,有人了解過嗎?下面寶藍小編就帶大家了解下。
    的頭像 發表于 02-25 10:32 ?1468次閱讀
    共享單車<b class='flag-5'>到底是</b>什么通信原理?
    主站蜘蛛池模板: 欧美骚| 国产香蕉98碰碰久久人人| 精品久久中文网址| 韩国三级hd中文字幕| 国产精品久久久久影院色老大| 国产麻豆成人传媒免费观看| 艹逼视频免费看| 五月花亚洲| 久久伊人操| 色综合美国色农夫网| 视频一区二区中文字幕| 99久久精品费精品国产一区二 | 免费观看一级特黄三大片视频| 国产视频福利| 4438x成人免费| 在线免费观看你懂的| 亚洲youjizz| 欧美亚洲综合一区| 婷婷视频网站| 手机看片91| 日本免费一区二区老鸭窝| 色视频网站免费| 性色在线视频| 免费的黄色大片| 操农村妇女| 欧美午夜性春猛交bbb| 男人午夜视频在线观看| 中文字幕不卡在线播放| 日本香蕉视频| 成人免费视频一区| 男人天堂资源站| 亚洲一区二区精品推荐| 亚洲国产成人久久三区| 免费在线播放黄色| 综合免费视频| www.夜夜爽| 免费福利影院| 欧美成人eee在线| 一级做a爱片久久毛片| 欧美综合影院| www天堂网|