在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

目前訓練神經網絡最快的方式一種新型AdamW算法

MqC7_CAAI_1981 ? 來源:未知 ? 作者:李倩 ? 2018-07-05 16:45 ? 次閱讀

最優化方法一直是機器學習中非常重要的部分,也是學習過程的核心算法。而 Adam 自 14 年提出以來就受到廣泛關注,目前該論文的引用量已經達到了 10047。不過自去年以來,很多研究者發現 Adam 優化算法的收斂性得不到保證,ICLR 2017 的最佳論文也重點關注它的收斂性。在本文中,作者發現大多數深度學習庫的 Adam 實現都有一些問題,并在 fastai 庫中實現了一種新型 AdamW 算法。根據一些實驗,作者表示該算法是目前訓練神經網絡最快的方式。

Adam 過山車

Adam 優化器之旅可以說是過山車(roller-coaster)式的。該優化器于 2014 年推出,本質上是一個出于直覺的簡單想法:既然我們明確地知道某些參數需要移動得更快、更遠,那么為什么每個參數還要遵循相同的學習率?因為最近梯度的平方告訴我們每一個權重可以得到多少信號,所以我們可以除以這個,以確保即使是最遲鈍的權重也有機會發光。Adam 接受了這個想法,在過程中加入了標準方法,就這樣產生了 Adam 優化器(稍加調整以避免早期批次出現偏差)!

首次發表之時,深度學習社區都為來自原論文的一些圖表(如下圖)興奮不已:

Adam 和其他優化器的對比

訓練速度提高 200%!「總體來看,我們發現 Adam 非常魯棒,而且廣泛適用于機器學習領域的各種非凸優化問題」論文結尾這樣寫道。那是三年前,深度學習的黃金時期。然而,事情并沒有按照我們期望的方向發展。使用 Adam 訓練模型的研究文章少之又少,新的研究開始明顯地抑制了它的應用,并在幾個實驗中表明,SGD+momentum可能比復雜的 Adam 表現更好。2018 fast.ai 課程開課之際,可憐的 Adam 被從早期課程中刪除。

但是到了 2017 年末,Adam 似乎又重獲新生。Ilya Loshchilov 和 Frank Hutter 在他們的論文《Fixing Weight Decay Regularization in Adam》中指出,每個庫在 Adam 上實施的權重衰減似乎都是錯誤的,并提出了一種簡單的方法(他們稱之為 AdamW)來修復它。盡管結果略有不同,但他們確實給出了一些類似下圖的令人鼓舞的圖表:

Adam 和 AdamW 對比

我們希望人們恢復對 Adam 的熱情,因為該優化器的一些早期結果似乎可以復現。但事與愿違。實際上,應用它的唯一一個深度學習框架就是使用 Sylvain 編碼的 fastai。由于缺乏可用的廣泛框架,日常實踐者就只能固守又舊又不好用的 Adam。

但這不是唯一的問題。前面還有很多阻礙。兩篇論文指出了 Adam 在收斂性證明方面的明顯問題,盡管其中一篇提出了名為 AMSGrad 的修正(并在享有盛譽的 ICLR 大會上贏得了「最佳論文」獎)。但是,如果說我們從這種最戲劇化的生活(至少按照優化器的標準來說是戲劇化的)簡史中學到了什么,那就是,沒有什么是它表面看起來的樣子。的確,博士生 Jeremy Bernstein 指出,所謂的收斂問題其實只是選擇不當的超參數的跡象,也許 AMSGrad 也解決不了問題。另一名博士生 Filip Korzeniowski 展示了一些早期成果,似乎支持了 AMSGrad 這種令人沮喪的觀點。

啟動過山車

那么我們這些只希望快速訓練精確模型的人該做些什么呢?我們選擇用數百年來解決科學辯論的方式——科學實驗——來解決這一爭議!稍后將呈現所有細節,但首先讓我們來看一下大致結果:

適當調參之后,Adam 真的可以用!我們在以下幾個任務中得到了訓練時間方面的最新結果:

在含有測試時間增加的僅僅 18 個 epoch 或 30 個 epoch 上訓練 CIFAR10,直到其準確率超過 94%,如 DAWNBench 競賽;

對 Resnet50 進行調參,直至其在斯坦福汽車數據集上的準確率達到 90%,只需訓練 60 個 epoch(之前達到相同的準確率需要 600 個 epoch);

從零開始訓練一個 AWD LSTM or QRNN,歷經 90 個 epoch(或在一個 GPU 上訓練 1 個半小時),其困惑度在 Wikitext-2 上達到當前最優水平(之前的 LSTM 需要 750 個 epoch,QRNN 需要 500 個 epoch)。

這意味著我們已經看到使用 Adam 的超收斂!超收斂是訓練學習率高的神經網絡時出現的一種現象,它表示節省了一半訓練過程。在 AdamW 之前,訓練 CIFAR10 至 94 % 的準確率需要大約 100 個 epoch。

與之前的工作相比,我們發現只要調整得當,Adam 在我們嘗試過的每一個 CNN 圖像問題上都可以獲得與 SGD+Momentum 一樣好的準確率,而且幾乎總是快一點。

關于 AMSGrad 是一個糟糕的「解決方案」的建議是正確的。我們一直發現,AMSGrad 在準確率(或其他相關指標)上沒有獲得比普通 Adam / AdamW 更高的增益。

當你聽到人們說 Adam 的泛化性能不如 SGD+Momentum 時,你基本上總會發現他們為自己的模型所選擇的超參數不咋地。通常 Adam 需要的正則化比 SGD 多,因此在從 SGD 轉向 Adam 時,確保調整正則化超參數。

文章結構:

1. AdamW

理解 AdamW

實現 AdamW

AdamW 實驗和 AdamW-ish

2. AMSGrad

理解 AMSGrad

實現 AMSGrad

AMSGrad 實驗的結果

3. 完整結果圖表

AdamW

理解 AdanW:權重衰減與 L2 正則化

L2 正則化是減少過擬合的經典方法,它會向損失函數添加由模型所有權重的平方和組成的懲罰項,并乘上特定的超參數以控制懲罰力度。以下本文所有的方程式都是用 Python、NumPy 和 PyTorch 風格的表達方式:

final_loss=loss+wd*all_weights.pow(2).sum()/2

其中 wd 為我們設置的超參數,用以控制懲罰力度。這也可以稱為權重衰減,因為每一次運用原版 SGD 時,它都等價于使用如下方程式更新權重:

w=w-lr*w.grad-lr*wd*w

其中 lr 表示學習率、w.grad 表示損失函數對 w 的導數,而后面的 wd * w 則表示懲罰項對 w 的求導結果。在這個等式中,我們會看到每一次更新都會減去一小部分權重,這也就是「衰減」的來源。

fast.ai 查看過的所有庫都使用第一種形式。在實踐中,幾乎都是通過向梯度 wd*w 而實現算法,而不是真正地改變損失函數。因為我們并不希望增加額外的計算量來修正損失,尤其是還有其它簡單方法的時候。

既然它們是同一種表達,那么我們為什么需要區分這兩種概念呢?原因在于它們只對于原版 SGD 是等價的,而當我們添加動量或使用如 Adam 那樣復雜的最優化方法,L2 正則化(第一個方程)和權重衰減(第二個方程)就會存在很大的不同。在本文其余的部分中,我們討論權重衰減指的都是第二個方程式,而討論 L2 正則化都是討論第一個經典方式。

如下在帶動量的 SGD 中,L2 正則化與權重衰減是不等價的。L2 正則化會將 wd*w 添加到梯度中,但現在權重并不是直接減去梯度。首先我們需要計算移動均值:

moving_avg=alpha*moving_avg+(1-alpha)*(w.grad+wd*w)

然后權重才能通過減去乘上了學習率的移動均值而得到更新。所以 w 更新中涉及到的正則化為 lr* (1-alpha)*wd * w 加上已經在 moving_avg 中前面權重的組合。

因此,權重衰減的更新方式可以表示為:

moving_avg=alpha*moving_avg+(1-alpha)*w.gradw=w-lr*moving_avg-lr*wd*w

我們可以觀察到,從 w 中減去有關正則化的部分在兩種方法中是不同的。當我們使用 Adam 優化器時,權重衰減的部分可能相差更大。因為 Adam 中的 L2 正則化需要添加 wd*w 到梯度中,并分別計算梯度及其平方的移動均值,然后再能更新權重。然而權重衰減方法只是簡單地更新權重,并每次從權重中減去一點。

顯然這是兩種不同的方法,在進行了實驗后,Ilya Loshchilov 和 Frank Hutter 建議我們應該在 Adam 算法中使用權重衰減方法,而不是像經典深度學習庫中實現的 L2 正則化。

實現 AdamW

那么我們要如何才能實現 AdamW 算法呢?如果你們在使用 fastai 的庫,那么在使用 fit 函數時添加參數 use_wd_sched=True 就能簡單地實現:

learn.fit(lr,1,wds=1e-4,use_wd_sched=True)

如果你更喜歡新的訓練 API,你就能在每一個訓練階段中使用參數 wd_loss=False:

phases=[TrainingPhase(1,optim.Adam,lr,wds=1-e4,wd_loss=False)]learn.fit_opt_sched(phases)

以下簡要地概述了 fastai 是如何實現 AdamW 的。在優化器中的階梯函數,我們只需要使用梯度修正參數,根本不使用參數本身的值(除了權重衰減,我們將在外部處理它)。然后我們可以在最優化器之前通簡單的實現權重衰減,但這仍需要在計算梯度后才能完成,否則它就會影響梯度的值。所以在訓練循環中,我們必須確定計算權重衰減的位置。

loss.backward()#Dotheweightdecayhere!optimizer.step()

當然,最優化器應該設定 wd=0,否則它還會做一些 L2 正則化,這也是我們不希望看到的。現在在權重衰減的位置中,我們可以在所有參數上寫一個循環語句,并依次采用權重衰減的更新。而我們的參數應該存儲在優化器的字典 param_groups 中,所以這個循環應該表示為如下語句:

loss.backward()forgroupinoptimizer.param_groups():forparamingroup['params']:param.data=param.data.add(-wd*group['lr'],param.data)optimizer.step()

AdamW 實驗的結果:它真的能行嗎?

我們首先在計算機視覺問題上進行測試,效果非常好。具體來說,Adam 和 L2 正則化在 30 個 epoch 中獲得的平均準確率為 93.96%,在兩次中有一次超過 94%。我們選擇 30 個 epoch 是因為通過 1cycle 策略和 SGD 可以獲得 94% 準確率。當我們使用 Adam 與權重衰減方法,我們持續獲得 94% 到 94.25% 的準確率。為此,我們發現使用 1cycle 策略時的最優 beta2 值為 0.99。我們將 beta1 參數視為 SGD 中的動量,這也就意味著它學習率的增長由 0.95 降低到 0.85,然后隨學習率的降低而又增加到 0.95。

L2 正則化或權重衰減準確率

更令人印象深刻的是,使用測試時間增加(即在測試集的一個圖像和它四個增加數據的版本上取預測的平均值),我們可以在僅僅 18 個 epoch 內達到 94 % 的準確率(平均 93.98 %)!通過簡單的 Adam 和 L2 正則化,每嘗試 20 次就會出現一次超過 94 % 的情況。

在這些比較中需要考慮的一點是,改變正則化方式會改變權重衰減或學習率的最佳值。在我們進行的測試中,L2 正則化的最佳學習率為 1e-6(最大學習率為 1e-3),而權重衰減的最佳值為 0.3(學習率為 3e-3)。在我們的所有測試中,數量級的差異都是非常一致的,主要是因為 L2 正則化被梯度的平均范數(相當低)有效地劃分,并且 Adam 的學習率相當小(所以權重衰減的更新需要更強的系數)。

那么,權重衰減總是比 Adam 的 L2 正則化更好?我們還沒有發現明顯更糟的情況,但無論是遷移學習問題(例如斯坦福汽車數據集上 Resnet50 的微調)還是 RNNs,它都沒有給出更好的結果。

AMSGrad

理解 AMSGrad

AMSGrad 是由 Sashank J. Reddi、Satyen Kale 和 Sanjiv Kumar 在近期的一篇文章中介紹的。通過分析 Adam 優化器收斂的證明,他們在更新規則中發現了一個錯誤,該錯誤可能導致算法收斂到次優點。他們設計了理論實驗,展示 Adam 失敗的情形,并提出了一個簡單的解決方案。機器之心也曾從適應性學習率算法出發分析過這一篇最佳論文:Beyond Adam。

為了更好地理解錯誤和解決方案,讓我們來看一下 Adam 的更新規則:

avg_grads=beta1*avg_grads+(1-beta1)*w.gradavg_squared=beta2*(avg_squared)+(1-beta2)*(w.grad**2)w=w-lr*avg_grads/sqrt(avg_squared)

我們剛剛跳過了偏差校正(對訓練的開始很有用),把重心放在了主要點上。作者發現 Adam 收斂證明中的錯誤之處在于:

lr/sqrt(avg_squared)

這是我們朝著平均梯度方向邁出的一步,在訓練中逐漸減少。由于學習率常常是恒定或遞減的,作者提出的解決方案是通過添加另一個變量來跟蹤它們的最大值,從而迫使 avg _ square 量增加。

實現 AMSGrad

相關文章在 ICLR 2018 中獲得了一項大獎并廣受歡迎,而且它已經在兩個主要的深度學習庫——PyTorch 和 Keras 中實現。所以,我們只需傳入參數 amsgrad = True 即可。

avg_grads=beta1*avg_grads+(1-beta1)*w.gradavg_squared=beta2*(avg_squared)+(1-beta2)*(w.grad**2)max_squared=max(avg_squared,max_squared)w=w-lr*avg_grads/sqrt(max_squared)

AMSGrad 實驗結果:大量噪音都是沒用的

AMSGrad 的結果令人非常失望。在所有實驗中,我們都發現它沒有絲毫幫助。即使 AMSGrad 發現的最小值有時比 Adam 達到的最小值稍低(在損失方面),其度量(準確率、f_1 分數…)最終總是更糟(詳見引言中的表格)。

Adam 優化器在深度學習中收斂的證明(因為它針對凸問題)和他們在其中發現的錯誤對于與現實問題無關的合成實驗很重要。實際測試表明,當這些 avg _ square 梯度想要減小時,這么做能得到最好的結果。

這表明,即使把重點放在理論上有助于獲得一些新想法,也沒有什么可以取代實驗(而且很多實驗!)以確保這些想法實際上有助于從業人員訓練更好的模型。

附錄:所有結果

從零開始訓練 CIFAR10(模型是 Wide-ResNet-22,以下為五個模型的平均結果):

使用 fastai 庫引入的標準頭對斯坦福汽車數據集上的 Resnet 50 進行微調(解凍前對頭訓練 20 個 epoch,并用不同的學習率訓練 40 個 epoch):

使用來自 GitHub(https://github.com/salesforce/awd-lstm-lm)的超參數訓練 AWD LSTM(結果顯示在有或沒有緩存指針(cache pointer)情況下驗證/測試集的困惑度):

使用來自 GitHub repo 的超參數訓練 QRNN(結果顯示在有或沒有緩存指針情況下驗證/測試集的困惑度):

針對這一具體任務,我們采用了 1cycle 策略的修改版本,加快了學習速度,之后長時間保持較高的恒定學習速度,然后再往下降。

Adam 和其它優化器之間的對比

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4775

    瀏覽量

    100915
  • 算法
    +關注

    關注

    23

    文章

    4622

    瀏覽量

    93074
  • 機器學習
    +關注

    關注

    66

    文章

    8428

    瀏覽量

    132803

原文標題:當前訓練神經網絡最快的方式:AdamW優化算法+超級收斂

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    人工神經網絡原理及下載

    人工神經網絡是根據人的認識過程而開發出的一種算法。假如我們現在只有些輸入和相應的輸出,而對如何由輸入得到輸出的機理并不清楚,那么我們可以把輸入與輸出之間的未知過程看成是
    發表于 06-19 14:40

    粒子群優化模糊神經網絡在語音識別中的應用

    定的早熟收斂問題,引入一種自適應動態改變慣性因子的PSO算法,使算法具有較強的全局搜索能力.將此算法
    發表于 05-06 09:05

    【案例分享】ART神經網絡與SOM神經網絡

    一種常用的無監督學習策略,在使用改策略時,網絡的輸出神經元相互競爭,每時刻只有個競爭獲勝的神經
    發表于 07-21 04:30

    分享一種400×25×2的三層BP神經網絡

    本文首先簡單的選取了少量的樣本并進行樣本歸化,這樣就得到了可供訓練訓練集和測試集。然后訓練了400×25×2的三層BP神經網絡,最后對最
    發表于 07-12 06:49

    隱藏技術: 一種基于前沿神經網絡理論的新型人工智能處理器

    隱藏技術: 一種基于前沿神經網絡理論的新型人工智能處理器 Copy東京理工大學的研究人員開發了一種名為“ Hiddenite”的新型加速器芯
    發表于 03-17 19:15

    一種基于高效采樣算法的時序圖神經網絡系統介紹

    成為了非常重要的問題。 基于以上問題,本文提出了一種基于高效采樣算法的時序圖神經網絡系統 。首先我們介紹用于時序圖神經網絡采樣的高效采樣方法。采樣常常被用于深度學習中以降低模型的
    發表于 09-28 10:34

    如何進行高效的時序圖神經網絡訓練

    現有的圖數據規模極大,導致時序圖神經網絡訓練需要格外長的時間,因此使用多GPU進行訓練變得成為尤為重要,如何有效地將多GPU用于時序圖神經網絡訓練
    發表于 09-28 10:37

    一種BP神經網絡改進算法的研究及應用

    本文首先介紹了傳統的神經網絡BP 算法的優缺點,并結合模擬退火算法局部搜索全局的特點,提出將模擬退火算法和傳統的BP 算法相結合,形成
    發表于 01-09 11:57 ?12次下載

    基于動態神經網絡的交通事件檢測算法

    本文將一種新型的動態 神經網絡 結構與傳統的基于狀態估計的故障檢測方法相結合, 提出了一種基于動態神經網絡的交通事件檢測
    發表于 07-26 15:36 ?26次下載
    基于動態<b class='flag-5'>神經網絡</b>的交通事件檢測<b class='flag-5'>算法</b>

    訓練神經網絡的五大算法

    神經網絡模型的每類學習過程通常被歸納為一種訓練算法訓練
    發表于 11-16 15:30 ?1.3w次閱讀

    一種新型神經網絡結構:膠囊網絡

    膠囊網絡是 Geoffrey Hinton 提出的一種新型神經網絡結構,為了解決卷積神經網絡(ConvNets)的
    的頭像 發表于 02-02 09:25 ?5893次閱讀

    神經網絡反向傳播算法原理是什么

    神經網絡反向傳播算法(Backpropagation Algorithm)是一種用于訓練多層前饋神經網絡的監督學習
    的頭像 發表于 07-02 14:16 ?691次閱讀

    BP神經網絡算法的基本流程包括

    BP神經網絡算法,即反向傳播(Backpropagation)神經網絡算法,是一種多層前饋神經網絡
    的頭像 發表于 07-03 09:52 ?541次閱讀

    神經網絡如何用無監督算法訓練

    神經網絡作為深度學習的重要組成部分,其訓練方式多樣,其中無監督學習是一種重要的訓練策略。無監督學習旨在從未標記的數據中發現數據內在的結構、模
    的頭像 發表于 07-09 18:06 ?846次閱讀

    怎么對神經網絡重新訓練

    重新訓練神經網絡個復雜的過程,涉及到多個步驟和考慮因素。 引言 神經網絡一種強大的機器學習模型,廣泛應用于圖像識別、自然語言處理、語音
    的頭像 發表于 07-11 10:25 ?478次閱讀
    主站蜘蛛池模板: 亚洲成人综合网站| 无内丝袜透明在线播放| 婷婷六月丁香午夜爱爱| tube4欧美最新69| 性夜影院爽黄a爽免费视频| 老师受不了了好硬好大| 亚洲特级aaaaaa毛片| 色狠狠狠狠综合影视| 免费公开视频人人人人人人人| 黄a视频在线观看| 永久免费在线视频| 免费看美女午夜大片| 99xxxx开心| 男人都懂的网址在线看片| 欧美成人观看免费全部完小说| 老外一级黄色片| 日韩欧美在线中文字幕| 欧美一级视频精品观看| 色狠狠色综合久久8狠狠色| 欧美一级做一级做片性十三| 黄色爱爱视频| 午夜 福利 视频| 天天视频入口| 国产亚洲欧美日本一二三本道| 米奇777色狠狠8888影视| 欲色啪| 皇帝受h啪肉np文| 色欧美综合| 国产欧美视频在线| 狠狠色狠狠色综合日日小蛇| 99久久久精品| 久久精品美女| 特大一级aaaaa毛片| 天堂网a| 色五阁| 久久美女精品国产精品亚洲| 久久综合九色综合97_ 久久久 | 国产黄色小视频网站| 国产亚洲第一| 欧美一级免费片| 久久青草视频|