編者按:上篇文章中,我們提到了如何高效地訓(xùn)練ResNet。在今天的文章中,我們將對(duì)mini-batch的尺寸進(jìn)行研究,同時(shí)要考慮遺忘性問(wèn)題。
在上一篇文章中,我們得到了一個(gè)18層的ResNet網(wǎng)絡(luò),測(cè)試精度達(dá)到94%需要341秒,并且經(jīng)過(guò)進(jìn)一步調(diào)整后,時(shí)間縮短至297秒。
目前,訓(xùn)練使用的batch大小是128,batch更大,就支持更高效的計(jì)算,所以我們想試試當(dāng)batch增大到512會(huì)發(fā)生什么。如果我們想估計(jì)之前的設(shè)置,就需要保證學(xué)習(xí)率和其他超參數(shù)都經(jīng)過(guò)合適的調(diào)整。
具有mini-batch的隨機(jī)梯度下降幾乎是每次只訓(xùn)練一個(gè)樣本,但不同的是,參數(shù)的更新會(huì)延遲到batch結(jié)束。在低學(xué)習(xí)率的限制下,你可以認(rèn)為這種延遲是更高階的效應(yīng),只要梯度只在mini-batch上求和而不是計(jì)算平均數(shù),批處理就不會(huì)改變?nèi)魏我浑A的順序。我們還在每個(gè)batch之后應(yīng)用了權(quán)重衰減,它會(huì)通過(guò)batch size中的一個(gè)因素增加,從而抵消需要處理的batch數(shù)量。如果梯度根據(jù)mini-batch被平均,那么學(xué)習(xí)速率應(yīng)該增加到可以消除這一影響只留下權(quán)重衰減,因?yàn)闄?quán)重衰減的更新對(duì)應(yīng)著學(xué)習(xí)率的因子。
所以現(xiàn)在我們將batch size定為512開(kāi)始訓(xùn)練。訓(xùn)練時(shí)間為256秒,將學(xué)習(xí)速率增加10%,在128的batch size下,3/5的訓(xùn)練都能達(dá)到94%的測(cè)試精確度。如之前所料,在512的batch size下,驗(yàn)證結(jié)果有更大的噪聲,這是因?yàn)榕?guī)范化的影響。
現(xiàn)在速度增加的很好,但是結(jié)果讓我們很吃驚
考慮到要用不同的mini-batch進(jìn)行訓(xùn)練,我們認(rèn)為這一過(guò)程中我們忽略了兩點(diǎn)。首先,我們認(rèn)為延遲更新,直到這一mini-batch結(jié)束都是更高階的影響,這在較低的學(xué)習(xí)率中是可行的。目前配置中的快速訓(xùn)練速度很大程度上取決于高學(xué)習(xí)率的使用。在凸優(yōu)化的背景下(或僅僅是二次方的梯度下降),我們可以在某一點(diǎn)設(shè)置學(xué)習(xí)速率,達(dá)到最大的訓(xùn)練速度,在這一點(diǎn)處,二階效應(yīng)開(kāi)始平衡一階效應(yīng),并且一階步長(zhǎng)產(chǎn)生的益處可以通過(guò)曲率效應(yīng)抵消。假設(shè)我們處于這種狀態(tài)mini-batch導(dǎo)致的延遲更新應(yīng)該產(chǎn)生相同的曲率懲罰,因?yàn)閷W(xué)習(xí)率的增加,訓(xùn)練會(huì)變得不穩(wěn)定。簡(jiǎn)而言之,如果可以忽略高階效應(yīng),就說(shuō)明訓(xùn)練速度不夠快。
另外,我們發(fā)現(xiàn)訓(xùn)練步驟只有一個(gè),但事實(shí)上,訓(xùn)練是一個(gè)很長(zhǎng)的運(yùn)行過(guò)程,要改變參數(shù)就需要好幾個(gè)步驟。所以,小的batch和大的batch訓(xùn)練之間的二階差異可以隨著時(shí)間積累,導(dǎo)致訓(xùn)練軌跡有很大不同。在之后的文章中我們會(huì)重新討論這一點(diǎn)。
所以,我們?cè)撊绾卧谙拗朴?xùn)練速度的情況下,還可以提高batch size,同時(shí)不用維持曲率效應(yīng)帶來(lái)的不穩(wěn)定性?答案可能是其他因素在限制學(xué)習(xí)速率,而我們并沒(méi)有考慮到曲率效應(yīng)。我們認(rèn)為這一其他因素就是“災(zāi)難性遺忘(Catastrophic Forgetting)”,這也是在較小batch中限制學(xué)習(xí)率的原因。
首先,我們要對(duì)這一概念進(jìn)行解釋。這一術(shù)語(yǔ)通常用于,當(dāng)一個(gè)模型在一個(gè)任務(wù)上訓(xùn)練后,又應(yīng)用到第二第三個(gè)模型上。但是學(xué)習(xí)之后的任務(wù)會(huì)導(dǎo)致性能下降,有時(shí)這種影響是災(zāi)難性的。在我們的案例中,這些任務(wù)是來(lái)自同一個(gè)訓(xùn)練集的不同部分,所以單單在一個(gè)epoch中就會(huì)發(fā)生遺忘現(xiàn)象。學(xué)習(xí)速率越高,訓(xùn)練中參數(shù)所用的越多,在某一點(diǎn)時(shí)這會(huì)削弱模型吸收信息的能力,早期的batch就會(huì)更容易遺忘。
當(dāng)我們提高batch size時(shí),并沒(méi)有立即增加模型的穩(wěn)定性。如果是曲率導(dǎo)致的,穩(wěn)定性會(huì)利可增加。反之,如果是遺忘是主要原因,模型不會(huì)受batch size的影響。
之后,我們進(jìn)行了實(shí)驗(yàn)將曲率的效應(yīng)和遺忘性區(qū)分開(kāi)。曲率效應(yīng)大多依賴(lài)于學(xué)習(xí)率,而遺忘主要受學(xué)習(xí)率和數(shù)據(jù)集大小的共同影響。我們繪制了在batch size為128時(shí),訓(xùn)練和測(cè)試損失的折線圖,訓(xùn)練所用的是不同大小的子集。
可以看到,首先,訓(xùn)練和測(cè)試損失都在學(xué)習(xí)速率為8的地方突然變得不穩(wěn)定,這說(shuō)明曲率影響在這里變得非常重要。相反,其他地方的訓(xùn)練和測(cè)試損失都很平穩(wěn)。
如我們所料,優(yōu)化學(xué)習(xí)速率因子(由測(cè)試集損失測(cè)定)和全部的訓(xùn)練數(shù)據(jù)集中的優(yōu)化學(xué)習(xí)速率因子很接近。對(duì)于更小的數(shù)據(jù)集來(lái)說(shuō),優(yōu)化學(xué)習(xí)速率因子更高。這也符合我們上面的假設(shè):對(duì)于一個(gè)足夠小的數(shù)據(jù)及來(lái)說(shuō),遺忘就不再是問(wèn)題了,學(xué)習(xí)速率才是問(wèn)題。對(duì)于更大的數(shù)據(jù)集,在遺忘的影響下,優(yōu)化點(diǎn)會(huì)更低。
同樣,在batch size為512的情況下,曲線圖也很有趣。由于batch size比上方的大了4倍,曲線出現(xiàn)不穩(wěn)定情況的速度更快了,當(dāng)學(xué)習(xí)速率為2時(shí)即出現(xiàn)。我們?nèi)匀幌M瑢W(xué)習(xí)速率因子的優(yōu)化值和損失與128時(shí)的相近,因?yàn)檫z忘并不對(duì)batch size產(chǎn)生影響。以下是得到的結(jié)果:
我們?cè)O(shè)置batch size=128,然后用一定學(xué)習(xí)速率訓(xùn)練,在前五個(gè)epoch中線性增加,之后達(dá)到固定的速率并繼續(xù)訓(xùn)練25個(gè)epoch。我們?cè)趦蓚€(gè)數(shù)據(jù)集上進(jìn)行了比較:a)50%的完全訓(xùn)練集沒(méi)有經(jīng)過(guò)數(shù)據(jù)增強(qiáng);b)全部數(shù)據(jù)都經(jīng)過(guò)增強(qiáng)的數(shù)據(jù)集。當(dāng)模型在b上運(yùn)行時(shí),我們將它停止,重新計(jì)算最后幾個(gè)epoch的損失,這樣做的目的是比較模型在最近的數(shù)據(jù)上得到的損失和此前數(shù)據(jù)上計(jì)算出的損失。
以下是學(xué)習(xí)速率是原始訓(xùn)練時(shí)4倍的結(jié)果:
以下是原始訓(xùn)練是現(xiàn)在學(xué)習(xí)速率4倍的結(jié)果:
從第一組圖表中,我們發(fā)現(xiàn),與高學(xué)習(xí)速率相對(duì)應(yīng),測(cè)試損失幾乎和模型在a、b上訓(xùn)練時(shí)的結(jié)果一樣。這說(shuō)明,訓(xùn)練無(wú)法從b和a中提取信息。右邊的圖也證明了這一結(jié)果,最近訓(xùn)練的batch表現(xiàn)出比此前的batch更低的損失,但是在半個(gè)epoch之內(nèi),損失又恢復(fù)到模型在從未見(jiàn)過(guò)的測(cè)試樣本上的水平。這說(shuō)明,模型忘記了在同一個(gè)epoch中它此前看到的東西,這也說(shuō)明這一學(xué)習(xí)速率限制了它能吸收到的信息。
第二組圖表表現(xiàn)出了相反的結(jié)果。全部經(jīng)過(guò)數(shù)據(jù)增強(qiáng)的數(shù)據(jù)集導(dǎo)致了更低的測(cè)試損失,最近的訓(xùn)練batch比此前表現(xiàn)得更好。
結(jié)語(yǔ)
上述結(jié)果表明,如果我們想訓(xùn)練一個(gè)擁有較高學(xué)習(xí)速率的神經(jīng)網(wǎng)絡(luò),那么就要考慮兩點(diǎn)。對(duì)于目前的模型和數(shù)據(jù)集來(lái)說(shuō),在128的batch size下,我們不會(huì)受到遺忘的影響,要么可以找方法降低影響(例如用更大的、伴有稀疏更新的模型或者自然梯度下降),要么可以增大batch size。當(dāng)batch size達(dá)到512時(shí),曲率就開(kāi)始影響結(jié)果,我們關(guān)注的重點(diǎn)應(yīng)該轉(zhuǎn)移到曲率上來(lái)。
對(duì)于更大的數(shù)據(jù)集,例如ImageNet-1k,遺忘的影響會(huì)更嚴(yán)重。這就能解釋為什么在小的batch size、高學(xué)習(xí)率的訓(xùn)練中加速會(huì)失敗。
在接下來(lái)的文章中,我們會(huì)加速批規(guī)范化,加入一些正則化,同時(shí)替換另一種基準(zhǔn)。
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24716 -
resnet
+關(guān)注
關(guān)注
0文章
12瀏覽量
3171
原文標(biāo)題:如何訓(xùn)練你的ResNet(二):Batch的大小、災(zāi)難性遺忘將如何影響學(xué)習(xí)速率
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論