君子以泽,欢乐颂第三季,完美世界有声小说

1為什么要 Normalization

在深度神經(jīng)網(wǎng)絡(luò)中，存在一種內(nèi)部協(xié)變偏移（internal covariate shift）現(xiàn)象，它是由于訓(xùn)練過程中不斷變化的網(wǎng)絡(luò)參數(shù)導(dǎo)致網(wǎng)絡(luò)各層的輸入分布發(fā)生變化。

例如，輸入層中某些具有較高數(shù)值的特征可能會起到主導(dǎo)作用，從而在網(wǎng)絡(luò)中產(chǎn)生偏差，即只有這些特征對訓(xùn)練結(jié)果有貢獻。

例如，假設(shè)特征 1 的值介于 1 和 5 之間，特征 2 的值介于 100 和 10000 之間。在訓(xùn)練期間，由于兩個特征的規(guī)模不同，特征 2 將主導(dǎo)網(wǎng)絡(luò)，只有該特征對模型作出貢獻。

這僅僅是一層的情況，如果從整個深度神經(jīng)網(wǎng)絡(luò)來看，那就更加復(fù)雜了。Google 在其論文中將這一現(xiàn)象總結(jié)為，

Internal Covariate Shift簡稱 ICS，是由于訓(xùn)練過程中網(wǎng)絡(luò)參數(shù)的變化引起的網(wǎng)絡(luò)激活分布的變化。

網(wǎng)絡(luò)中的每一層的參數(shù)更新會導(dǎo)致本層的激活輸出的分布發(fā)生變化，也就是后面層的輸入的分布發(fā)生變化。而深度神經(jīng)網(wǎng)絡(luò)往往涉及到很多層的疊加，通過層層疊加，會引發(fā)后面層非常劇烈的變化，這就給深度模型的訓(xùn)練帶來了巨大挑戰(zhàn)。

由于上述原因，引入了稱為 normalization 的概念來解決這些問題。

Normalization 有很多優(yōu)點，包括

減少內(nèi)部協(xié)變偏移以改善訓(xùn)練；

將每個特征縮放到相似的范圍以防止或減少網(wǎng)絡(luò)中的偏差；

通過防止權(quán)重在整個地方爆炸并將它們限制在特定范圍內(nèi)來加速優(yōu)化過程；

通過輔助正則化減少網(wǎng)絡(luò)中的過擬合。

Normalization 也可以結(jié)合概率論來解釋。一般來說，機器學(xué)習(xí)中的方法比較偏愛獨立同分布的數(shù)據(jù)。當(dāng)然并不是所有算法都有這個要求，但獨立同分布的數(shù)據(jù)往往可以簡化一般模型的訓(xùn)練，提升模型的預(yù)測能力。

在把數(shù)據(jù)輸入模型之前，對其經(jīng)過白化（whitening）處理是一個不錯的預(yù)處理步驟。

比如上圖（左）的數(shù)據(jù)，先經(jīng)過零均值化以及去相關(guān)性操作，得到中間的形式，各個特征相互獨立；再讓所有特征具有單位標準差，最終得到獨立同分布的數(shù)據(jù)。

但深度學(xué)習(xí)中往往不直接使用白化操作，白化中間需要用到 PCA。如果對輸入數(shù)據(jù)作一次 PCA，那也僅僅是針對線性模型，但如果針對神經(jīng)網(wǎng)絡(luò)中的中間每一層在激活后再使用白化，那計算代價太過高昂。

那怎么辦呢？不妨模仿白化，但可以作一些簡化，比如不考慮去相關(guān)性，而是對各層的激活輸出在一定范圍內(nèi)作標準化處理，再加一定的縮放和偏移。這里的操作范圍可以不同，于是就有了一堆 Normalization 方法。

2Batch Normalization

Batch Normalization 側(cè)重于標準化任何特定層的輸入（即來自前一層的激活）。

下圖左邊網(wǎng)絡(luò)中沒有 BN 層，右邊網(wǎng)絡(luò)中在隱藏層前加入了 BN 層，即對輸入層在小批次上作了 Normalization。

標準化輸入意味著網(wǎng)絡(luò)中任何層的輸入都應(yīng)該近似零均值以及單位方差。簡單來說，BN 層通過減去當(dāng)前小批量中的輸入均值并除以標準差來變換當(dāng)前小批量中的每個輸入。

總結(jié)一下：簡而言之，BN 使得梯度更具預(yù)測性，從而有效改善網(wǎng)絡(luò)訓(xùn)練。

下面，讓我們看看 BN 的一些優(yōu)點：

BN 加速深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。

對于每個輸入小批量，我們計算不同的統(tǒng)計量，這引入了某種正則化。正則化技術(shù)起到在訓(xùn)練期間限制深度神經(jīng)網(wǎng)絡(luò)復(fù)雜度的作用。

每個小批量都有不同的小分布，這些小分布之間的變化稱為內(nèi)部協(xié)變偏移，BN 被認為消除了這種現(xiàn)象。

BN 對通過網(wǎng)絡(luò)的梯度流也提供了有利影響：它減少了梯度對參數(shù)尺度或其初始值的依賴性，從而使我們能夠使用更高的學(xué)習(xí)率。

然而，下面是批量標準化的幾個缺點：

BN 在每次訓(xùn)練迭代中計算批次數(shù)據(jù)的統(tǒng)計量（Mini-batch 均值和方差），因此在訓(xùn)練時需要更大的批次大小，以便它可以有效地逼近來自 mini-batch 的總體均值和方差。這使得 BN 更難訓(xùn)練用于對象檢測、語義分割等應(yīng)用的網(wǎng)絡(luò)，因為它們通常涉及高分辨率（通常高達 1024，2048 等）的輸入數(shù)據(jù)，使用大批量進行訓(xùn)練在計算上往往是不可行的。

BN 不適用于 RNN。問題是 RNN 與之前的時間戳具有循環(huán)連接，并且在 BN 層中的每個時間步長都需要單獨的和，這反而增加了額外的復(fù)雜性并使 BN 與 RNN 一起使用變得更加困難。

不同的訓(xùn)練和測試計算：在測試（或推理）期間，BN 層不會從測試數(shù)據(jù) mini-batch（上面算法表中的步驟 1 和 2）計算均值和方差，而是使用固定均值和從訓(xùn)練數(shù)據(jù)計算的方差。這在使用 BN 時需要謹慎，并引入了額外的復(fù)雜性。在 pytorch 中，model.eval()確保在評估模型中設(shè)置模型，因此 BN 層利用它來使用從訓(xùn)練數(shù)據(jù)預(yù)先計算的固定均值和方差。

3Weight Normalization

針對 BN 的缺點，Saliman 等人提出了 WN。他們的想法是將權(quán)重向量的大小與方向解耦，從而重新參數(shù)化網(wǎng)絡(luò)以加快訓(xùn)練速度。

重新參數(shù)化是什么意思呢？

WN 加速了類似于 BN 的訓(xùn)練，與 BN 不同的是，它也適用于 RNN。但是與 BN 相比，使用 WN 訓(xùn)練深度網(wǎng)絡(luò)的穩(wěn)定性較差，因此在實踐中并未得到廣泛應(yīng)用。

4Layer Normalization

受 BN 的啟發(fā)，Hinton 等人提出的 Layer Normalization 沿特征方向而不是小批量方向?qū)せ钸M行 normalization。這通過消除對批次的依賴來克服 BN 的缺點，也使得 RNN 更容易應(yīng)用 BN。

與 BN 不同，LN 直接從整個隱藏層的神經(jīng)元的總輸入估計統(tǒng)計量，因此 normalization 不會在訓(xùn)練數(shù)據(jù)之間引入任何新的依賴關(guān)系。它適用于 RNN，并提高了幾個現(xiàn)有 RNN 模型的訓(xùn)練時間和泛化性能。最近，它還與 Transformer 模型一起配合使用。

注意上圖中的顏色走向，與 BN 有所不同，LN 對某一個層中所有特征進行歸一化，而不是在小批量中對輸入特征進行歸一化。

5Group Normalization

與 LN 類似，GN 也沿特征方向進行操作，但與 LN 不同的是，它將特征劃分為若干組并分別對每個組進行 normalization。在實踐中，GN 比 LN 常常表現(xiàn)得更好，它的參數(shù) num_groups 可以設(shè)為超參數(shù)。

如果覺得 BN、LN、GN 有點令人困惑，下圖給出了一個總結(jié)。給定形狀 (N, C, H, W) 的激活，BN 歸一化 N 方向，LN 和 GN 歸一化 C 方向，但 GN 額外地將 C 通道分組并單獨 normalize 各個組。

下圖中可以看到一個簡單的編碼器-解碼器網(wǎng)絡(luò)架構(gòu)，帶有額外的 Ad aIN 層用于樣式對齊。

其中，

分別計算每個輸出通道的均值和標準差，可以結(jié)合下圖來理解。

本質(zhì)上，WS 旨在單獨調(diào)控每個輸出通道的權(quán)重的一階統(tǒng)計量。通過這種方式，WS 在反向傳播期間對梯度進行 normalization。

從理論上和實驗上都驗證了它通過標準化卷積層中的權(quán)重來平滑損失情況。

理論上，WS 減少了損失和梯度的 Lipschitz 常數(shù)。核心思想是將卷積權(quán)重保持在一個緊湊的空間中，從而平滑了損失并改進了訓(xùn)練。

論文作者將 WS 與 GN 結(jié)合使用，取得了不錯效果。

在 ImageNet 和 COCO 上比較normalization方法，GN+WS 大大優(yōu)于單獨使用 BN 和 GN。

8小結(jié)

最后，為了便于比較和分析它們的工作原理，我們將上述幾種主要normalization方法匯聚在一個圖中。

當(dāng)在論文或具體網(wǎng)絡(luò)架構(gòu)中遇到這些名詞時，腦子中可以浮現(xiàn)出對應(yīng)的圖來輔助理解。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

PCA

PCA

+關(guān)注

關(guān)注
0

文章
89

瀏覽量
29608
機器學(xué)習(xí)

機器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8418

瀏覽量
132635
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5503

瀏覽量
121162
深度神經(jīng)網(wǎng)絡(luò)

深度神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
0

文章
61

瀏覽量
4527