Google AI的研究人員的最新研究提出一個全新概念:剛度(Stiffness),為探索神經網絡的訓練和泛化問題提供了一個新視角。
Google AI的研究人員最近在arxiv發表的一篇新論文,探索了神經網絡的訓練和泛化問題的一個新視角。
論文題為“Stiffness: A New Perspective on Generalization in Neural Networks”,作者是谷歌 AI 蘇黎世研究中心的Stanislav Fort等人。
論文提出“剛度”(stiffness)這個概念,透過這個概念研究了神經網絡的訓練和泛化問題。
研究人員通過分析一個示例中的小梯度步驟如何影響另一個示例的損失來測量網絡的“剛度”。
具體來說,他們在4個分類數據集(MNIST、FASHION MNIST、CIFAR-10、CIFAR-100)上分析了全連接卷積神經網絡的剛度。他們關注的是剛度如何隨著1) 類隸屬度(class membership),2)數據點之間的距離,3)訓練迭代,和4)學習率而變化。
研究表明,當在固定的驗證集上計算時,剛度與泛化(generalization)直接相關。剛度函數的靈活性較差,因此不太容易對數據集的特定細節進行過擬合。
結果表明,“剛度”的概念有助于診斷和表征泛化。
學習率的選擇對學習函數的剛度特性有顯著影響。高學習率會導致函數逼近在更大的距離上“更剛”(stiffer),并且學習到的特征可以更好地泛化到來自不同類的輸入。另一方面,較低的學習率似乎能學到更詳細、更具體的特征,即使在訓練集上導致同樣的損失,也不能泛化到其他類。
這表明,高學習率的優勢不僅在于收斂所需的步驟更少,還在于它們傾向于學習的特性具有更高的泛化性,即高學習率充當了有效的正則化器。
剛度(Stiffness)的定義
剛度的定義如下:
如果點處的損失相對于網絡權重的梯度是,并且點處的梯度是?,則我們定義“剛度”為。
圖1:“剛度”概念的圖示
如圖1所示,“剛度”可以看做是通過應用基于另一個輸入的梯度更新引起的輸入損失的變化,相當于兩個輸入的梯度之間的梯度對齊(gradient alignment)。
實驗和結果
基于類隸屬度關系的剛度特性
我們基于驗證集數據點的類隸屬度(class membership )作為訓練迭代函數,研究了驗證集數據點的剛度特性。
對于帶有真實標簽的MNIST、FASHION MNIST和CIFAR-10數據集,結果分別顯示為圖3、圖5、圖6,對于帶有隨機排列訓練集標簽的MNIST數據集,結果為圖4.
圖3:MNIST上完全連接網絡剛度的Class-membership dependence
圖4:MNIST上完全連接網絡剛度的Class-membership dependence,訓練時使用隨機排列的標簽。
圖5:FASHION MNIST上完全連接網絡剛度的Class-membership dependence
圖6:CIFAR-10上卷積神經網絡剛度的Class-membership dependence
圖3、圖5和圖6都顯示了4個訓練階段的剛度矩陣:初始化階段(任何梯度步驟之前)、優化早期階段和兩個后期階段。
學習率對剛度的影響
圖8:在MNIST 和 FASHION MNIST上以不同學習率訓練,不同類別的剛度。
如圖8所示,這兩幅圖給出了三種不同訓練損失的 class dependent剛度矩陣。較高的學習率導致來自不同類的輸入之間的剛度更高,表明它們學習的特性在不同類之間更加可泛化(generalizable)。
結論
我們探討了神經網絡剛度的概念,并用它來診斷和表征泛化。我們研究了在真實數據集上訓練的模型的剛度,并測量了其隨訓練迭代、類隸屬度、數據點之間的距離和學習率的選擇而變化的情況。為了探討泛化和過擬合,我們重點研究了驗證集中數據點的剛度。
總結而言,本文定義了剛度的概念,證明了它的實用性,為更好地理解神經網絡中的泛化特性提供了一個新的視角,并觀察了其隨學習率的變化。
-
Google
+關注
關注
5文章
1766瀏覽量
57629 -
神經網絡
+關注
關注
42文章
4774瀏覽量
100912 -
數據集
+關注
關注
4文章
1208瀏覽量
24742
原文標題:你的模型剛不剛?谷歌提出“剛度”概念,探索神經網絡泛化新視角
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論