本文作者列舉了搭建神經網絡時可能遇到的11個常見問題,包括預處理數據、正則化、學習率、激活函數、網絡權重設置等,并提供解決方法和原因解釋,是深度學習實踐的有用資料。
問題描述
在使用神經網絡時,思考如何正確地規范化數據是非常重要的。這是一個無法改變的步驟——假如這一步驟沒有小心、正確地做,你的網絡就幾乎不可能工作。由于這個步驟非常重要,在深度學習社區中也是眾所周知的,所以它很少在論文中被提及,因此初學者常常在這一步出錯。
怎樣解決?
一般來說,規范化(normalization)的意思是:將數據減去均值,再除以其方差。通常這是對每個輸入和輸出特征單獨做的,但你可能經常會希望對特征組做或特別主翼處理某些特征的規范化。
為什么?
我們需要對數據進行規范化的主要原因是大部分的神經網絡流程假設輸入和輸出數據都以一個約是1的標準差和約是0的均值分布。這些假設在深度學習文獻中到處都是,從權重初始化、激活函數到訓練網絡的優化算法。
還需要注意
未訓練的神經網絡通常會輸出約在-1到1范圍之間的值。如果你希望輸出其他范圍的值(例如RBG圖像以0-255范圍的字節存儲)會出現一些問題。在開始訓練時,網絡會非常不穩定,因為比如說預期值是255,網絡產生的值是-1或1——這會被大多數用于訓練神經網絡的優化算法認為是嚴重的錯誤。這會產生過大的梯度,可能導致梯度爆炸。如果不爆炸,那么訓練的前幾個階段就是浪費的,因為網絡首先學習的是將輸出值縮小到大致是預期的范圍。如果規范化了數據(在這種情況下,你可以簡單地將數值除以128再減去1),就不會發生這些問題。
一般來說,神經網絡中特征的規模也決定了其重要性。如果輸出中的有一個特征規模很大,那么與其他特征相比它會產生更大的錯誤。類似地,輸入中的大規模特征將主導網絡并導致下游發生更大的變化。因此,使用神經網絡庫的自動規范化往往是不夠的,這些神經網絡庫會在每個特征的基礎上盲目地減去平均值并除以方差。你可能有一個輸入特征,通常范圍在0.0到0.001之間——這個特征的范圍如此之小,因為它是一個不重要的特征(在這種情況下,你可能不想重新scale),或者因為與其他特征相比它有一些小的單元(在這種情況下,你可能想重新scale)?類似地,要小心具有這樣一個較小范圍的特征,它們的方差接近或等于0,如果將它們規范化,則會導致NaN不穩定。仔細考慮這些問題很重要——考慮你的每個特征真正代表什么,并將所有輸入特征的“units”相等,將這一過程視為規范化。這是我認為深度學習中人在這個loop中真正需要的幾個方面之一。
你忘記檢查結果了
問題描述
你已經訓練了幾個epochs的網絡,也看到錯誤在減少。這是否意味著已經完成了?不幸地告訴你,幾乎可以肯定你的代碼中還有某些問題。在數據預處理、訓練代碼、甚至inference中都可能有bug。只是因為錯誤率下降了并不意味著你的網絡在學習有用的東西。
怎樣解決?
在流程的每個階段都檢查數據是否正確是非常重要的。通常,你需要找到一些可視化結果的方法。如果是圖像數據,那么這很簡單,動畫數據也不需要很麻煩就能可視化。但如果是其他類型的數據,你必須找到能夠檢查結果的方法,以確保在預處理、訓練和推斷的每個流程都正確,并將結果與ground truth數據進行比較。
為什么?
與傳統的編程不同,機器學習系統幾乎在所有情況下都會悄悄地發生失敗。傳統編程過程中,我們習慣了計算機在發生錯誤時拋出錯誤,并將其作為信號返回去檢查bug。不幸的是,這個過程不適用于機器學習,因此,我們應該非常小心,在每個階段用人眼去檢查流程,以便知道何時出現bug,何時需要返回并更徹底地檢查代碼。
還需要注意
有很多方法可以檢查網絡是否正常工作。一部分方法是為了確切地說明所報告的訓練錯誤是什么意思。可視化應用于訓練集的網絡的結果——你的網絡的結果與實踐中的ground truth 相比較如何?你可能會在訓練期間將錯誤從100降到1,但是如果1的錯誤仍然是不可接受的結果,那結果仍然無法使用。如果網絡在訓練集上工作,那就檢查驗證集——它仍然適用于以前沒有見過的數據嗎?我的建議是從一開始就習慣于可視化所有內容——不要只在網絡不工作時才可視化——要確保在開始嘗試使用不同的神經網絡結構之前,你已經檢查過完整的流程。這是準確評估一些潛在的不同方法的唯一方法。
你忘記預處理數據了
問題描述
大多數數據是很棘手的——通常我們知道的數據是類似的,可以用非常不同的數字表示。以角色動畫( character animation)為例:如果我們使用角色的關節相對于運動捕捉的studio的中心的3D位置來表示數據,那么在某個位置或面向某個方向執行動作時,相較于在不同的位置、或不同的方向執行同一個動作,可能會產生大量不同的數字表示。那么我們需要以不同的方式表示數據——例如在一些局部reference框架(例如相對于角色的質量中心),以便相似的動作有相似的數值表示。
怎樣解決?
思考你的特征表示什么——是否有一些簡單的transformation,可以確保表示相似東西的數據點總是得到相似的數值表示?是否有一個局部的坐標系統可以更自然地表示數據——或許是更好的顏色空間——不同的格式?
為什么?
對于作為輸入的數據,神經網絡僅作一些基本的假設,其中之一是數據所處空間是連續的——對于大部分空間來說,兩個數據點之間的點至少有一些“mix”,兩個相鄰的數據點某種意義上表示“相似”的東西。在數據空間中存在較大的不連續性(discontinuities),或存在表示同樣事物的大量分離數據(separated data),將使得學習任務變得更加困難。
還需要注意
數據預處理的另一種方法是試著減少所需數據變化的組合爆炸。例如,如果在角色動畫數據訓練的神經網絡必須在每個位置和每個方向學習相同的動作組合,那么網絡有大量容量被浪費了,并且大部分的學習過程是重復的。
忘記使用正則化了
問題描述
正則化(Regularization)——通常以dropout、noise或網絡隨機過程的某種形式進行,是訓練神經網絡的另一個無法改變的方面。即使你認為你擁有比參數多得多的數據量,或過擬合不重要的情況,或沒出現過擬合,你仍然應該添加dropout或其他形式的noise。
怎樣解決?
正則化神經網絡的最基本方法是在網絡的每個線性層(卷積層或dense層)之前添加dropout。從中等到高的retainment probability開始,例如0.75或0.9。根據過擬合的可能性進行調整。如果你仍然認為不可能出現過擬合,那么可以將retainment probability設置到很高,例如0.99。
為什么?
正則化不僅僅是有關控制過擬合。通過在訓練過程中引入一些隨機過程,你在某種意義上是“平滑”(smoothing)了損失格局。這可以加快訓練速度,幫助處理數據中的異常值,并防止網絡的極端權重配置。
還需要注意
數據增強(data augmentation)或其他類型的noise也可以像dropout一樣作為正則化的方式。雖然通常dropout被認為是將序偶多隨機子網絡的預測結合起來的技術,但也可以將dropout視為通過在訓練過程中產生許多類似輸入數據的變化來動態地擴展訓練集大小的方法。而且我們知道,避免過擬合和提高網絡準確性的最佳方式是擁有更多網絡未見過的數據。
使用的Batch太大
問題描述
使用太大的batch可能會對網絡在訓練過程中的準確性產生負面影響,因為這樣會降低梯度下降的隨機性。
怎樣解決?
找到在訓練時你能接受的最小的batch。在訓練時能夠最大限度利用GPU并行性的批量大小,對于準確性來說可能并不是最好的,因為在某些時候,更大的batch需要訓練更多回(epoch)才能達到相同的準確度。不要擔心從非常小的batch開始,比如16、8甚至是1。
為什么?
使用更小的batch生產更方便(choppier)、更隨機的權重更新。這樣做有兩大好處。首先,能幫助訓練“跳出”原本可能被卡住的局部最小值;其次,可以使訓練在“更平坦”的最小值結束,一般而言,后者會代表更好的泛化性能。
還需要注意
數據中的其他元素有時也能像批量大小一樣生效。例如,在處理圖像時,將分辨率翻倍,可能會有把批量大小×4類似的效果。直觀一點看,在CNN中,每個濾波器的權重更新將在輸入圖像的所有像素以及批處理中的每個圖像上進行平均。將圖像分辨率翻番,將產生超過四倍像素的平均效果,就像將批量大小提高了4倍一樣。總之,重要的是考慮在每次迭代中最終的漸變更新將被平均多少,并在負面影響與盡可能多地利用GPU并行性之間保持平衡。
學習率不正確
問題描述
學習率可能會對網絡好不好訓練有很大的影響。如果你剛剛入行,在常見深度學習框架各種默認選項的影響下,幾乎可以肯定你沒有把學習率設置對。
怎樣解決?
把梯度剪裁(gradient clipping)關掉。找到在訓練時不會發生錯誤的最高的學習率的值。然后將學習率設置得比這個值低一點點——這很可能非常接近最佳學習率了。
為什么?
許多深度學習框架默認會啟用梯度裁剪。這個選項可以防止訓練過程中過度優化,它會在每個步驟中強制改變權重,讓權重發生最大限度的改變。這可能有用,特別是當數據中含有許多異常值的時候,因為異常值會產生很大的錯誤,從而導致大的梯度和權重更新。但是,默認開啟這個選項也會讓用戶很難手動找到最佳的學習率。我發現大多數深度學習的新手都因為梯度裁剪的原因將學習率設得太高,使得整體訓練行為變慢,也使改變學習率的效果不可預測。
還需要注意
如果你正確清理了數據,刪除了大部分異常值并且正確設置學習率,那么你實際上并不需要梯度裁剪。在關閉梯度裁剪后,如果你發現訓練錯誤偶爾會爆發,那么你完全可以重新打開梯度裁剪這個選項。但是,需要記住,訓練錯誤頻發的原因幾乎總是表明你數據的一些其他異常——裁剪只是一種臨時的補救方法。
在最后一層使用了錯誤的激活函數
問題描述
在最后一層使用激活函數,有時可能意味著你的網絡無法產生所需的全部范圍的值。最常見的錯誤是在最后一層使用ReLU,從而導致網絡只能輸出正值。
怎樣解決?
如果你做一個回歸,那么在絕大多數時候你不會想在最后一層使用任何類型的激活函數,除非你確切地知道你想要輸出的值的種類是什么。
為什么?
再想想你的數據值實際代表什么,以及它們在標準化以后的范圍。最可能的情況是,你的輸出值為unbounded正數或負數——在這種情況下,你不應在最終層使用激活函數。如果你的輸出值只在某些范圍內有意義,例如由0-1內的概率組成,那么最終層應該有使用特定的激活函數,例如Sigmoid激活函數。
還需要注意
在最后一層使用激活函數有許多需要注意的地方。也許你知道你的系統最終會將輸出裁剪到 [-1,1]。那么,將這個裁剪過程添加到最終層的激活當中就是有意義的,因為這將確保你的網絡錯誤函數不會懲罰大于1或小于-1的值。但是,沒有錯誤也意味著這些大于1或小于-1的值也不會有梯度——這在某些情況下會使你的網絡無法訓練。或者,你可能會嘗試在最后一層使用tanh,因為這個激活函數輸出的值的范圍是 [-1, 1],但這也可能帶來問題,因為這個函數的梯度在1或-1附近變得非常小,而為了產生-1或1可能使你的權重變得非常大。一般來說,最好保險起見,不要在最后一層使用激活函數。有時候聰明反被聰明誤。
網絡里有壞的梯度
問題描述
使用ReLU激活函數的深層網絡通常會受所謂“死神經元”的影響,而后者是由不良梯度引起的。這可能會對網絡的性能產生負面影響,在某些情況下甚至完全無法訓練。
怎樣解決?
如果你發現訓練誤差經過多個epoch后都沒有變化,可能是使用了ReLU激活函數,讓所有的神經元都死掉了。嘗試切換到另一個激活函數,例如leaky ReLU或ELU,然后再看看是否還存在這樣的情況。
為什么?
ReLU激活函數的梯度對于正值為1,負值為0。這是因為當輸入小于0時,輸入的一個很小變化不會影響輸出。短期看,這可能不是一個問題,因為正值的梯度很大。但是,層與層可以疊在一起,負的權重可以將那些梯度很大的正值變為梯度為0的負值;通常情況下,一些乃至所有隱藏單元對于成本函數都具有零梯度,無論輸入是什么。在這種情況下,我們說網絡是“死的”,因為權重完全無法更新。
還需要注意
任何具有零梯度的運算(如裁剪、舍入或最大/最小),在被用于計算成本函數相對于權重的導數時,都將產生不良梯度。如果它們在符號圖里有出現,那么一定要非常小心,因為它們往往會帶來意外的問題。
沒有正確地初始化網絡權重
問題描述
如果你沒有正確地初始化你的神經網絡權重,那么神經網絡根本就不太可能訓練。神經網絡中的許多其他組件都有某些正確或標準化的權重初始化,并將權重設置為零,或者使用你自己的自定義隨機初始化不起作用。
怎樣解決?
“he”,“lecun”或“xavier”的權重初始化都是很受歡迎的選擇,在幾乎所有情況下都能很好地工作。你選一個就好(我最喜歡的是“lecun”),當你的神經網絡正常運作以后,你也可以自由地進行實驗呀。
為什么?
你可能已經知道,可以使用“小的隨機數”初始化神經網絡權重,但事情并沒有那么簡單。所有上述初始化都是使用復雜和詳細的數學發現的,這些數學基礎說明了它們為什么用起來最好。更重要的是,圍繞這些初始化構建了其他神經網絡組件,并根據經驗使用它們進行測試——使用你自己的初始化可能會使其他研究人員的結果復現得更加困難。
還需要注意
其他層可能也需要仔細地進行初始化。網絡biases被初始化為零,而其他更復雜的層(如參數激活函數)可能會帶有自己的初始化,把這個弄對也同樣重要。
你用的神經網絡太深
問題描述
更深更好嗎?嗯,情況并非總是如此……當我們拼命刷新基準,把某些任務的精度1%、1%地提升時,更深的神經網絡一般來說更好。但是,如果你只有3~5層的小網絡沒有學習任何東西,那么我可以保證你用100層的也會失敗,如果不是更糟糕的話。
怎樣解決?
從3到8層的淺層神經網絡開始。只有當你的神經網絡跑起來學東西以后,再探索提升精度的方法,并嘗試加深網絡。
為什么?
在過去十年中,神經網絡的所有改進都是小的fundamental的變化,這些改變只適用于較小型網絡作為深層次的性能。如果您的網絡不工作,除深度之外更有可能是其他的問題。
還需要注意
從小的網絡開始也意味著訓練速度更快,推理更快,迭代不同的設計和設置將會更快。最初,所有這些事情都將對準確性產生更大的影響,而不僅僅是堆疊幾層。
使用隱藏單元的數量不對
問題描述
在某些情況下,使用太多或太少的隱藏單元(hidden units)都可能使網絡難以訓練。隱藏單元太少,可能沒有能力表達所需任務,而隱藏單元太多,可能會變得緩慢而難以訓練,殘差噪音很難消除。
怎樣解決?
從256至1024個之間的隱藏單元開始。然后,看看類似應用的其他研究使用多少,并參考使用。如果其他研究人員使用的與你使用的數字非常不同,那么可能需要有一些具體的原因來解釋。
為什么?
在決定隱藏單元的數量時,關鍵要考慮你認為對網絡傳遞信息所需最少數量的真實值。你應該把這個數字弄大一點。對于使用更多冗余表示的網絡,dropout可以。如果你要做分類,可以使用五到十倍的class的數量,而如果你做回歸,可能需要使用輸入或輸出變量數量的兩到三倍。當然,所有這些都是高度依賴于環境的,沒有簡單的自動解決方案——擁有很好的直覺對于決定隱藏單元數量是最重要的。
還需要注意
實際上,與其他因素相比,隱藏單元的數量通常對神經網絡性能影響很小,而在許多情況下,高估所需隱藏單位的數量不會使訓練變慢。一旦你的網絡工作了,如果你仍然擔心,只需嘗試很多不同的數字,并測量準確性,直到找到最適合你的網絡的數值。
評論
查看更多