好看的玄幻小说,完美世界txt全集下载,新寡妇村传奇

ICLR-17最佳論文《理解深度學習需要重新思考泛化》曾引發(fā)學界熱議。現(xiàn)作者張馳原和Samy Bengio等再出新作，指出神經(jīng)網(wǎng)絡(luò)每個層并非“生而平等”，進一步拓展對神經(jīng)網(wǎng)絡(luò)泛化的理解。

今天新智元要介紹的論文是ICLR 2017最佳論文獎得主、《理解深度學習需要重新思考泛化》的作者張弛原和Samy Bengio等人的新作：

神經(jīng)網(wǎng)絡(luò)的各個層生而平等嗎？(Are All Layers Created Equal?)

張弛原、Samy Bengio等人新作：神經(jīng)網(wǎng)絡(luò)各個層生而平等嗎？

在ICLR 2017那篇“重新思考泛化”的文章中，張馳原等人得出結(jié)論認為，只要參數(shù)的數(shù)量超過實踐中通常的數(shù)據(jù)點的數(shù)量，即便是簡單的層數(shù)為2的神經(jīng)網(wǎng)絡(luò)，就已經(jīng)具有完美的有限樣本表現(xiàn)力（finite sample expressivity）。

而在這篇新的論文中，張弛原等人繼續(xù)探討深度神經(jīng)網(wǎng)絡(luò)的泛化能力，深入到“層”的級別，并指出在研究深度模型時，僅關(guān)注參數(shù)或范數(shù)（norm）的數(shù)量是遠遠不夠的。

研究深度模型時，只考慮參數(shù)和范數(shù)的數(shù)量是不夠的

理解深層架構(gòu)的學習和泛化能力是近年來一個重要的研究目標，《理解深度學習需要重新思考泛化》發(fā)表后在學界卷起了一股風暴，有人甚至稱其為“勢必顛覆我們對深度學習理解”。

ICLR 2017最佳論文《理解深度學習需要重新思考泛化》

ICLR 2017那篇文章指出，傳統(tǒng)方法無法解釋大規(guī)模神經(jīng)網(wǎng)絡(luò)在實踐中泛化性能好的原因，并提出了兩個新的定義——“顯示正則化”和“隱示正則化”來討論深度學習。

作者通過在CIFAR10和ImageNet的幾個不同實驗發(fā)現(xiàn)：

神經(jīng)網(wǎng)絡(luò)的有效容量對于整個數(shù)據(jù)集的暴力記憶是足夠大的；

對隨機標簽進行優(yōu)化的過程很容易。與對真實標簽的訓練相比，隨機標簽的訓練時間只增加了一個小的恒定因子；

對標簽進行隨機化只是一種數(shù)據(jù)變換，神經(jīng)網(wǎng)絡(luò)要學習的問題的所有其他屬性不變。

更準確地說，當對真實數(shù)據(jù)的完全隨機標記進行訓練時，神經(jīng)網(wǎng)絡(luò)實現(xiàn)了零訓練誤差——當然，測試誤差并不比隨機概率好，因為訓練標簽和測試標簽之間沒有相關(guān)性。

換句話說，通過單獨使標簽隨機化，我們可以迫使模型的泛化能力顯著提升，而不改變模型、大小、超參數(shù)或優(yōu)化器。

這一次，論文又提出了兩個新的概念——（訓練后）“重新初始化”和“重新隨機化魯棒性”，并認為神經(jīng)網(wǎng)絡(luò)的層可以分為“關(guān)鍵層”和“魯棒層”；與關(guān)鍵層相比，將魯棒層重置為其初始值沒有負面影響，而且在許多情況下，魯棒層在整個訓練過程中幾乎沒有變化。

作者根據(jù)經(jīng)驗研究了過度參數(shù)化深度模型的分層功能結(jié)構(gòu)，為神經(jīng)網(wǎng)絡(luò)層的異構(gòu)特征提供了證據(jù)。

再次思考神經(jīng)網(wǎng)絡(luò)泛化：各個層并非“生而平等”

深度神經(jīng)網(wǎng)絡(luò)在現(xiàn)實世界的機器學習實例中已經(jīng)得到了非常成功的應用。在將這一系統(tǒng)應用于許多關(guān)鍵領(lǐng)域時，對系統(tǒng)的深層理解至少與其最先進的性能同樣重要。最近，關(guān)于理解為什么深度網(wǎng)絡(luò)在實踐中表現(xiàn)優(yōu)異的研究主要集中在網(wǎng)絡(luò)在漂移下的表現(xiàn)，甚至是數(shù)據(jù)分布等問題上。

與此類研究相關(guān)的另一個有趣的研究是，我們?nèi)绾谓忉尣⒗斫馐苓^訓練的網(wǎng)絡(luò)的決策函數(shù)。雖然本文的研究問題與此相關(guān)，但采取了不同的角度，我們主要關(guān)注網(wǎng)絡(luò)層在受過訓練的網(wǎng)絡(luò)中的作用，然后將經(jīng)驗結(jié)果與泛化、魯棒性等屬性聯(lián)系起來。

本文對神經(jīng)網(wǎng)絡(luò)表達力的理論進行了深入研究。眾所周知，具有足夠?qū)挼膯蝹€隱藏層的神經(jīng)網(wǎng)絡(luò)是緊湊域上的連續(xù)函數(shù)的通用逼近器。

最近的研究進一步探討了深度網(wǎng)絡(luò)的表達能力，是否真的優(yōu)于具有相同數(shù)量的單元或邊緣的淺層網(wǎng)絡(luò)。同時，也廣泛討論了用有限數(shù)量的樣本表示任意函數(shù)的能力。

然而，在上述用于構(gòu)建近似于特定功能的網(wǎng)絡(luò)的研究中，使用的網(wǎng)絡(luò)結(jié)構(gòu)通常是“人工的”，且不太可能通過基于梯度的學習算法獲得。我們重點關(guān)注的是實證深層網(wǎng)絡(luò)架構(gòu)中不同網(wǎng)絡(luò)層發(fā)揮的作用，網(wǎng)絡(luò)采用基于梯度的訓練。

深度神經(jīng)網(wǎng)絡(luò)的泛化研究引起了很多人的興趣。由于大神經(jīng)網(wǎng)絡(luò)無法在訓練集上實現(xiàn)隨機標記，這使得在假設(shè)空間上基于均勻收斂來應用經(jīng)典學習的理論結(jié)果變得困難。

本文提供了進一步的經(jīng)驗證據(jù)，并進行了可能更細致的分析。尤其是，我們憑經(jīng)驗表明，深層網(wǎng)絡(luò)中的層在表示預測函數(shù)時所起的作用并不均等。某些層對于產(chǎn)生良好的預測結(jié)果至關(guān)重要，而其他層對于在訓練中分配其參數(shù)則具備相當高的魯棒性。

此外，取決于網(wǎng)絡(luò)的容量和目標函數(shù)的不同復雜度，基于梯度的訓練網(wǎng)絡(luò)可以不使用過剩容量來保持網(wǎng)絡(luò)的復雜度。本文討論了對“泛化“這一概念的確切定義和涵蓋范圍。

全連接層(FCN)

圖1：MNIST數(shù)據(jù)集上FCN 3×256的魯棒性結(jié)果。（a）測試錯誤率：圖中每行對應于網(wǎng)絡(luò)中的每一層。第一列指定每個層的魯棒性w.r.t重新隨機化，其余列指定不同檢查點的重新初始化魯棒性。最后一列為最終性能（在訓練期間設(shè)置的最后一個檢查點）作為參考。（b-c）權(quán)重距離：熱圖中的每個單元表示訓練參數(shù)與其初始權(quán)重的標準化2范數(shù)（b）或∞范數(shù)（c）距離

圖2：MNIST數(shù)據(jù)集上FCN 5×256的層魯棒性研究。兩個子圖使用與圖1（a）相同的布局。兩個子圖分別表示在測試錯誤（默認值）和測試損失中評估的魯棒性

大規(guī)模卷積網(wǎng)絡(luò)(CNN)

圖3：重新初始化所有層的魯棒性，但第一次使用檢查點0用于不同維度的隱藏層的FCN。每個條形表示完全訓練后的模型有具有一層重新初始化的模型之間的分類誤差的差異。誤差條表示通過使用不同的隨機初始化運行實驗得到的一個標準偏差。

圖4：使用CIFAR10上的VGG網(wǎng)絡(luò)進行分層魯棒性分析。熱圖使用與圖1中相同的布局，但加以轉(zhuǎn)置，以便更有效地對更深層的架構(gòu)進行可視化。

殘差網(wǎng)絡(luò)(ResNets)

圖5：在CIFAR10上訓練的ResNets殘差塊的分層魯棒性分析。

圖6：在ImageNet上訓練的ResNets殘差塊的分層魯棒性分析

圖7：采用/不采用下采樣跳過分支的殘余塊（來自ResNets V2）。C，N和R分別代表卷積、（批量）歸一化和ReLU激活

網(wǎng)絡(luò)層的聯(lián)合魯棒性

圖8：MNIST上FCN 5×256的聯(lián)合魯棒性分析。布局與圖1中的相同，但是圖層分為兩組（每個圖層中圖層名稱上的*標記表示），對每組中的所有圖層全部應用重新隨機化和重新初始化。

圖9：CIFAR10上ResNets的聯(lián)合魯棒性分析，基于對所有剩余階段中除第一個殘余塊之外的所有剩余塊進行分組的方案。分組由圖層名稱上的*表示。

圖10：CIFAR10上ResNets的聯(lián)合魯棒性分析，以及其他分組方案。分組由圖層名稱上的*表示

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4777

瀏覽量
100974
網(wǎng)絡(luò)架構(gòu)

網(wǎng)絡(luò)架構(gòu)

+關(guān)注

關(guān)注
1

文章
94

瀏覽量
12605
深度學習

深度學習

+關(guān)注

關(guān)注
73

文章
5511

瀏覽量
121356

原文標題：ICLR-17最佳論文一作張弛原新作：神經(jīng)網(wǎng)絡(luò)層并非“生而平等”

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

ICLR 2019論文解讀：深度學習應用于復雜系統(tǒng)控制

的影響。最近在信息論里，深度學習也產(chǎn)生了重要影響。使用深度學習可以對不同形式編碼的信息進行自動解碼。如今，深度

發(fā)表于 01-10 14:53 ?7955次閱讀

<b class='flag-5'>ICLR</b> 2019<b class='flag-5'>論文</b>解讀：<b class='flag-5'>深度</b><b class='flag-5'>學習</b>應用于復雜系統(tǒng)控制

谷歌工程師機器學習干貨:從表現(xiàn)力、可訓練性和泛化三方面詳解

這篇文章可能是本年度最佳機器學習技術(shù)及研究總結(jié)之一，當我閱讀機器學習論文時，我會問自己，這篇論文的貢獻是否屬于：1）表現(xiàn)力（Expressi

發(fā)表于 11-26 22:02 ?5294次閱讀

谷歌工程師淺談Bengio深度學習論文的重要性

《理解深度學習需要重新思考泛

發(fā)表于 01-06 09:31 ?1033次閱讀

深度學習如何確定最佳深度？

確定最佳深度可以降低運算成本，同時可以進一步提高精度。針對深度置信網(wǎng)絡(luò)深度選擇的問題，文章分析了通過設(shè)定閾值方法選擇最佳

發(fā)表于 04-04 15:46 ?3899次閱讀

<b class='flag-5'>深度</b><b class='flag-5'>學習</b>如何確定<b class='flag-5'>最佳</b><b class='flag-5'>深度</b>？

探索機器“視覺”演進的無限可能性 Qualcomm AI研究人員獲得ICLR殊榮

Qualcomm AI研究人員獲得ICLR殊榮：“球面卷積神經(jīng)網(wǎng)絡(luò)（spherical Convolutional Neural Networks，縮寫CNNs）”榮獲ICLR 2018年度最佳

發(fā)表于 05-10 14:08 ?5226次閱讀

ICLR 2019在官網(wǎng)公布了最佳論文獎！

今年 ICLR 共接收 1578 篇投稿，相較去年 981 篇有了很大的增加，錄用結(jié)果如下：1.5% 錄用為 oral 論文（24 篇）、30.2% 錄用為 poster 論文（476 篇)，58%

發(fā)表于 05-07 09:00 ?4473次閱讀

<b class='flag-5'>ICLR</b> 2019在官網(wǎng)公布了<b class='flag-5'>最佳</b><b class='flag-5'>論文</b>獎！

ICLR 2019最佳論文日前揭曉微軟與麻省等獲最佳論文獎項

ICLR 2019最佳論文日前揭曉。來自微軟研究院、加拿大蒙特利爾學習算法研究所 (MILA)和來自麻省理工學院計算機科學與人工智能實驗室(MIT CSAIL)奪得本次大會的

發(fā)表于 05-11 09:10 ?2393次閱讀

谷歌發(fā)表論文EfficientNet 重新思考CNN模型縮放

谷歌AI研究部門華人科學家再發(fā)論文《EfficientNet：重新思考CNN模型縮放》，模型縮放的傳統(tǒng)做法是任意增加CNN的深度和寬度，或使用更大的輸入圖像分辨率進行訓練，而使

發(fā)表于 06-03 14:19 ?6191次閱讀

谷歌發(fā)表<b class='flag-5'>論文</b>EfficientNet <b class='flag-5'>重新</b><b class='flag-5'>思考</b>CNN模型縮放

泛在電力物聯(lián)網(wǎng)的發(fā)展真的需要5G嗎

站在產(chǎn)業(yè)智能化升級、電力市場化帶來的新機會、泛在物聯(lián)技術(shù)生態(tài)配套等不同角度去理解和思考

發(fā)表于 07-12 15:28 ?989次閱讀

自監(jiān)督學習與Transformer相關(guān)論文

將在明年5月4日舉行，目前，本次大會投稿已經(jīng)結(jié)束，最后共有3013篇論文提交。ICLR 采用公開評審機制，任何人都可以提前看到這些論文。為了分析最新研究動向，我們精選了涵蓋自監(jiān)督學習

發(fā)表于 11-02 15:50 ?2712次閱讀

如何理解泛化是深度學習領(lǐng)域尚未解決的基礎(chǔ)問題

如何理解泛化是深度學習領(lǐng)域尚未解決的基礎(chǔ)問題之一。為什么使用有限訓練數(shù)據(jù)集優(yōu)化模型能使模型在預留測試集上取得良好表現(xiàn)？這一問題距今已有 50

發(fā)表于 04-08 17:56 ?2673次閱讀

基于深度學習的評論文本推薦方法

傳統(tǒng)推薦系統(tǒng)依賴人工進行規(guī)則設(shè)計和特征提取，對評論文本內(nèi)容的特征和隱信息的提取能力有限。針對該問題，融合注意力機制并基于深度學習對推薦系統(tǒng)進行改進，提出一種對評論文本

發(fā)表于 06-09 15:39 ?5次下載

基于評分矩陣與評論文本的深度學習模型

基于評分矩陣與評論文本的深度學習模型

發(fā)表于 06-24 11:20 ?58次下載

深度學習頂級學術(shù)會議ICLR 2023錄用結(jié)果已經(jīng)公布！

在機器學習社區(qū)中，ICLR 是較為「年輕」的學術(shù)會議，它由深度學習巨頭、圖靈獎獲得者 Yoshua Bengio 和 Yann LeCun 牽頭舉辦，2013 年才剛剛舉辦第一屆。不過

發(fā)表于 02-07 11:10 ?1662次閱讀

PyTorch教程5.5之深度學習中的泛化

電子發(fā)燒友網(wǎng)站提供《PyTorch教程5.5之深度學習中的泛化.pdf》資料免費下載

發(fā)表于 06-05 15:31 ?1次下載

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

ICLR-17最佳論文《理解深度學習需要重新思考泛化》

評論

ICLR 2019論文解讀：深度學習應用于復雜系統(tǒng)控制

谷歌工程師機器學習干貨:從表現(xiàn)力、可訓練性和泛化三方面詳解

谷歌工程師淺談Bengio深度學習論文的重要性

深度學習如何確定最佳深度？

探索機器“視覺”演進的無限可能性 Qualcomm AI研究人員獲得ICLR殊榮

ICLR 2019在官網(wǎng)公布了最佳論文獎！

ICLR 2019最佳論文日前揭曉微軟與麻省等獲最佳論文獎項

谷歌發(fā)表論文EfficientNet 重新思考CNN模型縮放

泛在電力物聯(lián)網(wǎng)的發(fā)展真的需要5G嗎

自監(jiān)督學習與Transformer相關(guān)論文

如何理解泛化是深度學習領(lǐng)域尚未解決的基礎(chǔ)問題

基于深度學習的評論文本推薦方法

基于評分矩陣與評論文本的深度學習模型

深度學習頂級學術(shù)會議ICLR 2023錄用結(jié)果已經(jīng)公布！

PyTorch教程5.5之深度學習中的泛化