在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一些人會懷疑:難道神經網絡不是最先進的技術?

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-06-30 08:55 ? 次閱讀

編者按:在機器學習面前,我們都像一個孩子。當剛學會反向傳播算法時,許多人會不滿足于最基礎的感知器,去嘗試搭建更深、層數更多的神經網絡。他們欣賞著自己的實現,就像沙灘上的孩子驕傲地看著自己用泥沙堆起來的城堡。但和城堡的徒有其表一樣,這些神經網絡的性能往往也難以令人滿意,它們也許會陷入無休止的訓練,也許準確率永遠提不上來。這時,一些人就會開始懷疑:難道神經網絡不是最先進的技術?

類似的懷疑,誰都有過——

神經網絡的訓練過程包括前向傳播和反向傳播兩個部分,如果前向傳播得到的預測結果和實際結果不符,這就說明網絡沒有訓練好,要用反向傳播去重新調整各個權重。這之中涉及各種常見的優化算法,以梯度下降為例,它的思路是把當前梯度的負值方向作為搜索方向,通過調整權重使目標函數趨近局部最小值,也就是讓代價函數/損失函數越來越小。

如上式所述,梯度下降算法用原權重減去乘上標量α(0到1之間)的梯度來更新權重,并“重復”這一過程直至收斂。但在實際操作中,這個“重復”的迭代次數是一個人為選定的超參數,這意味著它可能過小,最后收斂效果并不好;它也可能過大,網絡被訓練得“沒完沒了”。因此訓練時間和訓練效果之間存在“過猶不及”的尷尬情況。

那么這個超參數是怎么影響收斂的?就像不同人下山速度不同一樣,梯度下降有一個下降步長,迭代時間越短,步長就越大,雖然收斂速度很快,但它容易無法精確收斂到最后的最優解;相反地,如果迭代時間過長,步長越小,那在很長一段收斂過程中,可能網絡的權重并不會發生太大改變,而且相對大步長,小步長在規定迭代次數內接近最小值也更難。

小步長收斂宛如“蝸牛”

大步長收斂效率更高

這還不是唯一的毛病,當梯度數值過小時,它容易被四舍五入為0,也就是下溢出。這時再對這個數做某些運算就會出問題。

看到這里,我們似乎已經得到這樣一個事實:小梯度 = 不好。雖然這個結論看起來有些武斷,但在很多情況下,它并不是危言聳聽,因為本文要講的梯度消失就是由小梯度引起的。

讓我們回想一下sigmoid函數,這是一個經常會在分類問題中遇到的激活函數:

如上圖所示,sigmoid的作用確實是有目共睹的,它能把任何輸入的閾值都限定在0到1之間,非常適合概率預測和分類預測。但這幾年sigmoid與tanh卻一直火不起來,凡是提及激活函數,大家第一個想到的就是ReLU,為什么?

因為sigmoid幾乎就是梯度消失的代名詞,我們先對它求導:

這看起來就是個很普通的 s(1-s) 算式,好像沒什么問題。讓我們繪制它的圖像:

仔細看一看,還是沒問題嗎?可以發現,上圖中最大值只有1/4,最小值無限接近0,換言之,這個導數的閾值是(0, 1/4]。記住這個值,待會兒我們會用到。

現在我們先回頭繼續討論神經網絡的反向傳播算法,看看梯度對它們會產生什么影響。

這是一個最簡單的神經網絡,除了輸入神經元,其他神經元的act()都來自前一層的神經元:先用act()乘上一個權重,再經激活函數饋送進下一層,來自上層的信息就成了一個全新的act()。最后的J歸納了前饋過程中的所有誤差項(error),輸出網絡整體誤差。這之后,我們再執行反向傳播,通過梯度下降修改參數,使J的輸出最小化。

下面是第一項權重w1的導數:

我們可以利用權重的導數來進行梯度下降,繼而迭代出全局最優點,但在那之前,這個派生的乘法運算值得關注:

由于上一層的輸出乘上激活函數就是下一層的輸入,所以上式其實還包含sigmoid的導數,如果把信息全部表示完整,從輸出返回到第二層隱藏層的表達式應該是:

同理,從第二層隱藏層到第一層隱藏層則是:

它們都包含sigmoid函數,合起來就是:

之前我們已經對sigmoid求過導了,計算出它的閾值是(0, 1/4]。結合上式,兩個0到1之間的小數相乘,積小于任一乘數。而在典型的神經網絡中,權重初始化的一般方法是權重的選擇要服從均值=0,方差=1的正態分布,因此這些初始權重的閾值是[-1, 1]。

接下來的事情就很清楚了:

即便不用常規權重初始化方法,w2和w3大于1,但它們對兩個sigmoid導數相乘來說還是杯水車薪,梯度變得太小了。而在實際操作中,隨機權重是很可能小于1的,所以那時它反而是在助紂為虐。

這還只有2個隱藏層,試想一下,如果這是一個工業級的深層神經網絡,那么當它在執行反向傳播時,這個梯度會變得有多小,小到突然消失也在情理之中。另一方面,如果我們把然激活函數導數的絕對值控制在大于1,那這個連乘操作也很嚇人,結果會無限大,也就是我們常說的“梯度爆炸”。

現在,我們來看一個典型的ANN:

第一項權重距離誤差項J最遠,因此求導后它的表達式最長,也包含更多sigmoid函數,計算結果更小。所以神經網絡的第一層往往是訓練時間最長的一層。它同時也是后面所有層的基礎,如果這一層不夠準確,那就會產生連鎖反應,直接拉低整個網絡的性能。

這就也是神經網絡,尤其是深層神經網絡一開始并不為行業所接受的原因。正確訓練前幾層是整個網絡的基礎,但激活函數的缺陷和硬件設備的算力不足,使當時的研究人員連打好基礎都做不到。

看到這里,我們應該都已經理解sigmoid函數的缺點了,它的替代方案tanh函數雖然也曾聲名大噪,但考慮到tanh(x)=2sigmoid(2x)-1,它肯定也存在同樣的問題。那么,現在大家都在用的ReLU好在哪兒?

首先,ReLU是一個分段函數:

它還有另一種寫法:

當輸入小于0時,函數輸出0;當輸入大于零時,函數輸出x。

我們計算它的導數來對比sigmoid:

然后是它的圖像,注意一點,它在0點不可微,所以當x=0時,圖中y軸上應該是兩個空心圓。

可以發現,導數的閾值終于不再是(0, 1)了,它好像可以避免梯度消失,但似乎又有點不對勁?當我們把一個負值輸入到ReLU函數后,梯度為0,這時這個神經元就“壞死”了。換句話說,如果存在負數權重,那某些神經元可能永遠不會被激活,導致相應參數永遠不會被更新。從某種意義上來說,ReLU還是存在部分梯度消失問題。

那么,我們該怎么選擇呢?不急,這里還有一種激活函數——Leakly ReLU。

既然ReLU的“梯度消失”源于它的閾值0,那么我們可以把它重設成一個0到1之間的具體小數。這之后,當輸入為負時,它還是具有非常小的梯度,這就為網絡繼續學習提供了機會。

上式中的ε=0.01,但它最常見的范圍是0.2-0.3。因為斜率小,輸入負值權重后,它在圖像上是一條非常緩的線:

這里我們要聲明一點:雖然Leakly ReLU可以解決ReLU的神經元壞死問題,但它的表現并不一定比ReLU更好。比如常數ε萬一過小,它就很可能會導致新的梯度消失。另一方面,這兩個激活函數有個共同的缺點,即不像tanh和sigmoid一樣輸出有界,如果是在RNN這樣很深的神經網絡里,即便ReLU的導數是0或1,很小,但除了它我們還有那么多權重,多項連乘會導致非常大的輸出值,然后梯度就爆炸了。

所以總的來說,ReLU并沒有根治梯度消失這個問題,它只是在一定程度上緩解了矛盾,并產生了另一個新問題。這也是這些激活函數至今還能共存的原因——CNN用ReLU更常見,而RNN大多用tanh。在“玄學”的大背景下,這大概是新手入門機器學習后,接觸到的第一起trade off吧。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4777

    瀏覽量

    100974
  • 梯度
    +關注

    關注

    0

    文章

    30

    瀏覽量

    10333
  • 深度學習
    +關注

    關注

    73

    文章

    5511

    瀏覽量

    121355

原文標題:深度學習解密:我的梯度怎么消失了?

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    詳解深度學習、神經網絡與卷積神經網絡的應用

    在如今的網絡時代,錯綜復雜的大數據和網絡環境,讓傳統信息處理理論、人工智能與人工神經網絡都面臨巨大的挑戰。近些年,深度學習逐漸走進人們的視線,通過深度學習解決若干問題的案例越來越多。一些
    的頭像 發表于 01-11 10:51 ?2239次閱讀
    詳解深度學習、<b class='flag-5'>神經網絡</b>與卷積<b class='flag-5'>神經網絡</b>的應用

    人工神經網絡原理及下載

    人工神經網絡是根據的認識過程而開發出的種算法。假如我們現在只有一些輸入和相應的輸出,而對如何由輸入得到輸出的機理并不清楚,那么我們可以把輸入與輸出之間的未知過程看成是
    發表于 06-19 14:40

    當訓練好的神經網絡用于應用的時候,權值是不是不能變了?

    當訓練好的神經網絡用于應用的時候,權值是不是不能變了????就是已經訓練好的神經網絡不是相當于得到個公式了,權值不能變了
    發表于 10-24 21:55

    AI知識科普 | 從無人相信到萬追捧的神經網絡

    工智能。幾乎是夜間,神經網絡技術從無人相信變成了萬追捧。神經網絡之父Hiton1、人工神經網絡是什么?人工
    發表于 06-05 10:11

    卷積神經網絡如何使用

    卷積神經網絡(CNN)究竟是什么,鑒于神經網絡在工程上經歷了曲折的歷史,您為什么還會在意它呢? 對于這些非常中肯的問題,我們似乎可以給出相對簡明的答案。
    發表于 07-17 07:21

    【案例分享】ART神經網絡與SOM神經網絡

    今天學習了兩個神經網絡,分別是自適應諧振(ART)神經網絡與自組織映射(SOM)神經網絡。整體感覺不是很難,只不過一些最基礎的概念容易理解不
    發表于 07-21 04:30

    人工神經網絡實現方法有哪些?

    人工神經網絡(Artificial Neural Network,ANN)是種類似生物神經網絡的信息處理結構,它的提出是為了解決一些非線性,非平穩,復雜的實際問題。那有哪些辦法能實現
    發表于 08-01 08:06

    如何構建神經網絡

    原文鏈接:http://tecdat.cn/?p=5725 神經網絡種基于現有數據創建預測的計算系統。如何構建神經網絡神經網絡包括:輸入層:根據現有數據獲取輸入的層隱藏層:使用反
    發表于 07-12 08:02

    神經網絡移植到STM32的方法

    神經網絡移植到STM32最近在做的個項目需要用到網絡進行擬合,并且將擬合得到的結果用作控制,就在想能不能直接在單片機上做神經網絡計算,這樣就可以實時計算,不依賴于上位機。所以要解決
    發表于 01-11 06:20

    神經網絡到深度學習

    微軟研究人員在深度神經網絡(deep neural network)上取得突破, 使其在性能上能趕上目前最先進的語音識別技術
    發表于 08-17 11:54 ?47次下載

    【人工神經網絡基礎】為什么神經網絡選擇了“深度”?

    由 Demi 于 星期四, 2018-09-06 09:33 發表 現在提到“神經網絡”和“深度神經網絡”,覺得兩者沒有什么區別,神經網絡還能不是
    發表于 09-06 20:48 ?699次閱讀

    神經網絡一些人類根本不會犯的錯誤

    的方式也與人類更相近。但是,神經網絡還是一些人類根本不會犯的錯誤,改進空間仍很大。 對抗樣本:如果在這張熊貓圖片上添加個不可察覺的噪聲層,
    的頭像 發表于 01-05 14:10 ?2189次閱讀
    <b class='flag-5'>神經網絡</b><b class='flag-5'>會</b>犯<b class='flag-5'>一些人</b>類根本不會犯的錯誤

    反向傳播神經網絡和bp神經網絡的區別

    神經網絡在許多領域都有廣泛的應用,如語音識別、圖像識別、自然語言處理等。然而,BP神經網絡也存在一些問題,如容易陷入局部最優解、訓練時間長、對初始權重敏感等。為了解決這些問題,研究者們提出了
    的頭像 發表于 07-03 11:00 ?845次閱讀

    bp神經網絡和反向傳播神經網絡區別在哪

    神經網絡在許多領域都有廣泛的應用,如語音識別、圖像識別、自然語言處理等。然而,BP神經網絡也存在一些問題,如容易陷入局部最優解、訓練時間長、對初始權重敏感等。為了解決這些問題,研究者們提出了
    的頭像 發表于 07-04 09:51 ?487次閱讀

    人工神經網絡的原理和多種神經網絡架構方法

    在上篇文章中,我們介紹了傳統機器學習的基礎知識和多種算法。在本文中,我們介紹人工神經網絡的原理和多種神經網絡架構方法,供各位老師選擇。 01 人工
    的頭像 發表于 01-09 10:24 ?190次閱讀
    人工<b class='flag-5'>神經網絡</b>的原理和多種<b class='flag-5'>神經網絡</b>架構方法
    主站蜘蛛池模板: 三级毛片免费看| 欧美人成网站免费大全| 激情综合丁香| 天堂色综合| 四虎影院久久| 国产在线啪| 国内精品手机在线观看视频| 热久久影院| 高清一级| 成人午夜久久| 欧美成人免费午夜全| 久久香蕉国产视频| a级午夜毛片免费一区二区| 丁香在线| 最近高清在线国语| a男人的天堂久久a毛片| 给个网站可以在线观看你懂的| 日本三级成人中文字幕乱码| 午夜视频欧美| 日韩一区二区三区免费| 免费特黄| 理论片一区| 美女视频网站色软件免费视频| 青青草国产三级精品三级| 鲁一鲁色一色| 在线午夜视频| 久久婷五月| 一级大片视频| 欧洲一卡二卡乱码新区| 午夜影音| xxⅹ丰满妇女与善交| 婷婷综合激六月情网| 五月婷婷激情网| 欧美一级欧美三级| 酒色激情网| 777人体粉嫩u美图| 夜夜夜爽| 51精品国产| 91pao强力打造免费高清| 5060午夜一级| 欧美日韩一区二区三区视频|