在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

梯度提升算法

深度學習自然語言處理 ? 來源:AI公園 ? 作者:AI公園 ? 2021-03-05 16:12 ? 次閱讀

簡化復雜的算法

動機

盡管大多數的Kaggle競賽的獲勝者使用了多個模型的集成,這些集成的模型中,有一個必定是各種變體的梯度提升算法。舉個例子,Kaggle競賽:Safe Driver Prediction:https://www.kaggle.com/c/porto-seguro-safe-driver-prediction/discussion/44629#250927,Michael Jahrer的方案,使用了表示學習,使用了6個模型的綜合。1個LightGBM和5個神經網絡。盡管他的成功歸功他使用了結構化的數據進行了半監督學習,梯度提升算法也實現了非常重要的部分。

盡管GBM使用的非常廣泛,許多使用者仍然把這個東西當做一個黑盒子算法,只是使用預編譯好的庫跑一跑。寫這篇文章的目的是簡化復雜的算法,幫助讀者可以直觀的理解算法。我會解釋原汁原味的梯度提升算法,然后分享一些變種的鏈接。我基于fast.ai的庫做了一個決策樹的代碼,然后構建了一個自己的簡單的基礎的梯度提升模型。

Ensemble, Bagging, Boosting的簡單描述

當我們使用一個機器學習技術來預測目標變量的時候,造成實際值和預測值之間的差別的原因有噪聲,方差和偏差。集成方法能夠幫助減少這些因素(除了噪聲,不可約誤差)。

Ensemble是幾個預測器在一起(比如求平均),給出一個最終的結果。使用ensemble的原因是許多不同的預測器預測同一個目標會比單個預測器的效果要好。Ensemble技術又可以分成Bagging和Boosting。

Bagging是一個簡單的ensemble的技術,我們構建許多獨立的預測器/模型/學習器,通過模型平均的方式來組合使用。(如權值的平均,投票或者歸一化平均)

我們為每個模型使用隨機抽樣,所以每個模型都不太一樣。每個模型的輸入使用有放回的抽樣,所以模型的訓練樣本各不相同。因為這個技術使用了許多個不相關的學習器來進行最終的預測,它通過減少方差來減小誤差。bagging的一個例子是隨機森林模型。

Boosting在對模型進行ensemble的時候,不是獨立的,而是串行的。

這個技術使用了這樣的邏輯,后面的預測器學習的是前面的預測器的誤差。因此,觀測數據出現在后面模型中的概率是不一樣的,誤差越大,出現的概率越高。(所以觀測數據不是基于隨機又放回抽樣bootstrap的方式,而是基于誤差)。預測器可以從決策樹,回歸器,分類器中選取。因為新的預測器是從前面的預測器的誤差中學習的,接近實際的預測只需要更少的時間和迭代次數。但是我們不得不選擇嚴格的停止策略,否則可能會出現過擬合。梯度提升算法就是提升算法的一個例子。

Fig 1.Ensembling

Fig 2.Bagging (independent models) & Boosting (sequential models).Reference:https://quantdare.com/what-is-the-difference-between-bagging-and-boosting/

梯度提升算法

梯度提升是一個機器學習技術,用來做回歸和分類的問題,通過組合弱預測模型如決策樹,來得到一個強預測模型。(維基百科定義)

監督學習算法的目標是定義一個損失函數,然后最小化它。我們來看看,數學上梯度提升算法是怎么工作的。比如我們使用均方誤差(MSE)作為損失函數:

bddbdbae-7c22-11eb-8b86-12bb97331649.jpg

我們希望我們的預測讓我們的損失函數最小。通過使用梯度提升算法,基于一個學習率來更新我們的預測,我們會發現一個讓MSE最小的值。

be251cd8-7c22-11eb-8b86-12bb97331649.png

所以,我們基本上是在更新預測,讓殘差的和接近于0(或者最?。?,這樣預測的值就和實際的值足夠的接近了。

梯度提升背后的直覺

梯度提升背后的邏輯很簡單,(可以很直觀的理解,不用數據公式)。我希望讀這篇文章的人能夠熟悉一下簡單的線性回歸模型。

線性回歸模型的一個基本的假設是殘差是0,也就是說,參數應該在0的周圍分散。

be8c21b2-7c22-11eb-8b86-12bb97331649.png

現在,把這些殘差作為誤差提交到我們的預測模型中。盡管,基于樹的模型(將決策樹作為梯度提升的基礎模型)不是基于這個假設,但是如果我們對這個假設進行邏輯思考,我們也許能提出,如果我們能發現在0的周圍的殘差一些模式,我們可以利用這個模式來擬合模型。

所以,梯度提升背后的直覺就是重復的利用殘差中的模式利用弱預測器來加強模型,讓模型變得更好。一旦我們到了一個階段,殘差不具有任何的模式,無法進行建模,我們就可以停止了(否則會導致過擬合)。從算法的角度講,我們在最小化損失函數,直到測試損失達到最小。

總結一下:

我們首先使用一個簡單的模型對數據進行建模,分析數據的誤差。

這些誤差表示數據點使用簡單的模型很難進行擬合。

然后對于接下來的模型,我們特別的專注于將那些難于擬合的數據,把這些數據預測正確。

最后,我們將所有的預測器組合起來,對于每個預測器給定一個權重。

擬合梯度提升模型的步驟

我們來模擬一些數據,如下面的散點圖所示,一個輸入,一個輸出。

beb975d6-7c22-11eb-8b86-12bb97331649.png

上面的數據是通過下面的python代碼生成的。

x = np.arange(0,50) x = pd.DataFrame({'x':x}) # just random uniform distributions in differnt range y1 = np.random.uniform(10,15,10) y2 = np.random.uniform(20,25,10) y3 = np.random.uniform(0,5,10) y4 = np.random.uniform(30,32,10) y5 = np.random.uniform(13,17,10) y = np.concatenate((y1,y2,y3,y4,y5)) y = y[:,None]

1.擬合一個簡單的線性回歸模型或者決策樹模型(在我的代碼中選擇了決策樹)[x作為輸入,y作為輸出]

xi = x # initialization of input yi = y # initialization of target # x,y --> use where no need to change original y ei = 0 # initialization of error n = len(yi) # number of rows predf = 0 # initial prediction 0 for i in range(30): # loop will make 30 trees (n_estimators). tree = DecisionTree(xi,yi) # DecisionTree scratch code can be found in shared github/kaggle link. # It just create a single decision tree with provided min. sample leaf tree.find_better_split(0) # For selected input variable, this splits (n) data so that std. deviation of # target variable in both splits is minimum as compared to all other splits r = np.where(xi == tree.split)[0][0] # finds index where this best split occurs left_idx = np.where(xi <= tree.split)[0] # index lhs of split ? ? ?right_idx = np.where(xi > tree.split)[0] # index rhs of split

2.計算誤差,實際的目標值,最小化預測目標值[e1= y - y_predicted1 ]

3.把誤差作為目標值,擬合新的模型,使用同樣的輸入數據[叫做e1_predicted]

4.將預測的誤差加到之前的預測之中[y_predicted2 = y_predicted1 + e1_predicted]

5.在剩下的殘差上擬合另一個模型,[e2 = y - y_predicted2],重復第2到第5步,直到開始過擬合,或者殘差的和開始不怎么變換。過擬合可以通過驗證數據上的準確率來發現。

# predictions by ith decisision tree predi = np.zeros(n) np.put(predi, left_idx, np.repeat(np.mean(yi[left_idx]), r)) # replace left side mean y np.put(predi, right_idx, np.repeat(np.mean(yi[right_idx]), n-r)) # right side mean y predi = predi[:,None] # make long vector (nx1) in compatible with y predf = predf + predi # final prediction will be previous prediction value + new prediction of residual ei = y - predf # needed originl y here as residual always from original y yi = ei # update yi as residual to reloop

為了幫助理解劃線部分的概念,這里有個鏈接,有完整的梯度提升模型的實現 [[Link: Gradient Boosting from scratch]](https://www.kaggle.com/grroverpr/gradient-boosting-simplified/)。????????????

梯度提升樹的可視化工作

藍色的點(左邊)是輸入(x),紅色的線(左邊)是輸出(y)顯示了決策樹的預測值,綠色的點(右邊)顯示了第i次迭代的殘差vs.輸入(x),迭代表示擬合梯度提升樹的了序列的順序。

bee0a444-7c22-11eb-8b86-12bb97331649.jpg

Fig 5.Visualization of gradient boosting predictions (First 4 iterations)

bf1d7572-7c22-11eb-8b86-12bb97331649.jpg

Fig 6.Visualization of gradient boosting predictions (18th to 20th iterations)

我們發現過了20個迭代,殘差變成了0附近的隨機分布(我不會說是隨機正態分布),我們的預測也非常接近于實際值。這時可以停止訓練模型了,否則要開始過擬合了。

我們來看看,50個迭代之后的樣子:

bf64abcc-7c22-11eb-8b86-12bb97331649.jpg

Fig 7. Visualization of gradient boosting prediction (iteration 50th)

我們發現,即使是50個迭代之后,殘差vs. x的圖和我們看到的20個迭代的圖也沒太大區別。但是模型正在變的越來越復雜,預測結果在訓練數據上出現了過擬合。所以,最好是在20個迭代的時候就停止。

用來畫圖的python代碼。

# plotting after prediction xa = np.array(x.x) # column name of x is x order = np.argsort(xa) xs = np.array(xa)[order] ys = np.array(predf)[order] #epreds = np.array(epred[:,None])[order] f, (ax1, ax2) = plt.subplots(1, 2, sharey=True, figsize = (13,2.5)) ax1.plot(x,y, 'o') ax1.plot(xs, ys, 'r') ax1.set_title(f'Prediction (Iteration {i+1})') ax1.set_xlabel('x') ax1.set_ylabel('y / y_pred') ax2.plot(x, ei, 'go') ax2.set_title(f'Residuals vs. x (Iteration {i+1})') ax2.set_xlabel('x') ax2.set_ylabel('Residuals')

我希望這個博客可以幫助你對梯度提升算法的工作有一個基本的直覺。為了理解梯度提升回歸算法的細節,我強烈建議你讀一讀下面這些文章。

更多有用的資源

我的github倉庫和kaggle的kernel的鏈接,從頭開始GBM

https://www.kaggle.com/grroverpr/gradient-boosting-simplified/https://nbviewer.jupyter.org/github/groverpr/Machine-Learning/blob/master/notebooks/01_Gradient_Boosting_Scratch.ipynb

一個直觀和細致的梯度提升算法的解釋

http://explained.ai/gradient-boosting/index.html

Fast.ai的github倉庫鏈接,從頭開始做決策樹

https://github.com/fastai/fastai

Alexander Ihler的視頻,這視頻幫我理解了很多。

https://youtu.be/sRktKszFmSk

最常用的GBM算法

XGBoost || Lightgbm || Catboost || sklearn.ensemble.GradientBoostingClassifier

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4777

    瀏覽量

    100985
  • 算法
    +關注

    關注

    23

    文章

    4625

    瀏覽量

    93141
  • 機器學習
    +關注

    關注

    66

    文章

    8434

    瀏覽量

    132864

原文標題:【算法理解】從頭開始理解梯度提升算法

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    xgboost與LightGBM的優勢對比

    在機器學習領域,集成學習算法因其出色的性能和泛化能力而受到廣泛關注。其中,XGBoost和LightGBM是兩種非常流行的梯度提升框架。 1. 算法基礎 XGBoost(eXtreme
    的頭像 發表于 01-19 11:18 ?150次閱讀

    xgboost的并行計算原理

    在大數據時代,機器學習算法需要處理的數據量日益增長。為了提高數據處理的效率,許多算法都開始支持并行計算。XGBoost作為一種高效的梯度提升算法
    的頭像 發表于 01-19 11:17 ?155次閱讀

    基于梯度下降算法的三元鋰電池循環壽命預測

    不同比例、范圍的訓練集與測試集劃分?;跈C器學習的梯度下降算法對訓練集進行模型訓練,以迭代后的權重值、偏置值進行結果預測并與試驗數據進行對比。結果表明:適宜參數下的梯度下降算法可以應用
    的頭像 發表于 01-16 10:19 ?111次閱讀
    基于<b class='flag-5'>梯度</b>下降<b class='flag-5'>算法</b>的三元鋰電池循環壽命預測

    梯度科技入選2024云原生企業TOP50榜單

    近日,國內專業咨詢機構DBC德本咨詢發布“2024云原生企業TOP50”榜單。梯度科技憑借自主研發的“梯度智能云平臺”入選該榜單,彰顯公司在該領域的行業競爭力。
    的頭像 發表于 12-06 11:35 ?300次閱讀

    訓練RNN時如何避免梯度消失

    在處理長序列數據時,RNN(循環神經網絡)模型可能會面臨梯度消失的問題,這是由于反向傳播過程中,由于連續的乘法操作,梯度會指數級地衰減,導致較早的時間步的輸入對較后時間步的梯度幾乎沒有影響,難以進行
    的頭像 發表于 11-15 10:01 ?394次閱讀

    梯度科技和廣西大學計算機與電子信息學院達成戰略合作

    日前,梯度科技與廣西大學計算機與電子信息學院戰略合作簽約暨信創實習實訓基地揭牌儀式在南寧舉行。廣西大學計算機與電子信息學院副院長兼信息安全系主任鄭嘉利、信息安全系副主任劉瀟,梯度科技聯席總裁劉井山、副總裁田正明、總經理助理滿柏宇等共同出席簽約暨揭牌儀式。
    的頭像 發表于 09-09 16:31 ?654次閱讀

    芯片表面溫度梯度對功率循環壽命的影響

    表面的溫度分布存在溫度梯度,因此每個鍵腳承受的熱應力也存在差異,芯片的壽命是否取決于承受最高應力的鍵腳一直是研究的難點。文中將脫離有限元仿真分析應力壽命關系的研究方法,重點考慮芯片表面的溫度梯度對芯片壽命的影響,通過提取溫度
    的頭像 發表于 07-21 16:12 ?669次閱讀
    芯片表面溫度<b class='flag-5'>梯度</b>對功率循環壽命的影響

    圖像識別算法提升有哪些

    引言 圖像識別是計算機視覺領域的核心任務之一,旨在使計算機能夠自動地識別和理解圖像中的內容。隨著計算機硬件的發展和深度學習技術的突破,圖像識別算法的性能得到了顯著提升。本文將介紹圖像識別算法
    的頭像 發表于 07-16 11:12 ?699次閱讀

    中偉視界:智能監控和預警,靜止超時AI算法如何提升非煤礦山安全?

    本文詳細介紹了靜止超時AI算法在非煤礦山的工作原理、技術實現細節和應用場景,并分析了其在安全管理中的實際效果。通過智能監控和預警,靜止超時AI算法能夠提高礦山的安全防控水平,提升管理效率,降低運營
    的頭像 發表于 07-14 11:29 ?1157次閱讀
    中偉視界:智能監控和預警,靜止超時AI<b class='flag-5'>算法</b>如何<b class='flag-5'>提升</b>非煤礦山安全?

    神經網絡反向傳播算法的優缺點有哪些

    是一種模擬人腦神經元網絡的計算模型,具有強大的非線性映射能力和泛化能力。反向傳播算法是訓練神經網絡的核心算法,通過梯度下降法優化網絡權重,使網絡輸出盡可能接近目標值。然而,反向傳播算法
    的頭像 發表于 07-03 11:24 ?1164次閱讀

    有源矩陣數字微流控芯片,用于生成高分辨率濃度梯度

    在生物化學研究中,樣本的濃度梯度制備對于理解復雜的生物學過程至關重要。濃度梯度在例如DNA分析、藥物篩選和免疫學分析等多種生物化學實驗中起核心作用。
    的頭像 發表于 05-19 17:40 ?1192次閱讀
    有源矩陣數字微流控芯片,用于生成高分辨率濃度<b class='flag-5'>梯度</b>

    JPEG LS算法局部梯度值計算原理

    如果同一個上下文中對少量元素進行編碼,通常無法獲得足夠的上下文編碼信息。但是如果對大量元素進行編碼又會帶來存儲空間變大的問題。因此要對局部梯度值進行量化處理。
    的頭像 發表于 04-25 10:46 ?518次閱讀
    JPEG LS<b class='flag-5'>算法</b>局部<b class='flag-5'>梯度</b>值計算原理

    功率放大器在聲波截面梯度場的重建及其在聲波場處理中的應用

      實驗名稱:電壓放大器在聲波截面梯度場的重建及其在聲波場處理中的應用   實驗內容:水下聲信號在傳播過程中會引起介質折射率的變化,當激光穿過聲擾動介質時,介質折射率的空間變化引起激光束的偏轉,利用
    發表于 03-08 17:45

    場強是電勢的梯度如何證明

    場強與電勢之間的關系是通過電場定律來描述的。根據電場定律,電勢場中任意一點產生的場強是該點電勢在該點空間梯度的負號,即: (vec{E} = - nabla V) 其中,(vec{E})是電場
    的頭像 發表于 02-26 16:10 ?1473次閱讀

    電場強度相等的地方,電勢梯度一定相等嗎

    電場強度和電勢梯度是電場性質的兩個不同方面。雖然它們在某些情況下是相關的,但并不一定完全相等。 首先,我們來了解一下電場強度和電勢梯度的基本概念。 電場強度(E)是一個矢量量,定義為單位正電荷所受
    的頭像 發表于 02-26 16:07 ?2872次閱讀
    主站蜘蛛池模板: 福利姬 magnet| 国产网红主播精品福利大秀专区| 免费国产成人α片| 久久网站免费观看| 国模视频一区| www.婷婷色| 中文字幕亚洲天堂| 加勒比一木道|视频在线看| www色网站| 91久久青草精品38国产| 午夜手机福利| 日日夜夜天天干干| 国外免费精品视频在线观看| 午夜色大片在线观看| 男女交性无遮挡免费视频| 伊人久久大杳蕉综合大象| 他也色在线| 美女视频黄.免费网址| 国产欧美日韩综合精品无毒| 亚洲dv| 免费视频网站在线观看| 色西西| 免费精品99久久国产综合精品 | 黄色三级视频| cum4k在线| 欧美日韩色片| 91男人| 亚洲成a人片777777久久| 欧美一级视频高清片| 国产精品热久久毛片| 日日躁夜夜躁狠狠天天| 国产人成午夜免费噼啪视频| 中文字幕网资源站永久资源| 色婷婷综合在线| 狠狠色丁香久久婷婷| 性夜黄a爽爽免费视频国产| 国产成 人 综合 亚洲网| 韩国男女无遮挡高清性视频| 日韩毛片一级| 777奇米影视一区二区三区| 黄色录像视频网站|