在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

通過(guò)學(xué)習(xí)PPT地址和xgboost導(dǎo)讀和實(shí)戰(zhàn)地址來(lái)對(duì)xgboost原理和應(yīng)用分析

c5Gh_DatamingHa ? 2018-01-02 10:18 ? 次閱讀

1、背景

關(guān)于xgboost的原理網(wǎng)絡(luò)上的資源很少,大多數(shù)還停留在應(yīng)用層面,本文通過(guò)學(xué)習(xí)陳天奇博士的PPT地址和xgboost導(dǎo)讀和實(shí)戰(zhàn)地址,希望對(duì)xgboost原理進(jìn)行深入理解。

2、xgboost vs gbdt

說(shuō)到xgboost,不得不說(shuō)gbdt。了解gbdt可以看我這篇文章地址,gbdt無(wú)論在理論推導(dǎo)還是在應(yīng)用場(chǎng)景實(shí)踐都是相當(dāng)完美的,但有一個(gè)問(wèn)題:第n顆樹(shù)訓(xùn)練時(shí),需要用到第n-1顆樹(shù)的(近似)殘差。從這個(gè)角度來(lái)看,gbdt比較難以實(shí)現(xiàn)分布式(ps:雖然難,依然是可以的,換個(gè)角度思考就行),而xgboost從下面這個(gè)角度著手

通過(guò)學(xué)習(xí)PPT地址和xgboost導(dǎo)讀和實(shí)戰(zhàn)地址來(lái)對(duì)xgboost原理和應(yīng)用分析

注:紅色箭頭指向的l即為損失函數(shù);紅色方框?yàn)檎齽t項(xiàng),包括L1、L2;紅色圓圈為常數(shù)項(xiàng)。利用泰勒展開(kāi)三項(xiàng),做一個(gè)近似,我們可以很清晰地看到,最終的目標(biāo)函數(shù)只依賴(lài)于每個(gè)數(shù)據(jù)點(diǎn)的在誤差函數(shù)上的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)。

3、原理

(1)定義樹(shù)的復(fù)雜度對(duì)于f的定義做一下細(xì)化,把樹(shù)拆分成結(jié)構(gòu)部分q和葉子權(quán)重部分w。下圖是一個(gè)具體的例子。結(jié)構(gòu)函數(shù)q把輸入映射到葉子的索引號(hào)上面去,而w給定了每個(gè)索引號(hào)對(duì)應(yīng)的葉子分?jǐn)?shù)是什么。通過(guò)學(xué)習(xí)PPT地址和xgboost導(dǎo)讀和實(shí)戰(zhàn)地址來(lái)對(duì)xgboost原理和應(yīng)用分析通過(guò)學(xué)習(xí)PPT地址和xgboost導(dǎo)讀和實(shí)戰(zhàn)地址來(lái)對(duì)xgboost原理和應(yīng)用分析

通過(guò)學(xué)習(xí)PPT地址和xgboost導(dǎo)讀和實(shí)戰(zhàn)地址來(lái)對(duì)xgboost原理和應(yīng)用分析

這一個(gè)目標(biāo)包含了TT個(gè)相互獨(dú)立的單變量二次函數(shù)。我們可以定義

最終公式可以化簡(jiǎn)為

通過(guò)學(xué)習(xí)PPT地址和xgboost導(dǎo)讀和實(shí)戰(zhàn)地址來(lái)對(duì)xgboost原理和應(yīng)用分析

通過(guò)對(duì)

然后把

(2)打分函數(shù)計(jì)算示例

Obj代表了當(dāng)我們指定一個(gè)樹(shù)的結(jié)構(gòu)的時(shí)候,我們?cè)谀繕?biāo)上面最多減少多少。我們可以把它叫做結(jié)構(gòu)分?jǐn)?shù)(structure score)

通過(guò)學(xué)習(xí)PPT地址和xgboost導(dǎo)讀和實(shí)戰(zhàn)地址來(lái)對(duì)xgboost原理和應(yīng)用分析

(3)枚舉不同樹(shù)結(jié)構(gòu)的貪心法

貪心法:每一次嘗試去對(duì)已有的葉子加入一個(gè)分割

通過(guò)學(xué)習(xí)PPT地址和xgboost導(dǎo)讀和實(shí)戰(zhàn)地址來(lái)對(duì)xgboost原理和應(yīng)用分析

對(duì)于每次擴(kuò)展,我們還是要枚舉所有可能的分割方案,如何高效地枚舉所有的分割呢?我假設(shè)我們要枚舉所有x < a 這樣的條件,對(duì)于某個(gè)特定的分割a我們要計(jì)算a左邊和右邊的導(dǎo)數(shù)和。

通過(guò)學(xué)習(xí)PPT地址和xgboost導(dǎo)讀和實(shí)戰(zhàn)地址來(lái)對(duì)xgboost原理和應(yīng)用分析

我們可以發(fā)現(xiàn)對(duì)于所有的a,我們只要做一遍從左到右的掃描就可以枚舉出所有分割的梯度和GL和GR。然后用上面的公式計(jì)算每個(gè)分割方案的分?jǐn)?shù)就可以了。

觀察這個(gè)目標(biāo)函數(shù),大家會(huì)發(fā)現(xiàn)第二個(gè)值得注意的事情就是引入分割不一定會(huì)使得情況變好,因?yàn)槲覀冇幸粋€(gè)引入新葉子的懲罰項(xiàng)。優(yōu)化這個(gè)目標(biāo)對(duì)應(yīng)了樹(shù)的剪枝, 當(dāng)引入的分割帶來(lái)的增益小于一個(gè)閥值的時(shí)候,我們可以剪掉這個(gè)分割。大家可以發(fā)現(xiàn),當(dāng)我們正式地推導(dǎo)目標(biāo)的時(shí)候,像計(jì)算分?jǐn)?shù)和剪枝這樣的策略都會(huì)自然地出現(xiàn),而不再是一種因?yàn)閔euristic(啟發(fā)式)而進(jìn)行的操作了。

4、自定義損失函數(shù)

在實(shí)際的業(yè)務(wù)場(chǎng)景下,我們往往需要自定義損失函數(shù)。這里給出一個(gè)官方的 鏈接地址

5、Xgboost調(diào)參

由于Xgboost的參數(shù)過(guò)多,使用GridSearch特別費(fèi)時(shí)。這里可以學(xué)習(xí)下這篇文章,教你如何一步一步去調(diào)參。地址

6、python和R對(duì)xgboost簡(jiǎn)單使用

任務(wù):二分類(lèi),存在樣本不均衡問(wèn)題(scale_pos_weight可以一定程度上解讀此問(wèn)題)

通過(guò)學(xué)習(xí)PPT地址和xgboost導(dǎo)讀和實(shí)戰(zhàn)地址來(lái)對(duì)xgboost原理和應(yīng)用分析

通過(guò)學(xué)習(xí)PPT地址和xgboost導(dǎo)讀和實(shí)戰(zhàn)地址來(lái)對(duì)xgboost原理和應(yīng)用分析

7、Xgboost中比較重要的參數(shù)介紹

(1)objective [ default=reg:linear ] 定義學(xué)習(xí)任務(wù)及相應(yīng)的學(xué)習(xí)目標(biāo),可選的目標(biāo)函數(shù)如下:

  • “reg:linear” –線性回歸。

  • “reg:logistic” –邏輯回歸。

  • “binary:logistic” –二分類(lèi)的邏輯回歸問(wèn)題,輸出為概率。

  • “binary:logitraw” –二分類(lèi)的邏輯回歸問(wèn)題,輸出的結(jié)果為wTx。

  • “count:poisson” –計(jì)數(shù)問(wèn)題的poisson回歸,輸出結(jié)果為poisson分布。 在poisson回歸中,max_delta_step的缺省值為0.7。(used to safeguard optimization)

  • “multi:softmax” –讓XGBoost采用softmax目標(biāo)函數(shù)處理多分類(lèi)問(wèn)題,同時(shí)需要設(shè)置參數(shù)num_class(類(lèi)別個(gè)數(shù))

  • “multi:softprob” –和softmax一樣,但是輸出的是ndata * nclass的向量,可以將該向量reshape成ndata行nclass列的矩陣。沒(méi)行數(shù)據(jù)表示樣本所屬于每個(gè)類(lèi)別的概率。

  • “rank:pairwise” –set XGBoost to do ranking task by minimizing the pairwise loss

(2)’eval_metric’ The choices are listed below,評(píng)估指標(biāo):

  • rmse”: root mean square error

  • “l(fā)ogloss”: negative log-likelihood

  • “error”: Binary classification error rate. It is calculated as #(wrong cases)/#(all cases). For the predictions, the evaluation will regard the instances with prediction value larger than 0.5 as positive instances, and the others as negative instances.

  • “merror”: Multiclass classification error rate. It is calculated as #(wrong cases)/#(all cases).

  • “mlogloss”: Multiclass logloss

  • “auc”: Area under the curve for ranking evaluation.

  • “ndcg”:Normalized Discounted Cumulative Gain

  • “map”:Mean average precision

  • “ndcg@n”,”map@n”: n can be assigned as an integer to cut off the top positions in the lists for evaluation.

  • “ndcg-“,”map-“,”ndcg@n-“,”map@n-“: In XGBoost, NDCG and MAP will evaluate the score of a list without any positive samples as 1. By adding “-” in the evaluation metric XGBoost will evaluate these score as 0 to be consistent under some conditions.

(3)lambda [default=0]L2 正則的懲罰系數(shù)

(4)alpha [default=0]L1 正則的懲罰系數(shù)

(5)lambda_bias在偏置上的L2正則。缺省值為0(在L1上沒(méi)有偏置項(xiàng)的正則,因?yàn)長(zhǎng)1時(shí)偏置不重要)

(6)eta [default=0.3]為了防止過(guò)擬合,更新過(guò)程中用到的收縮步長(zhǎng)。在每次提升計(jì)算之后,算法會(huì)直接獲得新特征的權(quán)重。 eta通過(guò)縮減特征的權(quán)重使提升計(jì)算過(guò)程更加保守。缺省值為0.3取值范圍為:[0,1]

(7)max_depth [default=6]數(shù)的最大深度。缺省值為6 ,取值范圍為:[1,∞]

(8)min_child_weight [default=1]孩子節(jié)點(diǎn)中最小的樣本權(quán)重和。如果一個(gè)葉子節(jié)點(diǎn)的樣本權(quán)重和小于min_child_weight則拆分過(guò)程結(jié)束。在現(xiàn)行回歸模型中,這個(gè)參數(shù)是指建立每個(gè)模型所需要的最小樣本數(shù)。該成熟越大算法越conservative取值范圍為: [0,∞]


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4801

    瀏覽量

    84878
  • GBDT
    +關(guān)注

    關(guān)注

    0

    文章

    13

    瀏覽量

    3907

原文標(biāo)題:數(shù)據(jù)科學(xué)家工具箱|xgboost原理以及應(yīng)用詳解

文章出處:【微信號(hào):DatamingHacker,微信公眾號(hào):深度學(xué)習(xí)與數(shù)據(jù)挖掘?qū)崙?zhàn)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    如何通過(guò)XGBoost解釋機(jī)器學(xué)習(xí)

    本文為大家介紹用XGBoost解釋機(jī)器學(xué)習(xí)。 這是一個(gè)故事,關(guān)于錯(cuò)誤地解釋機(jī)器學(xué)習(xí)模型的危險(xiǎn)以及正確解釋所帶來(lái)的價(jià)值。如果你發(fā)現(xiàn)梯度提升或隨機(jī)森林之類(lèi)的集成樹(shù)模型具有很穩(wěn)定的準(zhǔn)確率,但還是需要對(duì)其
    發(fā)表于 10-12 11:48 ?1833次閱讀
    如何<b class='flag-5'>通過(guò)</b><b class='flag-5'>XGBoost</b>解釋機(jī)器<b class='flag-5'>學(xué)習(xí)</b>

    PyInstaller打包xgboost算法包等可能出現(xiàn)問(wèn)題是什么

    PyInstaller 打包 xgboost算法包等可能出現(xiàn)問(wèn)題
    發(fā)表于 07-16 14:35

    基于xgboost的風(fēng)力發(fā)電機(jī)葉片結(jié)冰分類(lèi)預(yù)測(cè) 精選資料分享

    xgboost中文叫做極致梯度提升模型,官方文檔鏈接:https://xgboost.readthedocs.io/en/latest/tutorials/model.html2018年9月6日筆記
    發(fā)表于 07-12 06:58

    基于xgboost的風(fēng)力發(fā)電機(jī)葉片結(jié)冰分類(lèi)預(yù)測(cè) 精選資料下載

    xgboost中文叫做極致梯度提升模型,官方文檔鏈接:https://xgboost.readthedocs.io/en/latest/tutorials/model.html2018年9月6日筆記
    發(fā)表于 07-12 06:44

    ATM地址,ATM地址是什么意思

    ATM地址,ATM地址是什么意思 異 步傳輸模式(ATM)使用地址來(lái)確定和定位ATM設(shè)備。在ATM中,地址是呼叫建立過(guò)程中
    發(fā)表于 04-06 16:00 ?1533次閱讀

    面試中出現(xiàn)有關(guān)Xgboost總結(jié)

    介紹 Xgboost是GB算法的高效實(shí)現(xiàn),xgboost中的基學(xué)習(xí)器除了可以是CART(gbtree)也可以是線性分類(lèi)器(gblinear)
    發(fā)表于 03-20 16:48 ?4480次閱讀

    XGBoost號(hào)稱(chēng)“比賽奪冠的必備大殺器”,橫掃機(jī)器學(xué)習(xí)競(jìng)賽罕逢敵手

    XGBoost全稱(chēng):eXtreme Gradient Boosting,是一種基于決策樹(shù)的集成機(jī)器學(xué)習(xí)算法,使用梯度上升框架,適用于分類(lèi)和回歸問(wèn)題。優(yōu)點(diǎn)是速度快、效果好、能處理大規(guī)模數(shù)據(jù)、支持多種語(yǔ)言、支持自定義損失函數(shù)等,不足之處是因?yàn)閮H僅推出了不足5年時(shí)間,需要進(jìn)一步
    的頭像 發(fā)表于 04-30 09:01 ?3997次閱讀

    XGBoost原理概述 XGBoost和GBDT的區(qū)別

    相比于經(jīng)典的GBDT,xgboost做了一些改進(jìn),從而在效果和性能上有明顯的提升。
    的頭像 發(fā)表于 07-16 18:54 ?7.9w次閱讀
    <b class='flag-5'>XGBoost</b>原理概述 <b class='flag-5'>XGBoost</b>和GBDT的區(qū)別

    基于遺傳算法和隨機(jī)森林的XGBoost改進(jìn)方法

    回歸預(yù)測(cè)是機(jī)器學(xué)習(xí)中重要的研究方向之一,有著廣闊的應(yīng)用領(lǐng)域。為了進(jìn)一步提升回歸預(yù)測(cè)的精度,提出了基于遺傳算法與隨機(jī)森林的 Gboost改進(jìn)方法( GA Xgboost_RF)。首先利用遺傳算法
    發(fā)表于 04-26 15:44 ?10次下載
    基于遺傳算法和隨機(jī)森林的<b class='flag-5'>XGBoost</b>改進(jìn)方法

    基于Xgboost算法的高錳鋼表面粗糙度預(yù)測(cè)

    基于Xgboost算法的高錳鋼表面粗糙度預(yù)測(cè)
    發(fā)表于 06-19 15:09 ?14次下載

    在幾個(gè)AWS實(shí)例上運(yùn)行的XGBoost和LightGBM的性能比較

    XGBoost(eXtreme Gradient Boosting)是一個(gè)在Gradient Boosting Decision Tree(GBDT)框架下的開(kāi)源機(jī)器學(xué)習(xí)庫(kù)(https://github.com/dmlc/xgboost
    的頭像 發(fā)表于 10-24 10:24 ?1459次閱讀

    XGBoost超參數(shù)調(diào)優(yōu)指南

    對(duì)于XGBoost來(lái)說(shuō),默認(rèn)的超參數(shù)是可以正常運(yùn)行的,但是如果你想獲得最佳的效果,那么就需要自行調(diào)整一些超參數(shù)來(lái)匹配你的數(shù)據(jù),以下參數(shù)對(duì)于XGBoost非常重要
    的頭像 發(fā)表于 06-15 18:15 ?844次閱讀
    <b class='flag-5'>XGBoost</b>超參數(shù)調(diào)優(yōu)指南

    XGBoost中無(wú)需手動(dòng)編碼的分類(lèi)特征

    XGBoost 中無(wú)需手動(dòng)編碼的分類(lèi)特征
    的頭像 發(fā)表于 07-05 16:30 ?693次閱讀

    XGBoost 2.0介紹

    XGBoost是處理不同類(lèi)型表格數(shù)據(jù)的最著名的算法,LightGBM 和Catboost也是為了修改他的缺陷而發(fā)布的。近日XGBoost發(fā)布了新的2.0版,本文除了介紹讓XGBoost的完整歷史以外
    的頭像 發(fā)表于 11-03 10:12 ?503次閱讀
    <b class='flag-5'>XGBoost</b> 2.0介紹

    詳解XGBoost 2.0重大更新!

    另外還有一點(diǎn)是基于樹(shù)的模型可以輕松地可視化和解釋?zhuān)@進(jìn)一步增加了吸引力,特別是在理解表格數(shù)據(jù)結(jié)構(gòu)時(shí)。通過(guò)利用這些固有的優(yōu)勢(shì),基于樹(shù)的方法——尤其是像XGBoost這樣的高級(jí)方法——非常適合處理數(shù)據(jù)科學(xué)中的各種挑戰(zhàn),特別是在處理表格數(shù)據(jù)時(shí)。
    的頭像 發(fā)表于 11-14 16:22 ?825次閱讀
    詳解<b class='flag-5'>XGBoost</b> 2.0重大更新!
    主站蜘蛛池模板: 激情综合在线| 91大神在线精品网址| 天天免费视频| 日本美女视频网站| 毛片天天看| 在线视频永久在线视频| 91午夜在线观看| 国产做爰一区二区| 一区二区三区四区欧美| 迅雷www天堂在线资源| 色五月在线视频| 狠狠干2015| 国产精品网站在线进入| 黄色网址在线播放| 国产一区二区三区夜色| 性欧洲女人18| 全黄h全肉边做边吃奶在线观看| 久久综合97色综合网| 国产成人亚洲精品77| 我要色综合网| 高清影院在线欧美人色| 中国一级生活片| 亚洲天堂电影在线观看| 日本在线观看成人小视频| 久久久久青草| 欧美综合精品一区二区三区| 年轻护士3的滋味| 成人a毛片在线看免费全部播放| 亚洲午夜一区| 国产精品九九热| 欧美一区二区视频三区| 特级黄一级播放| 美女全黄网站免费观看| 在线免费看黄的网站| 国产成人在线影院| 免费在线亚洲| 日本天堂影院| cum4k在线| 午夜美女视频在线观看高清| 国产黄mmd在线观看免费| 欧美成人亚洲|