大數據————決策樹(decision tree)
決策樹(decision tree):是一種基本的分類與回歸方法,主要討論分類的決策樹。
在分類問題中,表示基于特征對實例進行分類的過程,可以認為是if-then的集合,也可以認為是定義在特征空間與類空間上的條件概率分布。
決策樹通常有三個步驟:特征選擇、決策樹的生成、決策樹的修剪。
用決策樹分類:從根節點開始,對實例的某一特征進行測試,根據測試結果將實例分配到其子節點,此時每個子節點對應著該特征的一個取值,如此遞歸的對實例進行測試并分配,直到到達葉節點,最后將實例分到葉節點的類中。
決策樹學習的目標:根據給定的訓練數據集構建一個決策樹模型,使它能夠對實例進行正確的分類。
決策樹學習的本質:從訓練集中歸納出一組分類規則,或者說是由訓練數據集估計條件概率模型。
決策樹學習的損失函數:正則化的極大似然函數
決策樹學習的測試:最小化損失函數
決策樹學習的目標:在損失函數的意義下,選擇最優決策樹的問題。
數據挖掘中決策樹是一種經常要用到的技術,可以用于分析數據,同樣也可以用來作預測。一個決策樹包含三種類型的節點:
決策節點:通常用矩形框來表示
機會節點:通常用圓圈來表示
終結點:通常用三角形來表示
剪枝是決策樹停止分支的方法之一,剪枝有分預先剪枝和后剪枝兩種。預先剪枝是在樹的生長過程中設定一個指標,當達到該指標時就停止生長,這樣做容易產生“視界局限”,就是一旦停止分支,使得節點N成為葉節點,就斷絕了其后繼節點進行“好”的分支操作的任何可能性。不嚴格的說這些已停止的分支會誤導學習算法,導致產生的樹不純度降差最大的地方過分靠近根節點。后剪枝中樹首先要充分生長,直到葉節點都有最小的不純度值為止,因而可以克服“視界局限”。然后對所有相鄰的成對葉節點考慮是否消去它們,如果消去能引起令人滿意的不純度增長,那么執行消去,并令它們的公共父節點成為新的葉節點。這種“合并”葉節點的做法和節點分支的過程恰好相反,經過剪枝后葉節點常常會分布在很寬的層次上,樹也變得非平衡。后剪枝技術的優點是克服了“視界局限”效應,而且無需保留部分樣本用于交叉驗證,所以可以充分利用全部訓練集的信息。但后剪枝的計算量代價比預剪枝方法大得多,特別是在大樣本集中,不過對于小樣本的情況,后剪枝方法還是優于預剪枝方法的。
大數據知識點:
一、大數據概述:1.大數據及特點分析;2.大數據關健技術;3.大數據計算模式;4.大數據應用實例
二、大數據處理架構Hadoop:1.Hadoop項目結構;2.Hadoop安裝與使用;3.Hadoop集群的部署與使用;4.Hadoop 代表性組件
三、分布式文件系統HDFS :1.HDFS體系結構;2.HDFS存儲;3.HDFS數據讀寫過程
四、分布式數據庫HBase :1.HBase訪問接口;2.HBase數據類型;3.HBase實現原理;4.HBase運行機制;5.HBase應用
五、MapReduce :1.MapReduce體系結構;2.MapReduce工作流程;3.資源管理調度框架YARN ;4.MapReduce應用
六、Spark :1.Spark生態與運行架構;2.Spark SQL;3.Spark部署與應用方式
七、IPython Notebook運行Python Spark程序:1.Anaconda;2.IPython Notebook使用Spark;3.使用IPython Notebook在Hadoop YARN模式運行
八、Python Spark集成開發環境 :1.Python Spark集成開發環境部署配置;2.Spark數據分析庫MLlib的開發部署
九、Python Spark決策樹二分類與多分類 :1.決策樹原理;2.大數據問題;3.決策樹二分類;4.決策樹多分類
十、Python Spark支持向量機 :1.支持向量機SVM 原理與算法;2.Python Spark SVM程序設計
十一、Python Spark 貝葉斯模型 :1.樸素貝葉斯模型原理;2.Python Spark貝葉斯模型程序設計
十二、Python Spark邏輯回歸 :1.邏輯回歸原理;2.Python Spark邏輯回歸程序設計
十三、Python Spark回歸分析 :1.大數據分析;2.數據集介紹;3.Python Spark回歸程序設計
十四、Spark ML Pipeline 機器學習流程分類 :1.機器學習流程組件:StringIndexer、OneHotEncoder、VectorAssembler等
2.使用Spark ML Pipeline 機器學習流程分類程序設計
十五、Python Spark 創建推薦引擎 :1.推薦算法;2.推薦引擎大數據分析使用場景;3.推薦引擎設計
十六、項目實踐:1.日志分析系統與日志挖掘項目實踐;2.推薦系統項目實踐
審核編輯 黃昊宇
-
決策樹
+關注
關注
3文章
96瀏覽量
13552 -
大數據
+關注
關注
64文章
8889瀏覽量
137446
發布評論請先 登錄
相關推薦
評論