在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

關于機器學習的超全總結

nlfO_thejiangme ? 來源:未知 ? 作者:李倩 ? 2018-11-10 10:55 ? 次閱讀

時光飛逝,學習機器學習已四年有余,深感機器學習之博大精深,可能不斷學習數十年也無法窮盡。但從另一方面考慮,我也學了很多,也有一些自己的感悟。本文謹代表我個人的觀點和感悟,希望對大家(尤其是初學者)有所幫助,歡迎大家一起討論與學習~

本文的目錄如下:

1. 綜述

1.1機器學習是什么

1.2 機器學習的過程

1.3監督學習VS無監督學習

根據訓練數據是否有標記,機器學習任務大致分為兩大類:監督學習和非監督學習,監督學習主要包括分類和回歸等,非監督學習主要包括聚類和頻繁項集挖掘等。

監督學習的過程如下:

無監督學習的過程如下:

監督學習算法VS無監督學習算法:

1.4輸入空間、特征空間、輸出空間、假設空間

輸入空間:在監督學習中,將輸入所有可能取值的集合稱為輸入空間。

特征空間:每個具體輸入是一實例,通常用特征向量表示,所有特征向量存在的

空間為特征空間。有時輸入空間和特征空間為相同的空間,有時為不同的空間,需要將實例從輸入空間映射到輸出空間。

輸出空間:在監督學習中,將輸出所有可能取值的集合稱為輸出空間。

假設空間:監督學習的目的在于學習一個由輸入到輸出的映射,這一映射由模型來表示。由輸入空間到輸出空間的映射的集合,稱為假設空間。舉個簡單的例子,在一元線性回歸中,假設空間即所有的直線y=ax+b組成的集合,我們的目標就是找到一條y=a'x+b',使得損失最小。

1.5生成模型和判別模型

生成模型:生成模型由數據學習聯合概率分布P(X,Y),然后求出條件概率分布P(Y|X)作為預測的模型。之所以被稱為生成方法,是因為模型表示了給定輸入X產生輸出Y的關系。典型的模型有樸素貝葉斯(NB)和隱馬爾可夫模型(HMM)等。

判別模型:判別模型由數據直接學習決策函數f(X),或條件概率分布P(Y|X)。判別方法關心的是對給定的輸入X,應預測什么樣的輸出Y。典型的判別模型包括k近鄰算法(KNN)、決策樹(DT)、邏輯回歸(LR)、支持向量機(SVM)等。

1.6 過擬合VS欠擬合

解決過擬合:重新清洗數據、增大樣本量、減少特征的量、增強正則化作用、dropout(適用于神經網絡)等。

解決欠擬合:使用更復雜的模型、更有效的特征選擇、減少正則化作用等。

1.7 特征選擇

特征選擇對機器學習至關重要,個人認為在大部分機器學習任務中特征就決定了效果的上限,模型的選擇與組合只是無限逼近于這個上限。

特征選擇的主要作用包括:減少特征數量會防止維度災難,減少訓練時間;增強模型泛化能力,減少過擬合;增強對特征和特征值的理解。

常見的特征選擇方法如下:

去除取值變化小的特征:如果絕大部分實例的某個特征取值一樣,那這個特征起到的作用可能就比較有限,極端情況下如果所有實例的某特征取值都一樣,那該特征基本就不起作用。

單變量特征選擇法:能夠對每一個特征進行測試,衡量該特征和響應變量之間的關系,根據得分扔掉不好的特征。常見方法包括卡法檢驗、互信息、皮爾森相關系數、距離相關系數、基于學習模型的特征排序(Model based ranking)等。

正則化:L1正則化、L2正則化。

隨機森林特征選擇:這類方法主要包括平均不純度減少(mean decrease impurity)和平均精確率減少(Mean decrease accuracy)兩種方法。

頂層特征選擇法:這類方法主要包括穩定性選擇(Stability selection)和遞歸特征消除(Recursive feature elimination)兩種方法。

1.8 方差vs偏差

偏差描述的是算法預測的平均值和真實值的差距(算法的擬合能力),低偏差對應于模型復雜化,但模型過于復雜容易過擬合。

而方差描述的是同一個算法在不同數據集上的預測值和所有數據集上的平均預測值之間的關系(算法的穩定性),低方差對應于模型簡單化,但模型過于簡單容易欠擬合。

高偏差(一般是欠擬合,注意跟上面低偏差時模型復雜化做區別)是模型在訓練集和驗證集上的誤差都比較大,隨著數據集的增加,模型在訓練集和驗證集上的誤差表現如下:

解決高偏差的方法:使用更多特征,增加多項式特征,減少正則化程度λ。

高方差是針對不同的訓練集,其擬合得到的參數相差很大(一般是過擬合,注意跟上面低方差時模型簡單化做區別)。隨著數據集的增加,模型在訓練集和驗證集上的誤差表現如下:

解決高偏差的方法:增加訓練樣本,減少特征數量,增加正則化程度λ

2. 機器學習任務分類

2.1 按學習方式分類

2.2 按算法思想分類

3. 損失函數

損失函數用來評價模型的預測值和真實值不一樣的程度,損失函數越好,通常模型的性能越好。不同的模型用的損失函數一般也不一樣。

損失函數分為經驗風險損失函數和結構風險損失函數。經驗風險損失函數指預測結果和實際結果的差別,結構風險損失函數是指經驗風險損失函數加上正則項。通常表示為如下:

3.1 0-1損失函數

0-1損失是指預測值和目標值不相等為1,否則為0:

3.2 絕對值損失函數

絕對值損失函數是計算預測值與目標值的差的絕對值:

3.3 log對數損失函數

log損失函數的標準形式如下:

3.4 平方損失函數

平方損失函數經常應用于回歸問題,它的標準形式如下:

3.5 指數損失函數

指數損失函數的標準形式如下:

3.6 Hinge損失函數

Hinge損失函數標準形式如下:

損失函數的選擇,對一般機器學習任務非常重要。很多任務就是難在不太容易確定一個比較好的損失函數。

4.監督學習

4.1監督學習的任務分類

常見監督學習任務的分類以及他們之間的對比如下;

4.2 監督學習算法

監督學習的算法非常多,后續也會有選擇的分享我對一些常見算法的感悟。常見的監督學習算法具體如下:

4.3 監督學習的評估

監督學習的效果評估如下:

5.無監督學習

5.1 無監督學習的任務分類

常見的無監督學習的任務分類如下:

5.2 聚類

無監督學習—聚類

5.3 推薦

無監督學習—推薦

5.4 頻繁項集挖掘

無監督學習—頻繁項集挖掘

6.總結與思考

6.1總結

6.2 思考

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 函數
    +關注

    關注

    3

    文章

    4331

    瀏覽量

    62618
  • 機器學習
    +關注

    關注

    66

    文章

    8418

    瀏覽量

    132635

原文標題:知識點 | 關于機器學習的超全總結

文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Wifi模塊全總結

    Wifi模塊全總結
    發表于 08-23 10:03

    機器學習參數的如何選擇

    機器學習參數的選擇,余弦距離vs歐式距離vs曼哈頓距離
    發表于 04-24 07:58

    機器學習之高級算法課程學習總結

    機器學習:高級算法課程學習總結
    發表于 05-05 17:17

    改善深層神經網絡--參數優化、batch正則化和程序框架 學習總結

    《深度學習工程師-吳恩達》02改善深層神經網絡--參數優化、batch正則化和程序框架 學習總結
    發表于 06-16 14:52

    機器學習小白的總結

    機器學習小白第一周自我總結
    發表于 07-08 08:27

    模擬電子電路全總結

    模擬電子的相關知識學習教材資料——模擬電子電路全總結
    發表于 09-20 16:10 ?0次下載

    基于Android安全總結與分析

    ,Android智能手機的日益流行也吸引了黑客,導致Android惡意軟件應用的大量增加,從Android體系結構、設計原則、安全機制、主要威脅、惡意軟件分類與檢測、靜態分析與動態分析、機器學習方法、安全擴展方案等多維角度對Android安全的最新研究進展進行了
    發表于 01-18 16:58 ?3次下載

    關于Linux下多線程編程技術學習總結

    Linux下多線程編程技術 作為一個IT人員,不斷的學習總結是我們這個職業習慣,所以我會將每個階段的學習都會通過一點的總結來記錄和檢測自己的學習
    發表于 04-22 03:12 ?2206次閱讀
    <b class='flag-5'>關于</b>Linux下多線程編程技術<b class='flag-5'>學習</b><b class='flag-5'>總結</b>

    機器學習的12大經驗總結

    本文整理了關于機器學習研究者和從業者的 12 個寶貴經驗,包括需要避免的陷阱、需要關注的重點問題、常見問題的答案。希望這些經驗對機器學習愛好
    的頭像 發表于 12-13 15:29 ?2685次閱讀

    機器學習的logistic函數和softmax函數總結

    本文簡單總結機器學習最常見的兩個函數,logistic函數和softmax函數。首先介紹兩者的定義和應用,最后對兩者的聯系和區別進行了總結。
    的頭像 發表于 12-30 09:04 ?9772次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>的logistic函數和softmax函數<b class='flag-5'>總結</b>

    機器學習研究中常見的七大謠傳總結

    學習深度學習的過程中,我們常會遇到各種謠傳,也會遇到各種想當然的「執念」。在本文中,作者總結機器學習研究中常見的七大謠傳,他們很多都是我
    的頭像 發表于 02-26 14:05 ?2848次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>研究中常見的七大謠傳<b class='flag-5'>總結</b>

    關于STM32的FLASH程序(實用)

    關于STM32的FLASH程序(實用)(嵌入式開發應用培訓)-關于STM32的FLASH程序(實用),適合感興趣的學習
    發表于 08-04 12:03 ?24次下載
    <b class='flag-5'>關于</b>STM32的FLASH程序(<b class='flag-5'>超</b>實用)

    RT-Thread學習筆記 --(6)RT-Thread線程間通信學習過程總結

    前兩篇文章總結了RT-Thread多線程以及多線程同步的學習過程,關于前兩篇學習總結,可以查看之前的文章。
    發表于 01-25 18:50 ?7次下載
    RT-Thread<b class='flag-5'>學習</b>筆記 --(6)RT-Thread線程間通信<b class='flag-5'>學習</b>過程<b class='flag-5'>總結</b>

    機器學習算法總結 機器學習算法是什么 機器學習算法優缺點

    機器學習算法總結 機器學習算法是什么?機器學習算法優
    的頭像 發表于 08-17 16:11 ?1919次閱讀

    機器學習8大調參技巧

    今天給大家一篇關于機器學習調參技巧的文章。參數調優是機器學習例程中的基本步驟之一。該方法也稱為
    的頭像 發表于 03-23 08:26 ?624次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>8大調參技巧
    主站蜘蛛池模板: 午夜私人影院| 日韩h视频| 国产精品久久久久影院免费| 人人干干| 精品国产第一国产综合精品gif | 午夜一级毛片不卡| 天天摸夜夜爽| 黑色丝袜美女被网站| 97一区二区三区| 四虎电影院| 欧美3d动漫网站| 国产美女免费观看| 午夜精品aaa国产福利| 丁香六月综合网| 年轻护士女三级| 四虎永久在线观看免费网站网址| 欧美性久久| 91激情在线| 黄色成人一级片| 亚洲高清色| 看天堂| 4虎最新地址| 中文一区二区在线观看| 在线成人看片| 欧美在线视频免费| 成年大片免费播放视频人| 人人弄| 一级特黄aa大片| 免费观看a黄一级视频| 一级特黄a免费大片| 夜夜夜夜曰天天天天拍国产| 在线观看免费av网站| 女人夜夜春| 国产激情久久久久影院小草| 天天摸天天碰色综合网| 国产一级在线观看www色| 女女色综合影院| 男男浪荡双性受hplay| 日本国产黄色片| 天天做天天爱天天爽天天综合 | 伊人网综合在线|