在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習的建模流程是怎樣的?

新機器視覺 ? 來源:算法進階 ? 作者:算法進階 ? 2021-06-23 15:50 ? 次閱讀

前言

機器學習作為人工智能領域的核心組成,是計算機程序學習數據經驗以優化自身算法,并產生相應的“智能化的”建議與決策的過程。

一個經典的機器學習的定義是:

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

一、機器學習概論

機器學習是關于計算機基于數據分布構建出概率統計模型,并運用模型對數據進行分析與預測的方法。按照學習數據分布的方式的不同,主要可以分為監督學習和非監督學習:

1.1 監督學習

從有標注的數據(x為變量特征空間, y為標簽)中,通過選擇的模型及確定的學習策略,再用合適算法計算后學習到最優模型,并用模型預測的過程。模型預測結果Y的取值有限的或者無限的,可分為分類模型或者回歸模型;

1.2 非監督學習:

從無標注的數據(x為變量特征空間),通過選擇的模型及確定的學習策略,再用合適算法計算后學習到最優模型,并用模型發現數據的統計規律或者內在結構。按照應用場景,可以分為聚類,降維和關聯分析等模型;

二、機器學習建模流程

2.1 明確業務問題

明確業務問題是機器學習的先決條件,這里需要抽象出現實業務問題的解決方案:需要學習什么樣的數據作為輸入,目標是得到什么樣的模型做決策作為輸出。

(如一個簡單的新聞分類場景就是學習已有的新聞及其類別標簽數據,得到一個分類模型,通過模型對每天新的新聞做類別預測,以歸類到每個新聞頻道。)

2.2 數據選擇:收集及輸入數據

數據決定了機器學習結果的上限,而算法只是盡可能逼近這個上限。意味著數據的質量決定了模型的最終效果,在實際的工業應用中,算法通常占了很小的一部分,大部分工程師的工作都是在找數據、提煉數據、分析數據。數據選擇需要關注的是:

① 數據的代表性:無代表性的數據可能會導致模型的過擬合,對訓練數據之外的新數據無識別能力;

② 數據時間范圍:監督學習的特征變量X及標簽Y如與時間先后有關,則需要明確數據時間窗口,否則可能會導致數據泄漏,即存在和利用因果顛倒的特征變量的現象。(如預測明天會不會下雨,但是訓練數據引入明天溫濕度情況);

③ 數據業務范圍:明確與任務相關的數據表范圍,避免缺失代表性數據或引入大量無關數據作為噪音;

2.3 特征工程:數據預處理及特征提取

特征工程就是將原始數據加工轉化為模型有用的特征,技術手段一般可分為:

數據預處理:特征表示,缺失值/異常值處理,數據離散化,數據標準化等;特征提取:特征衍生,特征選擇,特征降維等;

特征表示

數據需要轉換為計算機能夠處理的數值形式。如果數據是圖片數據需要轉換為RGB三維矩陣的表示。

字符類的數據可以用多維數組表示,有Onehot獨熱編碼表示、word2vetor分布式表示及bert動態編碼等;

異常值處理

收集的數據由于人為或者自然因素可能引入了異常值(噪音),這會對模型學習進行干擾。

通常需要對人為引起的異常值進行處理,通過業務判斷和技術手段(python、正則式匹配、pandas數據處理及matplotlib可視化等數據分析處理技術)篩選異常的信息,并結合業務情況刪除或者替換數值。

缺失值處理

數據缺失的部分,通過結合業務進行填充數值、不做處理或者刪除。根據缺失率情況及處理方式分為以下情況:

① 缺失率較高,并結合業務可以直接刪除該特征變量。經驗上可以新增一個bool類型的變量特征記錄該字段的缺失情況,缺失記為1,非缺失記為0;

② 缺失率較低,結合業務可使用一些缺失值填充手段,如pandas的fillna方法、訓練隨機森林模型預測缺失值填充;

③ 不做處理:部分模型如隨機森林、xgboost、lightgbm能夠處理數據缺失的情況,不需要對缺失數據做任何的處理。

數據離散化

數據離散化能減小算法的時間和空間開銷(不同算法情況不一),并可以使特征更有業務解釋性。

離散化是將連續的數據進行分段,使其變為一段段離散化的區間,分段的原則有等距離、等頻率等方法。

數據標準化

數據各個特征變量的量綱差異很大,可以使用數據標準化消除不同分量量綱差異的影響,加速模型收斂的效率。常用的方法有:

① min-max 標準化:

將數值范圍縮放到(0,1),但沒有改變數據分布。max為樣本最大值,min為樣本最小值。

48509d66-d3f7-11eb-9e57-12bb97331649.png

② z-score 標準化:

將數值范圍縮放到0附近, 經過處理的數據符合標準正態分布。u是平均值,σ是標準差。

486302ee-d3f7-11eb-9e57-12bb97331649.png

特征衍生

基礎特征對樣本信息的表述有限,可通過特征衍生出新含義的特征進行補充。特征衍生是對現有基礎特征的含義進行某種處理(組合/轉換之類),常用方法如:

① 結合業務的理解做衍生,比如通過12個月工資可以加工出:平均月工資,薪資變化值,是否發工資 等等;

② 使用特征衍生工具:如feature tools等技術;

特征選擇

特征選擇篩選出顯著特征、摒棄非顯著特征。特征選擇方法一般分為三類:

① 過濾法:按照特征的發散性或者相關性指標對各個特征進行評分后選擇,如方差驗證、相關系數、IV值、卡方檢驗及信息增益等方法。

② 包裝法:每次選擇部分特征迭代訓練模型,根據模型預測效果評分選擇特征的去留。

③ 嵌入法:使用某些模型進行訓練,得到各個特征的權值系數,根據權值系數從大到小來選擇特征,如XGBOOST特征重要性選擇特征。

特征降維

如果特征選擇后的特征數目仍太多,這種情形下經常會有數據樣本稀疏、距離計算困難的問題(稱為 “維數災難”),可以通過特征降維解決。常用的降維方法有:主成分分析法(PCA), 線性判別分析法(LDA)等。

2.4 模型訓練

模型訓練是選擇模型學習數據分布的過程。這過程還需要依據訓練結果調整算法的(超)參數,使得結果變得更加優良。

2.4.1數據集劃分

訓練模型前,一般會把數據集分為訓練集和測試集,并可再對訓練集再細分為訓練集和驗證集,從而對模型的泛化能力進行評估。

① 訓練集(training set):用于運行學習算法。

② 開發驗證集(development set)用于調整參數,選擇特征以及對算法其它優化。常用的驗證方式有交叉驗證Cross-validation,留一法等;

③ 測試集(test set)用于評估算法的性能,但不會據此改變學習算法或參數。

2.4.2模型選擇

常見的機器學習算法如下:

模型選擇取決于數據情況和預測目標。可以訓練多個模型,根據實際的效果選擇表現較好的模型或者模型融合。

模型選擇

2.4.3模型訓練

訓練過程可以通過調參進行優化,調參的過程是一種基于數據集、模型和訓練過程細節的實證過程。超參數優化需要基于對算法的原理的理解和經驗,此外還有自動調參技術:網格搜索、隨機搜索及貝葉斯優化等。

2.5 模型評估

模型評估的標準:模型學習的目的使學到的模型對新數據能有很好的預測能力(泛化能力)。現實中通常由訓練誤差及測試誤差評估模型的訓練數據學習程度及泛化能力。

2.5.1評估指標

① 評估分類模型:常用的評估標準有查準率P、查全率R、兩者調和平均F1-score 等,并由混淆矩陣的統計相應的個數計算出數值:

混淆矩陣

查準率是指分類器分類正確的正樣本(TP)的個數占該分類器所有預測為正樣本個數(TP+FP)的比例;

查全率是指分類器分類正確的正樣本個數(TP)占所有的正樣本個數(TP+FN)的比例。

F1-score是查準率P、查全率R的調和平均:496df1c6-d3f7-11eb-9e57-12bb97331649.png

② 評估回歸模型:常用的評估指標有RMSE均方根誤差 等。反饋的是預測數值與實際值的擬合情況。

497b01cc-d3f7-11eb-9e57-12bb97331649.png

③ 評估聚類模型:可分為兩類方式,一類將聚類結果與某個“參考模型”的結果進行比較,稱為“外部指標”(external index):如蘭德指數,FM指數 等;另一類是直接考察聚類結果而不利用任何參考模型,稱為“內部指標”(internal index):如緊湊度、分離度 等。

2.5.2模型評估及優化

根據訓練集及測試集的指標表現,分析原因并對模型進行優化,常用的方法有:

2.6 模型決策

決策是機器學習最終目的,對模型預測信息加以分析解釋,并應用于實際的工作領域。

需要注意的是工程上是結果導向,模型在線上運行的效果直接決定模型的成敗,不僅僅包括其準確程度、誤差等情況,還包括其運行的速度(時間復雜度)、資源消耗程度(空間復雜度)、穩定性的綜合考慮。

責任編輯:lq6

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1792

    文章

    47373

    瀏覽量

    238875
  • 機器學習
    +關注

    關注

    66

    文章

    8423

    瀏覽量

    132751

原文標題:機器學習入門指南(全)

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    傳統機器學習方法和應用指導

    在上一篇文章中,我們介紹了機器學習的關鍵概念術語。在本文中,我們會介紹傳統機器學習的基礎知識和多種算法特征,供各位老師選擇。 01 傳統機器
    的頭像 發表于 12-30 09:16 ?232次閱讀
    傳統<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應用指導

    如何選擇云原生機器學習平臺

    當今,云原生機器學習平臺因其彈性擴展、高效部署、低成本運營等優勢,逐漸成為企業構建和部署機器學習應用的首選。然而,市場上的云原生機器
    的頭像 發表于 12-25 11:54 ?119次閱讀

    構建云原生機器學習平臺流程

    構建云原生機器學習平臺是一個復雜而系統的過程,涉及數據收集、處理、特征提取、模型訓練、評估、部署和監控等多個環節。
    的頭像 發表于 12-14 10:34 ?143次閱讀

    什么是機器學習?通過機器學習方法能解決哪些問題?

    來源:Master編程樹“機器學習”最初的研究動機是讓計算機系統具有人的學習能力以便實現人工智能。因為沒有學習能力的系統很難被認為是具有智能的。目前被廣泛采用的
    的頭像 發表于 11-16 01:07 ?443次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?

    SOLIDWORKS 2025優化的設計與建模流程

    在快速發展的制造業環境中,設計效率與創新力成為了企業競爭力的關鍵因素。SOLIDWORKS 2025作為一款先進的3D CAD設計軟件,通過其優化的設計與建模流程,為設計師和工程師提供了一個更加有效、智能的工作環境,推動了產品設計創新的步伐。
    的頭像 發表于 11-15 14:49 ?228次閱讀

    NPU與機器學習算法的關系

    在人工智能領域,機器學習算法是實現智能系統的核心。隨著數據量的激增和算法復雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習機器
    的頭像 發表于 11-15 09:19 ?499次閱讀

    eda在機器學習中的應用

    機器學習項目中,數據預處理和理解是成功構建模型的關鍵。探索性數據分析(EDA)是這一過程中不可或缺的一部分。 1. 數據清洗 數據清洗 是機器學習
    的頭像 發表于 11-13 10:42 ?326次閱讀

    Matlab/Simulink/Stateflow建模開發及仿真測試

    matlab 模擬仿真 熟悉Matlab/Simulink/Stateflow建模開發及仿真測試,熟悉V模型開發流程。 熟悉自動代碼生成,能夠編寫或者配置自動代碼生成腳本。
    發表于 10-24 17:23

    如何理解機器學習中的訓練集、驗證集和測試集

    理解機器學習中的訓練集、驗證集和測試集,是掌握機器學習核心概念和流程的重要一步。這三者不僅構成了模型學習
    的頭像 發表于 07-10 15:45 ?4278次閱讀

    機器學習中的數據預處理與特征工程

    機器學習的整個流程中,數據預處理與特征工程是兩個至關重要的步驟。它們直接決定了模型的輸入質量,進而影響模型的訓練效果和泛化能力。本文將從數據預處理和特征工程的基本概念出發,詳細探討這兩個步驟的具體內容、方法及其在
    的頭像 發表于 07-09 15:57 ?465次閱讀

    機器學習算法原理詳解

    機器學習作為人工智能的一個重要分支,其目標是通過讓計算機自動從數據中學習并改進其性能,而無需進行明確的編程。本文將深入解讀幾種常見的機器學習
    的頭像 發表于 07-02 11:25 ?1117次閱讀

    深度學習與傳統機器學習的對比

    在人工智能的浪潮中,機器學習和深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步,為眾多領域帶來了革命性的變化。然而,盡管它們都屬于機器
    的頭像 發表于 07-01 11:40 ?1423次閱讀

    FPGA的學習筆記---FPGA的開發流程

    與通常的單片機應用開發不同,FPGA有自己的開發流程。但具體上怎樣操作,作為初學者,沒有一點經驗。網站獎勵的清華FPGA需要的開發軟件,到目前還沒有安裝成功。暫且先看看相關學習,慢慢積累這方面的知識
    發表于 06-23 14:47

    英飛凌科技旗下Imagimob可視化Graph UX改變邊緣機器學習建模

    。用戶現在可以將他們的機器學習(ML)建模流程可視化,并利用各種先進功能更加高效、快速地開發適用于邊緣設備的模型。Imagimob邊緣設備AI/ML開發平臺的最新版本對用戶體驗進行了一
    發表于 02-19 14:08 ?325次閱讀
    英飛凌科技旗下Imagimob可視化Graph UX改變邊緣<b class='flag-5'>機器</b><b class='flag-5'>學習</b><b class='flag-5'>建模</b>

    數據預處理和特征工程的常用功能

    機器學習最基礎的5個流程,分別是數據獲取,數據預處理,特征工程,建模、測試和預測,上線與部署。
    的頭像 發表于 01-25 11:26 ?773次閱讀
    主站蜘蛛池模板: 日韩毛片免费| 欧美性狂猛bbbbbxxxxx| 日本免费一区视频| 男女交性视频播放视频视频| 狠狠狠狠狠狠| 久久综合九色综合网站| 狠狠丁香激情久久综合| 国产怡红院| 日韩精品一级a毛片| 日韩黄色成人| 美女h片| 韩国三级视频在线| ts在线视频| 日本天天射| 3344a毛片在线看| 国产视频h| 国产精品一久久香蕉产线看| 亚洲国产丝袜精品一区杨幂| 欧美呜巴又大粗又长| 不卡视频免费在线观看| 亚洲亚洲人成网站在线观看| 在线资源你懂的| 亚州色吧| 香蕉色网| 欧美性video精品| 国产在线一卡二卡| 天天做天天爱天天影视综合| 国产欧美一级片| 亚洲专区一| 亚洲人成电影在在线观看网色| 四虎库| 黄色短视频免费看| 午夜久| 午夜国产精品久久影院| 免费在线a视频| eee在线播放成人免费| 国产福利vr专区精品| 色偷偷91综合久久噜噜噜男男| avt天堂网| 好硬好湿好爽再深一点h| 啪啪网站色大全免费|