在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

想掌握機(jī)器學(xué)習(xí)技術(shù)?從了解特征工程開始

格創(chuàng)東智 ? 2018-12-05 09:36 ? 次閱讀

本文作者:格創(chuàng)東智科技有限公司 OT團(tuán)隊(duì)


人工智能是過去兩到三年時(shí)間內(nèi)科技行業(yè)最熱的話題。而人工智能技術(shù)進(jìn)步的背后,實(shí)質(zhì)上是機(jī)器學(xué)習(xí)快速發(fā)展后所帶來的巨大提升。


機(jī)器學(xué)習(xí)被廣泛定義為“利用經(jīng)驗(yàn)來改善計(jì)算機(jī)系統(tǒng)的自身性能”。事實(shí)上,“經(jīng)驗(yàn)”在計(jì)算機(jī)中主要是以數(shù)據(jù)的形式存在的,因此數(shù)據(jù)是機(jī)器學(xué)習(xí)的前提和基礎(chǔ)。

在第一期格物匯的文章中,我們介紹了工業(yè)數(shù)據(jù)預(yù)處理的方法,主要針對數(shù)據(jù)格式異常,數(shù)據(jù)內(nèi)容異常等問題進(jìn)行了簡要探討。做數(shù)據(jù)預(yù)處理的主要目的是將雜亂無章的數(shù)據(jù)規(guī)整成我們想要的矩陣、表格、張量等結(jié)構(gòu),方便在之后的機(jī)器學(xué)習(xí)中進(jìn)行模型訓(xùn)練。然而數(shù)據(jù)中的問題還包含了冗余,噪聲,高維度,體量大等很多問題。解決這些問題的方法與數(shù)據(jù)預(yù)處理的方法在機(jī)器學(xué)習(xí)中被統(tǒng)稱為特征工程,今天我們就來了解一下吧。


特征工程是什么


當(dāng)你想要你的預(yù)測模型性能達(dá)到最佳時(shí),你要做的不僅是要選取最好的算法,還要盡可能的從原始數(shù)據(jù)中獲取更多的信息。那么問題來了,你應(yīng)該如何為你的預(yù)測模型得到更好的數(shù)據(jù)呢?這就是特征工程要做的事,它的目的就是獲取更好的訓(xùn)練數(shù)據(jù)

維基百科中給特征工程做出了簡單定義:特征工程是利用數(shù)據(jù)領(lǐng)域的相關(guān)知識(shí)來創(chuàng)建能夠使機(jī)器學(xué)習(xí)算法達(dá)到最佳性能的特征的過程。簡而言之,特征工程就是一個(gè)把原始數(shù)據(jù)轉(zhuǎn)變成特征的過程,這些特征可以很好的描述這些數(shù)據(jù),并且利用它們建立的模型在未知數(shù)據(jù)上的表現(xiàn)性能可以達(dá)到最優(yōu)(或者接近最佳性能)。從數(shù)學(xué)的角度來看,特征工程就是人工地去設(shè)計(jì)輸入變量X


特征工程的重要性


關(guān)于特征工程(Feature Engineering),已經(jīng)是很古老很常見的話題了,坊間常說:“數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限而已”。由此可見,特征工程在機(jī)器學(xué)習(xí)中占有相當(dāng)重要的地位


1、特征越好,靈活性越強(qiáng)

只要特征選得好,即使是一般的模型(或算法)也能獲得很好的性能,因?yàn)榇蠖鄶?shù)模型(或算法)在好的數(shù)據(jù)特征下表現(xiàn)的性能都還不錯(cuò)。好特征的靈活性在于它允許你選擇不復(fù)雜的模型,同時(shí)運(yùn)行速度也更快,也更容易理解和維護(hù)。


2、特征越好,構(gòu)建的模型越簡單

有了好的特征,即便你的參數(shù)不是最優(yōu)的,你的模型性能也能仍然會(huì)表現(xiàn)的很nice,所以你就不需要花太多的時(shí)間去尋找最有參數(shù),這大大的降低了模型的復(fù)雜度,使模型趨于簡單。


3、特征越好,模型的性能越出色

顯然,這一點(diǎn)是毫無爭議的,我們進(jìn)行特征工程的最終目的就是提升模型的性能。


特征工程怎么做

既然特征工程這么重要,那么我們就來看看特征工程到底是如何實(shí)現(xiàn)或者工作的。特征工程到底分為哪些內(nèi)容?我們大致可以參考如下流程圖來看看。



簡單來說,特征處理主要分如下三個(gè)方法:

特征構(gòu)建

特征構(gòu)建是指從原始數(shù)據(jù)中人工的找出一些具有實(shí)際意義的特征。需要花時(shí)間去觀察原始數(shù)據(jù),思考問題的潛在形式和數(shù)據(jù)結(jié)構(gòu),對數(shù)據(jù)敏感性和機(jī)器學(xué)習(xí)實(shí)戰(zhàn)經(jīng)驗(yàn)?zāi)軒椭卣鳂?gòu)建。除此之外,屬性分割和結(jié)合是特征構(gòu)建時(shí)常使用的方法。特征構(gòu)建是個(gè)非常麻煩的問題,書里面也很少提到具體的方法,需要對問題有比較深入的理解。

特征抽取

一些觀測數(shù)據(jù)如果直接建模,其原始狀態(tài)的數(shù)據(jù)太多。像圖像、音頻和文本數(shù)據(jù),如果將其看做是表格數(shù)據(jù),那么其中包含了數(shù)以千計(jì)的屬性。特征抽取是自動(dòng)地對原始觀測降維,使其特征集合小到可以進(jìn)行建模的過程。通常可采用主成分分析(PCA)、線性判別分析(LDA))等方法;對于圖像數(shù)據(jù),可以進(jìn)行線(line)或邊緣(edge)的提取;根據(jù)相應(yīng)的領(lǐng)域,圖像、視頻和音頻數(shù)據(jù)可以有很多數(shù)字信號(hào)處理的方法對其進(jìn)行處理。

特征選擇

不同的特征對模型的準(zhǔn)確度的影響不同,有些特征與要解決的問題不相關(guān),有些特征是冗余信息,這些特征都應(yīng)該被移除掉。特征選擇是自動(dòng)地選擇出對于問題最重要的那些特征子集的過程。常用的特征選擇方法可以分為3類:過濾式(filter)、包裹式(wrapper)和嵌入式(embedding)。


小結(jié)

總的來說,數(shù)據(jù)會(huì)存在各種各樣的問題,針對這些問題我們的特征工程給出了相應(yīng)的解決辦法:1.特征解釋能力不足,我們可以嘗試使用特征構(gòu)建,對數(shù)據(jù)進(jìn)行升維來提升特征解釋能力;2.特征冗余,維度太高,噪聲太多,我們可以通過特征抽取和特征選擇,來對數(shù)據(jù)進(jìn)行降維去噪,提煉特征。當(dāng)然還有其他的特征處理方法,一般需要根據(jù)具體問題而定。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評論

    相關(guān)推薦

    用于課題的無線轉(zhuǎn)速霍爾傳感器,新人應(yīng)該哪里開始學(xué)習(xí)

    完全沒電路的基礎(chǔ),但是課題上導(dǎo)師要求設(shè)計(jì)一款無線的霍爾轉(zhuǎn)速傳感器,電池供電然后通過無線技術(shù)去讀取傳感器上的轉(zhuǎn)速。請教下各位大佬應(yīng)該哪里開始學(xué)習(xí)
    發(fā)表于 01-08 10:36

    飛凌嵌入式-ELFBOARD-ELF 2硬件分享之前言

    不同電路原理的增多,各種器件的特性和原理便會(huì)熟記于心。 此外,掌握模擬電子技術(shù)也是硬件設(shè)計(jì)的基礎(chǔ)。了解最基本的元件開始,如電阻、電容、電感
    發(fā)表于 12-02 13:34

    數(shù)據(jù)準(zhǔn)備指南:10種基礎(chǔ)特征工程方法的實(shí)戰(zhàn)教程

    在數(shù)據(jù)分析和機(jī)器學(xué)習(xí)領(lǐng)域,原始數(shù)據(jù)中提取有價(jià)值的信息是一個(gè)關(guān)鍵步驟。這個(gè)過程不僅有助于輔助決策,還能預(yù)測未來趨勢。為了實(shí)現(xiàn)這一目標(biāo),特征工程技術(shù)
    的頭像 發(fā)表于 11-01 08:09 ?308次閱讀
    數(shù)據(jù)準(zhǔn)備指南:10種基礎(chǔ)<b class='flag-5'>特征</b><b class='flag-5'>工程</b>方法的實(shí)戰(zhàn)教程

    人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)存在什么區(qū)別

    人工智能指的是在某種程度上顯示出類似人類智能的設(shè)備。AI有很多技術(shù),但其中一個(gè)很大的子集是機(jī)器學(xué)習(xí)——讓算法數(shù)據(jù)中學(xué)習(xí)
    發(fā)表于 10-24 17:22 ?2517次閱讀
    人工智能、<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>存在什么區(qū)別

    特征工程實(shí)施步驟

    數(shù)據(jù)中提取數(shù)值表示以供無監(jiān)督模型使用的方法(例如,試圖之前非結(jié)構(gòu)化的數(shù)據(jù)集中提取結(jié)構(gòu))。特征工程包括這兩種情況,以及更多內(nèi)容。數(shù)據(jù)從業(yè)者通常依賴ML和深度學(xué)習(xí)算法
    的頭像 發(fā)表于 10-23 08:07 ?333次閱讀
    <b class='flag-5'>特征</b><b class='flag-5'>工程</b>實(shí)施步驟

    【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】時(shí)間序列的信息提取

    個(gè)重要環(huán)節(jié),目標(biāo)是給定的時(shí)間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析和預(yù)測任務(wù)。 特征工程(Feature Engineering)是將數(shù)據(jù)轉(zhuǎn)換為更好地表示潛在問題的
    發(fā)表于 08-17 21:12

    【《時(shí)間序列與機(jī)器學(xué)習(xí)》閱讀體驗(yàn)】+ 時(shí)間序列的信息提取

    本人有些機(jī)器學(xué)習(xí)的基礎(chǔ),理解起來一點(diǎn)也不輕松,加油。 作者首先說明了時(shí)間序列的信息提取是時(shí)間序列分析的一個(gè)重要環(huán)節(jié),目標(biāo)是給定的時(shí)間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析
    發(fā)表于 08-14 18:00

    【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】全書概覽與時(shí)間序列概述

    他領(lǐng)域(如自然語言處理、計(jì)算機(jī)視覺等)的關(guān)聯(lián)。 ●第2章“時(shí)間序列的信息提取”:介紹特征工程的核心概念及其在時(shí)間序列分析中的廣用,比如對原始數(shù)據(jù)進(jìn)行歸一化、缺失值填充等轉(zhuǎn)換;以及如何通過特征
    發(fā)表于 08-07 23:03

    機(jī)器學(xué)習(xí)中的數(shù)據(jù)預(yù)處理與特征工程

    機(jī)器學(xué)習(xí)的整個(gè)流程中,數(shù)據(jù)預(yù)處理與特征工程是兩個(gè)至關(guān)重要的步驟。它們直接決定了模型的輸入質(zhì)量,進(jìn)而影響模型的訓(xùn)練效果和泛化能力。本文將從數(shù)據(jù)預(yù)處理和
    的頭像 發(fā)表于 07-09 15:57 ?546次閱讀

    機(jī)器學(xué)習(xí)的經(jīng)典算法與應(yīng)用

    關(guān)于數(shù)據(jù)機(jī)器學(xué)習(xí)就是喂入算法和數(shù)據(jù),讓算法數(shù)據(jù)中尋找一種相應(yīng)的關(guān)系。Iris鳶尾花數(shù)據(jù)集是一個(gè)經(jīng)典數(shù)據(jù)集,在統(tǒng)計(jì)學(xué)習(xí)機(jī)器
    的頭像 發(fā)表于 06-27 08:27 ?1701次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的經(jīng)典算法與應(yīng)用

    特征工程與數(shù)據(jù)預(yù)處理全解析:基礎(chǔ)技術(shù)和代碼示例

    機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的世界里,數(shù)據(jù)的質(zhì)量是建模成功與否的關(guān)鍵所在。這就是特征工程和數(shù)據(jù)預(yù)處理發(fā)揮作用的地方。本文總結(jié)的這些關(guān)鍵步驟可以顯著提高模型的性能,獲得更準(zhǔn)確的預(yù)測,我們將深入研
    的頭像 發(fā)表于 06-26 08:28 ?519次閱讀
    <b class='flag-5'>特征</b><b class='flag-5'>工程</b>與數(shù)據(jù)預(yù)處理全解析:基礎(chǔ)<b class='flag-5'>技術(shù)</b>和代碼示例

    名單公布!【書籍評測活動(dòng)NO.35】如何用「時(shí)間序列與機(jī)器學(xué)習(xí)」解鎖未來?

    量化交易的概念、發(fā)展歷程,如何通過因子挖掘時(shí)間序列數(shù)據(jù)中提取特征并將其轉(zhuǎn)化為交易策略,以及機(jī)器學(xué)習(xí)在其他金融領(lǐng)域(包括資產(chǎn)定價(jià)、資產(chǎn)配置、波動(dòng)率預(yù)測)的應(yīng)用。 本書的兩位作者在時(shí)間
    發(fā)表于 06-25 15:00

    通過強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

    來源:DeepHubIMBA特征選擇是構(gòu)建機(jī)器學(xué)習(xí)模型過程中的決定性步驟。為模型和我們想要完成的任務(wù)選擇好的特征,可以提高性能。如果我們處理的是高維數(shù)據(jù)集,那么選擇
    的頭像 發(fā)表于 06-05 08:27 ?392次閱讀
    通過強(qiáng)化<b class='flag-5'>學(xué)習(xí)</b>策略進(jìn)行<b class='flag-5'>特征</b>選擇

    嵌入式工程師需要掌握哪些技術(shù)?

    嵌入式工程師需要掌握哪些技術(shù)? 嵌入式系統(tǒng)是當(dāng)今科技領(lǐng)域中的重要組成部分,它們存在于我們生活的方方面面,智能手機(jī)到汽車控制系統(tǒng),家電到
    發(fā)表于 03-04 16:38

    數(shù)據(jù)預(yù)處理和特征工程的常用功能

    機(jī)器學(xué)習(xí)最基礎(chǔ)的5個(gè)流程,分別是數(shù)據(jù)獲取,數(shù)據(jù)預(yù)處理,特征工程,建模、測試和預(yù)測,上線與部署。
    的頭像 發(fā)表于 01-25 11:26 ?786次閱讀
    主站蜘蛛池模板: 黄色网址有那些| 看免费一级片| 亚洲3级| 一卡二卡四卡无卡乱免费网页| 刺激一区| 性色视频在线观看| 日韩免费三级| 美女视频黄的免费视频网页| 韩国三级中文字幕hd| 自拍偷拍福利视频| 手机在线你懂得| free chinese 国产精品| 69xxxx欧美老师| julia一区二区三区中文字幕| 五月婷婷在线观看视频| 日本高清视频成人网www| 精品三级内地国产在线观看| 97人人射| 久久观看午夜精品| h国产在线| 在线毛片网| 日韩免费精品视频| 韩日精品| 五月国产综合视频在线观看| 国产午夜精品视频| 三级aa久久| 四虎影院观看视频在线观看| 男人的天堂色偷偷| 97久久伊人精品影院| 色天天网| 一区二区三区亚洲| 四虎永久免费网站| 国产一级特黄aa大片在线 | 欧美一区二区三区不卡视频| 丁香午夜| 天天视频观看| 欲色啪| 亚洲天天做日日做天天看2018 | 国产精品久久久久久久久齐齐 | 亚洲美女视频一区| 婷婷五月五|