在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

人工智能如何處理數據?長期共存的方式大概有兩種

OaXG_jingzhengl ? 來源:未知 ? 作者:李倩 ? 2018-07-12 15:26 ? 次閱讀

人工智能如何處理數據?如果把重點放在數據的處理方式上,那么長期共存的方式大概有兩種:

特征學習(feature learning),又叫表示學習(representation learning)或者表征學習 。

特征工程(feature engineering),主要指對于數據的人為處理提取,有時候也代指“洗數據” 。

不難看出,兩者的主要區別在于前者是“學習的過程”,而后者被認為是一門“人為的工程”。用更加白話的方式來說,特征學習是從數據中自動抽取特征或者表示的方法,這個學習過程是模型自主的。而特征工程的過程是人為的對數據進行處理,得到我們認為的、適合后續模型使用的樣式。

舉個簡單的例子,深度學習就是一種表示學習,其學習過程是一種對于有效特征的抽取過程。有用的特征在層層學習后抽取了出來,最終交給了后面的分類層進行預測。

一種比較不嚴謹但直觀的理解可以是,假設一個n層的深度學習網絡,那么輸入數據在被網絡逐層抽象化,靠前的層(1~k)學到了低階特征(low level features),中間層(k+1~m)學到了中階特征(middle level features),而靠后的層上(m+1~n-1)特征達到了高度的抽象化獲得了高階特征(high level features),最終高度的抽象化的特征被應用于分類層(n)上,從而得到了良好的分類結果。

一個常用例子是說卷積網絡的前面幾層可以學到“邊的概念”,之后學到了“角的概念”,并逐步學到了更加抽象復雜的如“圖形的概念”。

下圖就給出了一個直觀的例子,即圖像經過深度網絡學習后得到了高度抽象的有效特征,從而作為預測層的輸入數據,并最終預測目標是一只貓。

另一個常見的例子就是下圖中,深度信念網絡(deep belief network)通過堆疊的受限玻爾茲曼機(Stacked RBM)來學習特征,和cnn不同這個過程是無監督的。將RBF堆疊的原因就是將底層RBF學到的特征逐漸傳遞的上層的RBF上,逐漸抽取復雜的特征。比如下圖從左到右就可以是低層RBF學到的特征到高層RBF學到的復雜特征。在得到這些良好的特征后就可以傳入后端的傳統神經網絡進行學習。

換個不嚴謹的白話說法,深度學習的層層網絡可以從數據中自動學習到有用的、高度抽象的特征,而最終目的是為了幫助分類層做出良好的預測。而深度學習為什么效果好?大概和它能夠有效的抽取到特征脫不了關系。

當然,深度學習的一大特點是其對數據的分布式表示(distributed representation)(*也和稀疏性表示等其他特性有關),最直觀的例子可以是nlp中的word2vec,每個單詞不再是割裂的而互相有了關聯。類似的,不少網絡中的參數共享就是分布式表示,不僅降低了參數量需求也提高對于數據的描述能力。僅看分類層的話,深度學習和其他的機器學習似乎沒有天壤之別,但正因為有了種種良好的表示學習能力使其有了過人之處。

下圖直觀的對比了我們上文提到的兩種特征的學習方式,傳統的機器學習方法主要依賴人工特征處理與提取,而深度學習依賴模型自身去學習數據的表示。

綜上,機器學習模型對于數據的處理可以被大致歸類到兩個方向: 表示學習:模型自動對輸入數據進行學習,得到更有利于使用的特征(*可能同時做出了預測)。

代表的算法大致包括: 深度學習,包括大部分常見的模型如cnn/rnn/dbn,也包括遷移學習等 某些無監督學習算法,如主成分分析(PCA)通過對數據轉化而使得輸入數據更有意義 某些樹模型可以自動的學習到數據中的特征并同時作出預測 特征工程:模型依賴人為處理的數據特征,而模型的主要任務是預測,比如簡單的線性回歸期待良好的輸入數據(如離散化后的數據) 需要注意的是,這種歸類方法是不嚴謹的,僅為了直觀目的而已。并沒有一種劃分說a算法是表示學習,而b算法不是,只是為了一種便于理解的劃分。

因此,大部分的模型都處于純粹的表示學習和純粹的依賴人工特征之間,程度不同而已,很少有絕對的自動學習模型。

那么好奇的讀者會問:

1. 是不是自動的特征抽取(表示學習)總是更好?

答案是不一定的:

在數據量不夠的時候,自動特征抽取的方法往往不如人為的特征工程。

當使用者對于數據和問題有深刻的理解時,人工的特征工程往往效果更好。

一個極端的例子是,在kaggle比賽中的特征工程總能帶來一些提升,因此人工的特征抽取和處理依然有用武之地。

同時也值得注意,表示學習的另一好處是高度抽象化的特征往往可以被應用于相關的領域上,這也是我們常說的遷移學習(transfer learning)的思路。比如有了大量貓的圖片以后,不僅可以用于預測一個物體是不是貓,也可以用于將抽取到的特征再運用于其他類似的領域從而節省數據開銷。

2. 特征學習(表示學習),特征工程,特征選擇,維度壓縮之間有什么關系?

從某個角度來看,表示學習有“嵌入式的特征選擇”(embedded feature selection)的特性,其表示學習嵌入到了模型中。

舉個簡單的例子,決策樹模型在訓練過程中可以同時學習到不同特征的重要性,而這個過程是建模的一部分,是一種嵌入式的特征選擇。

巧合的看,表示學習也是一種嵌入表示(embedded representation)。如維度壓縮方法PCA,也是一種將高維數據找到合適的低維嵌入的過程,前文提到的word2vec也是另一種“嵌入”。至于這種“嵌入”是否必須是高維到低維,不一定但往往是因為特征被抽象化了。以上提到的兩種嵌入一種是對于模型的嵌入,一種是在維度上嵌入,主要是名字上的巧合。

3. 理解不同數據處理方法對于我們有什么幫助?

首先對于模型選擇有一定的幫助: 當我們數據量不大,且對于數據非常理解時,人為的特征處理也就是特征工程是合適的。比如去掉無關數據、選擇適合的數據、合并數據、對數據做離散化等。 當數據量較大或者我們的人為先驗理解很有限時,可以嘗試表示學習,如依賴一氣呵成的深度學習,效果往往不錯。

4. 為什么有的模型擁有表示學習的能力,而有的沒有?

這個問題需要分模型討論。以深度學習為例,特征學習是一種對于模型的理解,并不是唯一的理解,而為什么泛化效果好,還缺乏系統的理論研究。

5. 特征工程指的是對于數據的清理,和學習有什么關系?

此處我們想再次強調的是,這個不是一個嚴謹的科學劃分,是一種直觀的理解。如果所使用的模型擁有對于數據的簡化、特征表示和抽取能力,我們都可以認為它是有表示學習的特性。

至于哪個模型算,哪個模型不算,不必糾結這點。而狹義的特征工程指的是處理缺失值、特征選擇、維度壓縮等各種預處理手段,而從更大的角度看主要目的是提高數據的表示能力。對于數據的人為提煉使其有了更好的表達,這其實是人工的表示學習。

寫在最后是,這篇回答僅僅是一種對于機器學習中數據處理方法的理解,并不是唯一正確的看法。有鑒于機器學習領域的知識更迭速度很快,個人的知識儲備也有限,僅供參考。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1793

    文章

    47532

    瀏覽量

    239305
  • 機器學習
    +關注

    關注

    66

    文章

    8429

    瀏覽量

    132854
  • 深度學習
    +關注

    關注

    73

    文章

    5511

    瀏覽量

    121354

原文標題:人工智能是如何處理數據的?

文章出處:【微信號:jingzhenglizixun,微信公眾號:機器人博覽】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    人工智能是什么?

    海量的數據中通過不斷優化的算法來組建適合的數據群組。單從這一點就可以看出,數據的大量積累也是需要經過長時間才能做到的,這也是為什么人工智能領域只有大公司、企業以及科研機構才能有時間、
    發表于 09-16 15:40

    人工智能技術—AI

      人工智能技術的概念從出來到現在已經很多年的歷史了,其實所謂的人工智能技術本身就是一模擬人類大腦的思考方式的一
    發表于 10-21 12:03

    如何在人工智能機器人領域應用大數據

    這個事情。簡單來分的話類:一類是機器人載體,不管是實體機器人還是虛擬機器人;一是云端的人工智能大腦,它是智能的系統和服務。從層級、形態
    發表于 11-13 16:37

    人工智能事實上是一生物進化歷程的壓縮

    。為了得到相同智能效果,兩種方式通常都可使用。采用前一方法,需要人工詳細規定程序邏輯,如果游戲簡單,還是方便的。如果游戲復雜,角色數量和活
    發表于 03-08 10:56

    百度人工智能大神離職,人工智能的出路在哪?

    和專家系統等。不少人都在說,下一波科技浪潮的核心--人工智能。據《人民日報》報道,在剛剛結束的會上,人工智能首次出現在***工作報告中,成為新實體經濟發展的最大的動力。有數據顯示,
    發表于 03-23 17:00

    人工智能成熱潮,嵌入式如何分杯羹?

    以來,形形色色的人工智能就在我的周圍,我們卻視而不見。為什么會出現這種現象?則要從個領域的人工智能說起。所說的人工智能,就是以人工
    發表于 09-06 18:14

    人工智能就業前景

    據相關招聘機構數據顯示,2018年AI領域仍然是大部分資深技術人才轉崗的首選目標,在人才最緊缺的前十大職位中,時下最火的大數據人工智能、算法類崗位占據半壁江山。據調查指出,2017年技術研發類崗位
    發表于 03-29 15:46

    解讀人工智能的未來

    `已歷經60多年的人工智能在物聯網以及大數據的推動下,實現飛躍式的發展,并且迎來了第三個黃金周期。必優傳感今天和大家解讀一下關于人工智能的未來。自從
    發表于 11-14 10:43

    人工智能:超越炒作

    。對于人工智能用例在當前物聯網環境中變為現實,必須滿足三個條件:非常大的真實數據集具有重要處理能力的硬件架構和環境開發新的強大算法和人工神經網絡(ANN)以充分利用上述內容很明顯,后
    發表于 05-29 10:46

    請問IC的型號大概有多少

    請問IC的型號大概有多少
    發表于 06-27 01:37

    人工智能改變客戶體驗的10方式

    個性化在當今消費者的購物場所中發揮著重要作用,使您有機會為客戶改進營銷策略。  10)數據支持的營銷策略  人工智能為您提供了機器學習數據分析,以就您的業務做出更好的決策。AI通過各種方式
    發表于 06-19 11:20

    人工智能的應用領域哪些?

    ` 本帖最后由 cdhqyj 于 2020-10-23 11:09 編輯 人工智能的應用領域哪些?人工智能的定義可以分為部分,即“人工
    發表于 10-23 11:07

    什么是人工智能、機器學習、深度學習和自然語言處理

    領域,包括機器學習、深度學習、數據挖掘、計算機視覺、自然語言處理和其他幾個學科。首先,人工智能涉及使計算機具有自我意識,利用計算機視覺、自然語言理解和模仿其他感官。其次,人工智能涉及模
    發表于 03-22 11:19

    《移動終端人工智能技術與應用開發》人工智能的發展與AI技術的進步

    人工智能的發展是隨著人類生活需要,產業需求不斷提升的,其中人工智能的發展很大程度上受到了計算機算力的影響,隨著數據處理量的增大,人工智能算法對算力的要求逐年增加,而且沒過
    發表于 02-17 11:00

    5G和WiFi可以做到長期共存

    5G和WiFi長期共存已經是一個不爭的趨勢,開個玩笑專家有可能是家庭小基站商家的臥底。
    發表于 11-13 10:46 ?1377次閱讀
    主站蜘蛛池模板: 亚洲一区二区三区首页| 欧美一区二区三区黄色| 奇米影视一区二区三区| 久久精品国产2020观看福利色 | 国产三级在线观看| 日本久久综合视频| 性色成人网| 欧美一级看片a免费观看| 成人伊在线影院| 免费爱爱网站| 日韩成人毛片高清视频免费看| 性做久久久久久久久| 色视频免费在线观看| 性欧美在线| 人人草人人澡| 欧美作爱福利免费观看视频| 久久午夜宅男免费网站| 欧美日韩无| 人人澡人人射| 国产一级特黄的片子| 午夜视频在线观看www中文| 夜夜夜夜夜夜夜猛噜噜噜噜噜噜| 国模视频一区| 国产午夜精品一区二区理论影院| 在线免费看片| 午夜影视免费完整高清在线观看网站| 欧美黄色大片免费| 91最新网站免费| 中文字幕在线观看一区| 欧美一级淫片免费播放口| 国产干美女| 国产日日操| 性欧美高清极品xx| 色综合啪啪| 黄色网在线| 69日本xxxxxxxxx内谢| 俄罗斯aaaaa一级毛片| 成人久久久精品乱码一区二区三区 | 国产资源站| 美女被免网站在线视频| 久久精品隔壁老王影院|