在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

工業大數據挖掘的利器——Spark MLlib

格創東智 ? 2019-01-10 13:40 ? 次閱讀

格物匯之前刊發的《工業大數據處理領域的“網紅”——Apache Spark》中提到,在“中國制造2025”的技術路線圖中,工業大數據是作為重要突破點來規劃的,而在未來的十年,以數據為核心構建的智能化體系會成為支撐智能制造和工業互聯網的核心動力。Apache Spark 作為新一代輕量級大數據快速處理平臺,集成了大數據相關的各種能力,是理解大數據的首選。Spark有一個機器學習組件是專門用于解決海量數據如何進行高效數據挖掘的問題,那就是SparkMLlib組件。今天的格物匯就給大家詳細介紹一下Spark MLlib。

Spark MLlip 天生適合迭代計算

在介紹Spark MLlib 這個組件前,我們先了解一下機器學習的定義。在維基百科中對機器學習給出如下定義:

機器學習是一門人工智能的科學,該領域的主要研究對象是人工智能,特別是如何在經驗學習中改善具體算法的性能。

機器學習是對能通過經驗自動改進的計算機算法的研究。

機器學習是用數據或以往的經驗,以此優化計算機程序的性能標準。

很明顯,機器學習的重點之一就是“經驗”,對于計算機而言,經驗就是需要進行多次迭代計算得到的,Spark 的基于內存的計算模式天生就擅長迭代計算,多個步驟計算直接在內存中完成,只有在必要時才會操作磁盤和網絡,所以說Spark正是機器學習的理想的平臺。在Spark官方首頁中展示了Logistic Regression算法在Spark和Hadoop中運行的性能比較,如圖下圖所示。

Spark MLlib 算法以及功能

MLlib由一些通用的學習算法以及工具組成,其中包括分類、回歸、聚類、協同過濾、降維等,同時還包括底層的優化原語和高層的管道API。具體主要包含以下內容:

>>>>

回歸(Regression)

線性回歸(Linear

廣義線性回歸(Generalized Linear)

決策樹(Decision Tree)

隨機森林(Random Forest)

梯度提升樹(Gradient-boosted Tree)

Survival

Isotonic

>>>>

分類(Classification)

邏輯回歸(Logistic,二分類和多酚類)

決策樹(Decision Tree)

隨機森林(Random Forest)

梯度提升樹(Gradient-boosted Tree)

多層反饋(Multilayer Perceptron)

支持向量機(Linear support vector machine)

One-vs-All

樸素貝葉斯(Naive Bayes)

>>>>

聚類(Clustering)

K-means

隱含狄利克雷分布(LDA)

BisectingK-means

高斯混合模型(Gaussian Mixture Model)

協同過濾(Collaborative Filtering)

>>>>

特征工程(Featurization)

特征工程(Featurization)

特征提取

轉換

降維(Dimensionality reduction)

篩選(Selection)

>>>>

管道(Pipelines)

組合管道(Composing Pipelines)

構建、評估和調優(Tuning)機器學習管道

>>>>

持久化(Persistence)

保存算法,模型和管道到持久化存儲器,以備后續使用

從持久化存儲器載入算法、模型和管道

>>>>

實用工具(Utilities)

線性代數(Linear algebra)

統計

數據處理

其他

綜上可見,Spark在機器學習上發展還是比較快的,目前已經支持了主流的統計和機器學習算法。

Spark MLlib API 變遷

Spark MLlib 組件從Spark 1.2版本以后就出現了兩套機器學習API:

spark.mllib基于RDD的機器學習API,是Spark最開始的機器學習API,在Spark1.0以前的版本就已經存在的了。

spark.ml提供了基于DataFrame 高層次的API,引入了PipLine,可以向用戶提供一個基于DataFrame的機器學習流式API套件。

Spark 2.0 版本開始,spark mllib就進入了維護模式,不再進行更新,后續等spark.ml API 足夠成熟并足以取代spark.mllib 的時候就棄用。

那為什么Spark要將基于RDD的API 切換成基于DataFrame的API呢?原因有以下三點:

首先相比spark.mllib,spark.ml的API更加通用和靈活,對用戶更加友好,并且spark.ml在DataFrame上的抽象級別更高,數據與操作的耦合度更低;

spark.ml中無論是什么模型,都提供了統一的算法操作接口,例如模型訓練就調用fit方法,不行spark.mllib中不同模型會有各種各樣的trainXXX;

受scikit-learn 的Pipline概念啟發,spark.ml引入pipeline, 跟sklearn,這樣可以把很多操作(算法/特征提取/特征轉換)以管道的形式串起來,使得工作流變得更加容易。

如今工業互聯網飛速發展,企業內部往往存儲著TB級別甚至更大的數據,面對海量數據的難以進行有效快速的進行數據挖掘等難題,Spark提供了MLlib 這個組件,通過利用了Spark 的內存計算和適合迭代型計算的優勢,并且提供用戶友好的API,使用戶能夠輕松快速的應對海量數據挖掘的問題,加快工業大數據的價值變現。作為TCL集團孵化的創新型科技公司,格創東智正在致力于深度融合包括Spark在內的大數據、人工智能、云計算等前沿技術與制造行業經驗,打造行業領先的“制造x”工業互聯網平臺。隨著未來Spark社區在AI領域的不斷發力,相信Spark MLlib組件的表現會越來越出色。

本文作者:格創東智大數據工程師黃歡(轉載請注明作者及來源)

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 智能制造
    +關注

    關注

    48

    文章

    5561

    瀏覽量

    76337
  • 工業互聯網
    +關注

    關注

    28

    文章

    4322

    瀏覽量

    94116
  • SPARK
    +關注

    關注

    1

    文章

    105

    瀏覽量

    19908
  • 工業大數據
    +關注

    關注

    0

    文章

    72

    瀏覽量

    7842
收藏 人收藏

    評論

    相關推薦

    工業大數據

    工業大數據是未來工業在全球市場競爭中發揮優勢的關鍵。無論是德國工業4.0、美國工業互聯網還是《中國制造2025》,各國制造業創新戰略的實施基礎都是
    發表于 06-19 17:43

    大數據開發之spark應用場景

    Spark大數據技術中數據計算處理的王者,能夠一次處理PB級的數據,分布在數千個協作的物理或虛擬服務器集群中,它有一套廣泛的開發者庫和API,并且支持Java,Python,R和Sc
    發表于 04-10 16:05

    工業大數據分析平臺的應用價值探討

    自己去了解一下了。 通過這樣的一個工業大數據分析平臺的應用,可以為工業企業創新、產品的研發、工業企業管理等各個方面服務。比如:在企業產品創新方面:通過大量的數據
    發表于 11-12 15:56

    大數據系列之Spark

    大數據系列Spark初探
    發表于 04-30 08:08

    如何成功實施工業大數據

    如何成功實施工業大數據
    發表于 09-30 08:45

    工業大數據技術綜述

    工業大數據工業數據的總稱,包括信息化數據、物聯網數據以及跨界數據,是
    發表于 03-27 16:10 ?14次下載

    工業大數據處理領域的“網紅”——Apache Spark

    應對海量數據的處理、分析以及深度挖掘,但作為分布式計算框架的Spark卻能輕松應付這些場景。在工業互聯網平臺上,Spark 既能快速實現
    的頭像 發表于 12-17 10:55 ?2996次閱讀

    工業大數據的概念

    工業大數據是指在工業領域中,圍繞典型智能制造模式,從客戶需求到銷售、訂單、計劃、研發、設計、工藝、制造、采購、供應、庫存、發貨和交付、售后服務、運維、報廢或回收再制造等整個產品全生命周期各個環節所
    的頭像 發表于 03-05 15:18 ?4063次閱讀

    工業大數據和互聯網大數據區別

    工業大數據與互聯網大數據最大的區別在于工業大數據有非常強的目的性,而互聯網大數據更多的是一種關聯的挖掘,是更加發散的一種分析。除此之外,兩者
    的頭像 發表于 03-28 14:08 ?1.1w次閱讀

    工業大數據前景

    工業大數據正以一種革命風暴的姿態闖入人們視野,其技術和市場在快速發展,而駕馭工業大數據的呼聲則一浪高過一浪。于是有人說中國大數據產業有炒作“過熱”之嫌,也有人認為大數據投資正當時。隨著
    的頭像 發表于 03-28 14:08 ?3850次閱讀

    SparkMLlib GBDT算法工業大數據實戰

    在格物匯之前發表的《工業大數據挖掘利器——Spark MLlib》中提到,Spark
    的頭像 發表于 04-28 14:11 ?3828次閱讀
    SparkMLlib GBDT算法<b class='flag-5'>工業大數據</b>實戰

    工業大數據如何管理

    從需求側看,隨著智能制造、工業互聯網等國家戰略的逐一推進,個性化定制、網絡化延伸以及智能化設計、生產、服務等新模式不斷出現,對于工業大數據技術、產品、平臺的需求不斷增大,為工業大數據提供了充足的應用場景。
    的頭像 發表于 04-21 16:55 ?2899次閱讀

    工業大數據的技術與應用

    工業大數據,是指在工業領域中,圍繞典型智能制造模式,從客戶需求到銷售、訂單、計劃、研發、設計、工藝、制造、采購、供應、庫存、發貨和交付、售后服務、運維、報廢或回收再制造等整個產品全生命周期各個環節
    的頭像 發表于 11-23 14:37 ?5573次閱讀

    SparkMLlib GBDT算法工業大數據的實戰案例

    在格物匯之前發表的《工業大數據挖掘利器——Spark MLlib》中提到,Spark
    的頭像 發表于 12-25 17:42 ?941次閱讀

    工業大數據在制造企業的應用場景

    工業大數據是一個新的概念,從字面上理解,工業大數據是指在工業領域信息化應用中所產生的大數據
    的頭像 發表于 01-17 12:05 ?4944次閱讀
    主站蜘蛛池模板: 午夜视频吧| 欧美视频在线观在线看| 美女18毛片| 亚洲第一香蕉视频| 98pao强力打造高清免费| 性配久久久| 日本三级视频| 午夜视频在线观看视频| xxx黄色片| 日韩色爱| 伊人天天操| 爱逼色| 四虎影院在线免费观看视频| 国产一区二区高清在线| 午夜手机视频| 能直接看黄的网站| 色婷婷激情综合| 可以免费看的黄色片| 免费簧片视频| 在线观看网址你懂得| 国产一级特黄| videos另类重口tv| 婷婷综合激情| 亚洲偷自偷白图片| 性刺激的欧美三级视频| 女人张腿让男桶免费视频观看| 天堂网在线www资源网| 免费aⅴ网站| 国产一级特黄全黄毛片| 五月激情六月丁香| 日韩精品在线一区二区| 手机看片1024在线| 亚洲天天做日日做天天看2018| 广东毛片| 成人午夜网站| 视频黄色免费| 手机看片福利1024| 午夜美女网站| 天天爱天天做天天爽夜夜揉| 永井玛丽亚中文在线观看视频| 成年啪啪网站免费播放看|