在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

大數據相關介紹：Hadoop的生態系統構成

一、Hadoop的優點

（1）可靠性高。Hadoop具有多個工作數據副本，確保可針對失敗的節點（個人理解：一個節點可理解為一臺計算機或服務器）進行重新分布處理。

（2）擴展性高。Hadoop可擴展至數干節點。

（3）效率高。Hadoop以并行方式工作，處理數據速度快。

（4）成本低。與一體機、商用數據倉庫等對比，Hadoop是開源的，項目的軟件成本因此降低。

二、Hadoop的生態系統構成

（1）HDFS是一種分布式文件系統，運行于大型商用機集群，HDFS為Hadoop提供高可靠性的底層存儲支撐。

（2）MapReduce是一種分布式數據處理模式和執行環境，為Hadoop提供高性能計算能力。

（3）HBase位于結構化存儲層（根據網絡資料理解：HBase位于類似windows系統中多層級文件夾的結構中），是一個分布式的列存儲數據庫。

（4）Zookecper是一個分布式的、高可用性的協調服務，提供分布式鎖（根據百度百科：分布式鎖是控制分布式系統間同步訪問共享資源的方式）等基本服務，用于構建分布式應用，為Hadoop提供了穩定服務和failover機制（根據網絡資料理解：failover機制是失效轉移機制，當主要組件由于失效或預定關機時間原因而無法工作時，該機制將系統組件的功能轉移至二級系統組件）。

（5）Hive是一個建立于Hadoop基礎之上的數據倉庫，它提供在Hadoop文件中用于數據整理、特殊查詢、分析存儲的數據集工具。

（6）Pig是一種數據流語言和運行環境，用于檢索大的數據集，可簡化Hadoop常見工作任務。

（7）Sqoop為HBasc提供了方便的RDBMS（根據百度百科：關系數據庫管理系統）數據導入功能，可較為方便地將傳統數據庫數據遷移至HBase中。

圖片來源：學堂在線《大數據導論》

三、Spark介紹

Spark是另一種大數據系統，由一系列解決不同種類問題的系統和編程庫構成。下文以APACHE Spark為例，介紹Spark。

APACHE Spark由Spark SQL、Spark Streaming、MLlib、GraphX組成。

Spark SQL可以通過編寫SQL程序的方式處理數據。因為Spark所有計算依賴于內存，中途計算結果不會被存儲，所以Spark的一個優勢是數據處理速度快，但同時，Spark對內存的要求較高。

Spark Streaming可實現數據流計算（根據百度百科理解：因為數據的價值隨著時間的流逝而降低，傳統的數據庫管理系統無法快速且無法持續的處理大量且不斷更新的大數據，所以產生了可實現數據一出現就處理的數據流計算）。

MLlib是機器學習庫，可以輔助研發人員編寫機器學習算法。

GraphX是圖計算框架（根據網路資料理解：圖計算框架是在大數據中高效計算、存儲、管理圖數據的框架）。

四、Spark的優點

（1）Spark基于內存的迭代計算，計算速度快。

（2）Spark引入RDD（彈性分布式數據集：可將RDD視為一個對象，所有的數據處理均封裝于此對象中），容錯性高。

（3）Spark可提供更多的數據集操作類型，數據處理能力更強。數據集操作類型可分為Transformations和Actions兩類（根據網絡資料：Transformations可提供包括Map函數等操作，Actions可提供包括Reduce函數等操作）。

（4）Spark可支持更多編程語言，包括：Scala（根據網絡資料：類似java的編程語言）、Java、Python、R。

編輯：黃飛

阅读全文

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

Hadoop

Hadoop

+關注

關注
1

文章
90

瀏覽量
16249
HDFS

HDFS

+關注

關注
1

文章
31

瀏覽量
9784
大數據

大數據

+關注

關注
64

文章
8935

瀏覽量
138933

原文標題：大數據相關介紹（10）——大數據系統（下）

文章出處：【微信號：行業學習與研究，微信公眾號：行業學習與研究】歡迎添加關注！文章轉載請注明出處。

#硬聲創作季大數據技術原理與應用_10.2 Spark生態系統

生態系統大數據SPARK

深海狂鯊

發布于 :2022年10月29日 09:35:43

Hadoop生態系統(1)#大數據分析

大數據分析

學習硬聲知識

發布于 :2023年07月11日 14:38:59

Hadoop生態系統(2)#大數據分析

大數據分析

學習硬聲知識

發布于 :2023年07月11日 14:39:24

大數據hadoop入門之hadoop家族產品詳解

學習好hadoop！同時，也歡迎大家提出寶貴意見！一、Hadoop定義Hadoop是一個大家族，是一個開源的生態系統，是一個分布式運行系統，

發表于 12-26 15:02

大數據hadoop生態系統概念簡單介紹

零基礎大數據入門3--大數據生態系統及其各組件簡介

發表于 05-05 14:34

基于加速卡的FPGA生態系統布局是怎樣的？

FPGA加速卡是如何產生的？主要的FPGA加速卡產品有哪些？基于加速卡的FPGA生態系統布局是怎樣的？

發表于 06-17 06:07

STM32單片機基礎01——初識 STM32Cube 生態系統精選資料分享

本篇文章主要介紹STM32Cube生態系統。STM32Cube EcosystemSTM32Cube是ST公司開發的一套生態系統，致力于使STM32的開發變的更簡單，并且100%開源免費。在開始

發表于 08-03 07:15

STM32Cube生態系統更新

前不久STM32Cube生態系統進行了一次“大更新”，STM32CubeMX升級至V6.0.0，STM32CubeIDE升級至V1.4.0，STM32CubeProg升級至V2.5.0。...

發表于 08-03 06:05

IT的生態系統概述

一、IT的生態系統概述1.1 計算機CPU四大體系結構1、以PC機為代表的X86結構2、以嵌入式計算機為代表的ARM結構3、以國產龍芯為代表的MIPS結構4、以IBM巨型機為代表的POWPC結構

發表于 12-22 06:47

基于Kepware的Hadoop大數據應用構建-提升數據價值利用效能

處理超大數據集。 Hadoop的生態系統非常豐富，包括許多相關工具和技術，如Hive、Pig、HBase等，這些工具可以方便地構建復雜的大數據

發表于 10-08 15:12 ?264次閱讀

Hadoop 生態系統在大數據處理中的應用與實踐

隨著數據量的爆發式增長，大數據處理技術成為企業關注焦點，Hadoop 生態系統在其中扮演著核心角色。 Hadoop Distributed

發表于 01-21 17:48 ?293次閱讀

发布文章

精選推薦
更多

文章

資料

帖子

高效率為主低噪為輔：其利天下無刷吸塵器驅動方案

其利天下技術
6小時前

205 閱讀

TDK TCM06U系列小型共模濾波器介紹為20Gbps高速差分傳輸打造的“降噪專家”

TDK中國
8小時前

194 閱讀

從“設計到生產”的蛻變：華秋DFM如何讓工程師們“輕松上陣”？

PCB學習醬
8小時前

192 閱讀

瑞薩RA系列MCU FSP庫開發實戰指南（09）存儲器映射

瑞薩MCU小百科
8小時前

196 閱讀

瑞芯微RK平臺開發必備的20個常用命令，幫您效率翻倍

飛凌嵌入式
9小時前

199 閱讀

Mozi.IoT物聯網標準通訊組件

bigbangboom
15.04 MB

2積分

1下載

Kity Minder在線腦圖編輯器

張明
2.01 MB

2積分

1下載

EUX文本/源碼編輯器

康桃花
2.61 MB

2積分

1下載

Cadmin前后端分離后臺開發項目集合

遠風
0.90 MB

免費

0下載

Type-C PD電源傳輸接收SINK端控制器芯片FS8024A數據手冊

泛海微ic
0.04 MB

免費

3下載

關于TLV2371IP運放無法正確放大0-3.3V的PWM波的問題？

jf_06470635
1天前

286 閱讀

90元打造小智AI腕表，語音交互超有趣！

時見棲鴉
1天前

252 閱讀

漫畫學電感,電容基礎知識，一看就懂！（高清PDF）

yuu_cool
1天前

174 閱讀

Made with KiCad：Tangara 便攜式音樂播放器

愛與友人
1天前

199 閱讀

一文掌握RK3568開發板Android13掛載Windows共享目錄

溫暖鏡頭
1天前

222 閱讀

推薦專欄
更多