(1)可靠性高。Hadoop具有多個(gè)工作數(shù)據(jù)副本,確保可針對失敗的節(jié)點(diǎn)(個(gè)人理解:一個(gè)節(jié)點(diǎn)可理解為一臺計(jì)算機(jī)或服務(wù)器)進(jìn)行重新分布處理。
(2)擴(kuò)展性高。Hadoop可擴(kuò)展至數(shù)干節(jié)點(diǎn)。
(3)效率高。Hadoop以并行方式工作,處理數(shù)據(jù)速度快。
(4)成本低。與一體機(jī)、商用數(shù)據(jù)倉庫等對比,Hadoop是開源的,項(xiàng)目的軟件成本因此降低。
二、Hadoop的生態(tài)系統(tǒng)構(gòu)成
(1)HDFS是一種分布式文件系統(tǒng),運(yùn)行于大型商用機(jī)集群,HDFS為Hadoop提供高可靠性的底層存儲支撐。
(2)MapReduce是一種分布式數(shù)據(jù)處理模式和執(zhí)行環(huán)境,為Hadoop提供高性能計(jì)算能力。
(3)HBase位于結(jié)構(gòu)化存儲層(根據(jù)網(wǎng)絡(luò)資料理解:HBase位于類似windows系統(tǒng)中多層級文件夾的結(jié)構(gòu)中),是一個(gè)分布式的列存儲數(shù)據(jù)庫。
(4)Zookecper是一個(gè)分布式的、高可用性的協(xié)調(diào)服務(wù),提供分布式鎖(根據(jù)百度百科:分布式鎖是控制分布式系統(tǒng)間同步訪問共享資源的方式)等基本服務(wù),用于構(gòu)建分布式應(yīng)用,為Hadoop提供了穩(wěn)定服務(wù)和failover機(jī)制(根據(jù)網(wǎng)絡(luò)資料理解:failover機(jī)制是失效轉(zhuǎn)移機(jī)制,當(dāng)主要組件由于失效或預(yù)定關(guān)機(jī)時(shí)間原因而無法工作時(shí),該機(jī)制將系統(tǒng)組件的功能轉(zhuǎn)移至二級系統(tǒng)組件)。
(5)Hive是一個(gè)建立于Hadoop基礎(chǔ)之上的數(shù)據(jù)倉庫,它提供在Hadoop文件中用于數(shù)據(jù)整理、特殊查詢、分析存儲的數(shù)據(jù)集工具。
(6)Pig是一種數(shù)據(jù)流語言和運(yùn)行環(huán)境,用于檢索大的數(shù)據(jù)集,可簡化Hadoop常見工作任務(wù)。
(7)Sqoop為HBasc提供了方便的RDBMS(根據(jù)百度百科:關(guān)系數(shù)據(jù)庫管理系統(tǒng))數(shù)據(jù)導(dǎo)入功能,可較為方便地將傳統(tǒng)數(shù)據(jù)庫數(shù)據(jù)遷移至HBase中。
圖片來源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》
三、Spark介紹
Spark是另一種大數(shù)據(jù)系統(tǒng),由一系列解決不同種類問題的系統(tǒng)和編程庫構(gòu)成。下文以APACHE Spark為例,介紹Spark。
APACHE Spark由Spark SQL、Spark Streaming、MLlib、GraphX組成。
Spark SQL可以通過編寫SQL程序的方式處理數(shù)據(jù)。因?yàn)镾park所有計(jì)算依賴于內(nèi)存,中途計(jì)算結(jié)果不會被存儲,所以Spark的一個(gè)優(yōu)勢是數(shù)據(jù)處理速度快,但同時(shí),Spark對內(nèi)存的要求較高。
Spark Streaming可實(shí)現(xiàn)數(shù)據(jù)流計(jì)算(根據(jù)百度百科理解:因?yàn)閿?shù)據(jù)的價(jià)值隨著時(shí)間的流逝而降低,傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)無法快速且無法持續(xù)的處理大量且不斷更新的大數(shù)據(jù),所以產(chǎn)生了可實(shí)現(xiàn)數(shù)據(jù)一出現(xiàn)就處理的數(shù)據(jù)流計(jì)算)。
MLlib是機(jī)器學(xué)習(xí)庫,可以輔助研發(fā)人員編寫機(jī)器學(xué)習(xí)算法。
GraphX是圖計(jì)算框架(根據(jù)網(wǎng)路資料理解:圖計(jì)算框架是在大數(shù)據(jù)中高效計(jì)算、存儲、管理圖數(shù)據(jù)的框架)。
四、Spark的優(yōu)點(diǎn)
(1)Spark基于內(nèi)存的迭代計(jì)算,計(jì)算速度快。
(2)Spark引入RDD(彈性分布式數(shù)據(jù)集:可將RDD視為一個(gè)對象,所有的數(shù)據(jù)處理均封裝于此對象中),容錯(cuò)性高。
(3)Spark可提供更多的數(shù)據(jù)集操作類型,數(shù)據(jù)處理能力更強(qiáng)。數(shù)據(jù)集操作類型可分為Transformations和Actions兩類(根據(jù)網(wǎng)絡(luò)資料:Transformations可提供包括Map函數(shù)等操作,Actions可提供包括Reduce函數(shù)等操作)。
(4)Spark可支持更多編程語言,包括:Scala(根據(jù)網(wǎng)絡(luò)資料:類似java的編程語言)、Java、Python、R。
編輯:黃飛
-
Hadoop
+關(guān)注
關(guān)注
1文章
90瀏覽量
15985 -
HDFS
+關(guān)注
關(guān)注
1文章
30瀏覽量
9603 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8889瀏覽量
137444
原文標(biāo)題:大數(shù)據(jù)相關(guān)介紹(10)——大數(shù)據(jù)系統(tǒng)(下)
文章出處:【微信號:行業(yè)學(xué)習(xí)與研究,微信公眾號:行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論