一、大數據定義
大數據尚未形成統一的定義,主流的定義包括三種:
(1)高德納咨詢公司(Gartner Group)對大數據的定義:大數據又可被稱為巨量資料,是指需要新處理模式才能具有更強的決策力、洞察發現力、流程優化能力的海量、高增長率、多樣化的信息資產。
(2)維克托·邁爾·舍恩伯格和肯尼斯·庫克耶編寫的《大數據時代》對大數據的定義:相較于隨機分析法中的抽樣調查數據,大數據指所有數據(含個人理解)。
(3)著云臺(根據百度百科:一家中國云服務企業)的分析師團隊對大數據的定義:通常形容一個公司創造的大量非結構化數據和半結構化數據,此類數據在下載至關系型數據庫用于分析時會花費較多時間和金錢。
圖片來源:學堂在線《大數據導論》
二、大數據的特點
大數據的特點也被稱為大數據的4個“V”,具體如下: (1)數據量大(Volume),集中存儲和集中計算已無法處理其數據量。 數據量大舉例:tumblr(全球最大輕博客網站)每日產出9500萬條信息,Facebook每日產出25TB日志數據,YouTube每日新增視頻數據量168TB。 (2)數據種類和來源多樣(Variety)。大數據的數據種類包括:結構化和非結構化數據。非結構化數據占比為80%,且非結構化數據的數據量以63%的年增長率增長(非結構化數據沒有統一的數據處理技術)。大數據的數據來源包括:日志、圖片、視頻、文檔、地理位置等。 (3)需要較快的分析處理速度(Velocity)。因為大數據產生速度快,所以也需要較快的分析處理速度。 (4)價值密度較低,但商業價值高(Value)。因為大數據數據量大,所以價值密度相對較低。但通過大數據分析,可以為企業創造高的價值。
三、大數據平臺
目前,大數據主流技術平臺是Hadoop。Hadoop被公認為大數據標準開源軟件。Hadoop創立于2002年,創始人是Doug Cutting,Hadoop名稱來源于Doug Cutting兒子的一頭黃色大象玩具。 Hadoop的發展歷程如圖一所示。Hadoop項目于2006年2月被單獨立項(根據百度百科:此前為Apache Lucene的子項目之一),2008年打破1TB數據排序紀錄,2017年Hadoop3.0版本發布。
圖片來源:學堂在線《大數據導論》 Hadoop的主流版本包括:Apache Hadoop、CDH。
(1)Apache Hadoop Apache Hadoop的優點包括: 1)完全開源免費。 2)社區活躍。 3)文檔資料詳實。 Apache Hadoop的缺點包括: 1)版本管理比較混亂。 2)選擇生態組件時需要考慮兼容性問題。 3)集群的部署安裝配置復雜,集群運維復雜。
(2)CDH CDH由CLOUDERA維護。
CDH的優點包括: 1)基于Apache協議,100%開源。 2)版本管理清晰,相比于Apache Hadoop在兼容性、安全性、穩定性方面更優。 3)提供了部署、安裝、配置工具,大大提高了集群部署的效率。 4)提供了管理、監控、診斷、配置修改的工具,管理配置方便。 CDH的缺點是設計廠商鎖定問題。如果某公司選用CDH,當公司需要改用其他平臺的服務時,可能對該公司生產環境產生較大影響,即該公司被CDH廠商鎖定。
編輯:黃飛
-
大數據
+關注
關注
64文章
8899瀏覽量
137577
原文標題:大數據相關介紹(1)——大數據概述(上)
文章出處:【微信號:行業學習與研究,微信公眾號:行業學習與研究】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論