1 引言
大數據處理系統始終是分析大數據的基礎,因為大數據本身具有信息量繁多冗雜、擴展速度極快、信息多樣性且價值密度高等特點,所以要求大數據處理系統具有極強的專業性和高效性,能夠合理并有效的處理大規模的數據并形成可用的數據體系[1-3]。目前較為典型的大數據處理系統有三種。分別為大數據實時流式處理系統、離線批量處理系統、交互式處理系統以及大數據可視化處理系統,本文將依次介紹這三種大數據處理系統的概念及其特點并分析其應用場景。
2 實時流式處理系統及應用場景
(1)流式大數據概念及其特點。流式大數據又被稱為實時大數據,流式處理系統是以分析實時數據為基礎,是基于實時數據流的數據處理,一般處理時間是在數百毫秒到數秒之間。
(2)大數據實時處理系統的技術架構。根據大數據實時流式處理的特點可以總結出,這種數據處理系統其實就是數據的收集、傳輸、處理和展現的過程。其中數據的處理中涉及數據的聚合,而且整個過程需要能夠在秒級或毫秒級得到相應的響應。目前針對這一系列特點形成了 Flume + kafka + Storm / Spark + Hbase / Redis 的技術框架。
(3)大數據實時流式處理系統的應用場景。流式大數據實時處理系統主要廣泛應用于金融、公安、電信、交通等領域,在金融行業,流式大數據實時處理系統在金融風控反欺詐方面發揮著重要作用,能夠搜集融合眾多專家知識以及機器研究結果的數百條規則,作為對每筆交易的風險評估依據,判斷該筆交易是否能夠安全進行。
3 離線處理系統及應用場景
(1)大數據離線處理系統概念及其特點。根據數據分析的時效性,我們可以把大數據分析處理系統分為實時處理和離線處理兩種類型。
(2)大數據離線處理處理系統的常用工具。相對于在線處理系統所呈現的技術架構,大數據離線處理系統已經相對成熟,大數據離線處理的流程通常是利用 Hdfs 存儲數據,確保數據有效存儲之后,再利用 MapReduce 進行離線數據的批量運算,批量計算所得出的數據如果需要進入數據倉庫進行存儲,可以直接接入 Hive,用過 Hive 進行展示。① Hdfs 是一種分布式的文件系統,可以對數據進行多次備份。② MapReduce 是一種批量計算技術框架,同樣是分布式布局,分為兩個階段:Map 階段和 Reduce 階段。③ Hive 中的數據存儲于文件系統中,并且大部分數據是使用 Hdfs 來存儲的。Hive 為方便訪問數據倉庫中的數據提供了一種方法,HQL 方法,該方法能夠滿足大數據離線處理中需要對批量處理的數據結果進行查詢的要求。
(3)大數據離線處理系統目前較常見的應用場景是,大數據團隊通過統一計算引擎入口,降低用戶接入門檻。充分利用集群本身數據,有效促進集群本身的建設,加強對隊列、任務及主機失敗率的監控,使用戶能夠自主分析任務性能并進行自主調整。
4 交互可視化處理系統及應用場景
(1)大數據交互可視化處理的概念及其特點。大數據交互可視化處理是將大數據形象化,可視化也就是將數據呈現出可視效果。大數據交互可視化處理具有兩個特點:首先表現方式多樣化,包括圖形、地圖、故事情節圖、結構化插圖等。其次是適用范圍廣泛,具有領域創新性,隨著大數據的發展,傳統的數據表現形式已經不能滿足需要,就要求對數據進行可視化處理。
(2)大數據交互可視化處理的主要手段。① D3 經常出現在表格插件中,是目前最受歡迎的可視化庫之一。D3 可以將數據綁定到 DOM 并將其驅動轉移應用到 Document 之中。同時 D3 是繪制交互桑葚圖的一種非常簡單的工具,桑葚圖也就是桑葚能量分流圖,它作為一種類型獨特的流程圖,一般多用于能源、金融等大數據的可視化分析。另外,D3 也可以作為對 Sunburst Partition 的可視化工具,主要用來描述用戶群體的路徑點擊狀況。② ECharts 即商業級數據圖表,可以在 PC 端和移動設備上流暢運行的純 Javascript 圖表庫,為我們提供生動形象,可交互,可個性定制的大數據可視化圖表,能夠高效增強用戶體驗效果。③ R 語言是目前功能比較強大的大數據可視化解決路徑,R 語言基本可以獨立自主地完成數據處理、可視化分析、建模以及模型分析等工作,同時可以作為配合完成與其他工具的數據交互。
除此之外,R 語言能夠完成頂尖的制圖工作,不僅可以完成lattcie 包、ggplot2 包的復雜數據可視化,還可以完成rCharts 包、recharts 包、plotly 包的數據交互可視化。
(3)大數據交互可視化處理的應用場景。大數據作為一個新的研究領域在近幾年受到越來越多的關注,大數據可視化也正成為一大熱點。以下將介紹三種大數據交互可視化較典型的應用場景。
第一是應用于社會關系的可視化,隨著移動互聯網的不斷發展,互聯網社會網絡數據已成為十分重要的數據資源,社會網絡分析就是利用這些數據資源分析各種網絡現象。另外,用戶社交性設計在最近幾年的移動端網游中也受到越來越多的關注和重視,用戶社交型設計就需要以數據交互可視化為基礎,從而建立并美化游戲模式,增強用戶游戲體驗。
第二個應用場景是地理信息的可視化。例如百度遷移圖,就是基于大數據可視化的地理信息可視化的典型例子,可以通過分析處理動態數據,將數據進行動態連線處理,從而形成流向圖,一目了然。除此之外也可以利用 Remap 實現天氣預報的功能,也可以實現會議在地圖上的可視化,如中國 2015 年 R 語言會議在各個城市舉行情況的可視化展示。近幾年較為流行的另外一種地理信息可視化方式是城市熱力圖,圖示以不同深淺的顏色來表示各個地區的實際數據。
第三是美國大選的大數據可視化,在美國大選期間,美國媒體產出大量選舉相關的數據報道,通過對這些大數據的可視化,選民可以清晰了解選舉動態。通過以上幾種大數據可視化的典型例子,我們可以看出,大數據可視化是一個具有多種可能,且并不難以實現的大數據處理系統,而且具有極大的發展空間。
5 結語
大數據處理系統會隨著大數據研究的深入以及數據處理技術的發展而更加多元更加完善,也將會在更多行業或領域中被實際應用。大數據已經深入到我們生活的方方面面,如何能夠更有效更充分挖掘大數據中的價值仍需要不斷地研究和探索。
-
處理系統
+關注
關注
0文章
93瀏覽量
16680 -
大數據
+關注
關注
64文章
8895瀏覽量
137505
原文標題:大數據處理系統模式及其應用分析
文章出處:【微信號:appic-cn,微信公眾號:集成電路應用雜志】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論