大數據存儲與管理要用存儲器把采集到的數據存儲起來,建立相應的數據庫,以便管理和調用。由于從多渠道獲得的原始數據常常缺乏一致性,這導致標準處理和存儲技術失去可行性。并且數據不斷增長造成單機系統的性能不斷下降,即使不斷提升硬件配置也難以跟上數據增長的速度。
大數據存儲和管理發展過程中出現了如下幾類大數據存儲和管理數據庫系統:分布式文件存儲、NoSQL數據庫、NewSQL數據庫。
一、分布式文件存儲
分布式文件存儲的特點之一是為了解決復雜問題而將大任務分解為多項小任務,通過讓多個處理器或多個計算機節點并行計算來提高解決問題的效率。
分布式文件系統能夠支持多臺主機通過網絡同時訪問共享文件和存儲目錄,大部分采用了關系數據模型并且支持SQL語句查詢。為了能夠并行執行SQL的查詢操作,系統中采用了兩個關鍵技術:關系表的水平劃分和SQL查詢的分區執行。
水平劃分的主要思想是根據某種策略將關系表中的元組分布到集群中的不同節點上,由于這些節點上的表結構是一致的,因此便可以對元組并行處理。在分區存儲關系表中處理SQL查詢需要使用基于分區的執行策略。
分布式文件系統可通過多個節點并行執行數據庫任務,提高整個數據庫系統的性能和可用性。其主要缺點為缺乏較好的彈性,并且容錯性較差。
二、NoSQL數據庫
傳統關系型數據庫在數據密集型應用方面顯得力不從心,主要表現在靈活性差、擴展性差、性能差等方面。而NoSQL摒棄了傳統關系型數據庫管理系統的設計思想,采用了不同的解決方案來滿足擴展性方面的需求。由于它沒有固定的數據模式并且可以水平擴展,因而能夠很好地應對海量數據的挑戰。相對于關系型數據庫而言,NoSQL最大的不同是不使用SQL作為查詢語言。NoSQL數據庫主要優勢有:避免不必要的復雜性、高吞吐量、高水平擴展能力和低端硬件集群、避免了昂貴的對象-關系映射。
三、NewSQL數據庫
NewSQL數據庫采用了不同的設計,它取消了耗費資源的緩沖池,摒棄了單線程服務的鎖機制,通過使用冗余機器來實現復制和故障恢復,取代原有的昂貴的恢復操作。這種可擴展、高性能的SQL數據庫被稱為NewSQL,其中“New”用來表明與傳統關系型數據庫系統的區別。NewSQL主要包括兩類系統:1. 擁有關系型數據庫產品和服務,并將關系模型的好處帶到分布式架構上;2. 提高關系數據庫的性能,使之達到不用考慮水平擴展問題的程度。
NewSQL能夠提供SQL數據庫的質量保證,也能提供NoSQL數據庫的可擴展性。
-
數據存儲
+關注
關注
5文章
977瀏覽量
50961 -
數據庫系統
+關注
關注
0文章
31瀏覽量
9602
發布評論請先 登錄
相關推薦
評論