基于Hadoop平臺的分布式重復數據刪除解決方案
大小:0.96 MB 人氣: 2017-12-22 需要積分:1
針對數據中心存在大量數據冗余的問題,特別是備份數據造成的存儲容量浪費,提出一種基于Hadoop平臺的分布式重復數據刪除解決方案。該方案通過檢測并消除特定數據集內的冗余數據,來顯著降低數據存儲容量,優化存儲空間利用率。利用Hadoop大數據處理平臺下的分布式文件系統(HDFS)和非關系型數據庫HBase兩種數據管理模式,設計并實現一種可擴展分布式重刪存儲系統。其中,MapReduce并行編程框架實現分布式并行重刪處理,HDFS負責重刪后的數據存儲,在HBase數據庫中構建索引表,實現高效數據塊索引查詢。最后,利用虛擬機鏡像文件數據集對系統進行了測試,基于Hadoop平臺的分布式重刪系統能在保證高重刪率的同時,具有高吞吐率和良好的可擴展性。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%