分布式大數據不一致性檢測
大?。?/span>0.79 MB 人氣: 2018-01-12 需要積分:3
關系數據庫中可能存在數據不一致性現象,關系數據庫數據質量的一個主要問題是存在違反函數依賴情況,為找出不一致數據需要進行函數依賴沖突檢測.集中式數據庫中可以通過SQL技術檢測不一致情況,盡管檢測效率不高;而分布式環境下不一致性檢測更富有挑戰性,不僅需要考慮數據的遷移,檢測任務如何分配也是一個難題.在大數據背景下,上述問題更加突出.提出了一種分布式環境單函數依賴不一致性檢測方法。給出了不一致性檢測響應時間代價模型,為減少數據遷移量和響應時間,基于等價類對待檢測數據進行預處理.由于分布式環境不一致性檢測問題為NP-hard問題,多項式時間內難以得到最優解,給出了代價模型的多項式時間3/2-近似最優解.提出了一種分布式環境多函數依賴不一致性檢測方法,基于最小集合覆蓋理論通過一次數據遍歷,對多個函數依賴進行并行批檢測,同時考慮檢測過程中的負載均衡等問題.在真實和人工數據集上的實驗表明:相對于傳統的檢測方法以及基于Hadoop的Nalve方法,所提出的檢測方法檢測效率有明顯的提升,且擴展性能良好。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%