基于Spark的BIRCH算法并行化的設計與實現
大小:1.03 MB 人氣: 2017-11-23 需要積分:1
在分布式計算和內存為王的時代,Spark作為基于內存計算的分布式框架技術得到了前所未有的關注與應用。著重研究BIRCH算法在Spark上并行化的設計和實現,經過理論性能分析得到并行化過程中時間消耗較多的Spark轉化操作,同時根據并行化BIRCH算法的有向無環圖DAG,減少shuf_fle和磁盤讀寫頻率,以期達到性能優化。最后,將并行化后的BIRCH算法分別與單機的BIRCH算法和MLlib中的KMeans聚類算法做了性能對比實驗。實驗結果表明,通過Spark對BIRCH算法并行化,其聚類質量沒有明顯的損失,并且獲得了比較理想的運行時間和加速比。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%