一種在分布式環(huán)境下實(shí)現(xiàn)冪迭代聚類的方法
為解決冪迭代聚類算法并行實(shí)現(xiàn)中存在的編程繁瑣、效率低下等問題,基于Spark大規(guī)模數(shù)據(jù)通用計(jì)算引擎及其GraphX組件,提出了一種在分布式環(huán)境下實(shí)現(xiàn)冪迭代聚類的方法。首先,利用某種相似性度量方法,將原始數(shù)據(jù)轉(zhuǎn)換成一個可以視為圖的親和矩陣;然后,通過頂點(diǎn)切割,把行歸一化后的親和矩陣切分成若干個小圖,分別存儲在不同的機(jī)器上;最后,利用Spark基于內(nèi)存計(jì)算的特點(diǎn),對存儲在集群中的圖進(jìn)行多次迭代計(jì)算,得到這個圖的一個切割,圖的每一個劃分子圖對應(yīng)一個類簇。在不同規(guī)模的數(shù)據(jù)集和不同executor個數(shù)下進(jìn)行的實(shí)驗(yàn)結(jié)果表明,基于GraphX的分布式冪迭代聚類算法具有良好的可擴(kuò)展性,算法運(yùn)行時間與executor個數(shù)呈負(fù)相關(guān)的線性關(guān)系,在6個executor下,與單個executor相比,算法的加速比達(dá)到了2.09到3.77。同時,通過與基于Hadoop的冪迭代聚類進(jìn)行對比,在新聞數(shù)量為40000篇時,運(yùn)行時間降低了6l%。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
一種在分布式環(huán)境下實(shí)現(xiàn)冪迭代聚類的方法下載
相關(guān)電子資料下載
- 隆基全球分布式研發(fā)中心揭牌 265
- 故障排查小能手:輸電線路分布式故障定位裝置大解析 63
- 浪潮信息推出基于新一代分布式存儲平臺AS13000G7的AIGC存儲解決方案 816
- 黑龍江電力高性能WDS分布式存儲系統(tǒng)解決方案 62
- 雷拓科技云廣播助力江西省蘆溪縣新圖書館打造沉浸式觀展體驗(yàn)! 97
- 分布式光纖測溫系統(tǒng)DTS 143
- 天合光能致力于加強(qiáng)全球綠色轉(zhuǎn)型協(xié)作 239
- 安科瑞防孤島保護(hù)裝置AM5SE-IS 在布式光伏監(jiān)控系統(tǒng)中的應(yīng)用 93
- 得瑞領(lǐng)新參編《高性能計(jì)算助推分布式存儲發(fā)展白皮書》正式發(fā)布,助力推動產(chǎn) 112
- 基于智慧醫(yī)療系統(tǒng)的存儲解決方案,助力高性能存儲需求 143