基于Spark的BIRCH算法并行化的設(shè)計(jì)與實(shí)現(xiàn)
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
在分布式計(jì)算和內(nèi)存為王的時(shí)代,Spark作為基于內(nèi)存計(jì)算的分布式框架技術(shù)得到了前所未有的關(guān)注與應(yīng)用。著重研究BIRCH算法在Spark上并行化的設(shè)計(jì)和實(shí)現(xiàn),經(jīng)過理論性能分析得到并行化過程中時(shí)間消耗較多的Spark轉(zhuǎn)化操作,同時(shí)根據(jù)并行化BIRCH算法的有向無環(huán)圖DAG,減少shuf_fle和磁盤讀寫頻率,以期達(dá)到性能優(yōu)化。最后,將并行化后的BIRCH算法分別與單機(jī)的BIRCH算法和MLlib中的KMeans聚類算法做了性能對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,通過Spark對(duì)BIRCH算法并行化,其聚類質(zhì)量沒有明顯的損失,并且獲得了比較理想的運(yùn)行時(shí)間和加速比。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
基于Spark的BIRCH算法并行化的設(shè)計(jì)與實(shí)現(xiàn)下載
相關(guān)電子資料下載
- STM32串口通信入門!附通信編程示例 468
- 天數(shù)智芯主導(dǎo)的DeepSpark開源社區(qū)發(fā)布百大應(yīng)用開放平臺(tái)24.06版本 436
- spark運(yùn)行的基本流程 91
- Spark基于DPU的Native引擎算子卸載方案 180
- 嘉興海棠電子:環(huán)保與創(chuàng)新并行的網(wǎng)線行業(yè)領(lǐng)軍者 83
- 百度前高管景鯤與朱凱華創(chuàng)立AI搜索公司,Genspark產(chǎn)品驚艷上線 458
- 精益思維賦能可穿戴設(shè)備:創(chuàng)新與效率并行的未來科技新篇章 122
- 關(guān)于Spark的從0實(shí)現(xiàn)30s內(nèi)實(shí)時(shí)監(jiān)控指標(biāo)計(jì)算 111
- 普渡機(jī)器人入駐宜家 為顧客帶來科技與舒適并行的購(gòu)物方式 449
- 并行連接的SiC MOSFET可以帶來更多電力 501