一種基于Spark框架的并行FP-Growth挖掘算法
大小:0.64 MB 人氣: 2017-11-17 需要積分:0
Apriori和FPGrowth算法是頻繁模式挖掘中的經典算法,由于Apriori存在更多缺陷,因此FPGrowth是單機計算環境下比較高效的算法。然而,對于非并行計算在大數據時代遇到的瓶頸,提出一種基于事務中項間聯通權重矩陣的負載平衡并行頻繁模式增長算法CWBPFP。算法在Spark框架上實現并行計算,數據分組時利用負載均衡策略,存入分組的數據是相應頻繁項的編碼。每個工作節點將分組數據中每一個事物中項的聯通信息存入一個下三角聯通權重矩陣中,使用被約束子樹來加快每個工作節點挖掘頻繁模式時創建條件FPtree的速度,再用聯通權重矩陣避免每次挖掘分組中頻繁模式時對條件模式基的第一次掃描。由于聯通權重矩陣和被約束子樹的結合應用于每一個工作節點的FPtree挖掘過程,因此提升了并行挖掘FPtree性能。通過實驗表明,所提出的并行算法對大的數據有較高性能和可擴展性。
?
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
一種基于Spark框架的并行FP-Growth挖掘算法下載
相關電子資料下載
- 天數智芯主導的DeepSpark開源社區發布百大應用開放平臺24.06版本 436
- spark運行的基本流程 91
- Spark基于DPU的Native引擎算子卸載方案 180
- 百度前高管景鯤與朱凱華創立AI搜索公司,Genspark產品驚艷上線 458
- 關于Spark的從0實現30s內實時監控指標計算 111
- “Spark+Hive”在DPU環境下的性能測評 | OLAP數據庫引擎選型白皮書(24版)DPU部分 212
- 芯科科技和Arduino合作創建SparkFun Thing Plus Matter板 234
- Sparkle撼與科技發布TBX-750FA-V2顯卡塢,支持3.5槽厚顯 243
- 如何注冊星閃Sparklink設備媒體接入層標識、地址碼? 246
- 如何利用DPU加速Spark大數據處理? | 總結篇 661