三種用于垃圾網頁檢測的隨機欠采樣集成分類器
大小:0.98 MB 人氣: 2017-12-06 需要積分:3
標簽:分類器(13141)
針對垃圾網頁檢測過程中輕微的不平衡分類問題,提出三種隨機欠采樣集成分類器算法,分別為一次不放回隨機欠采樣( RUS-once)、多次不放回隨機欠采樣(RUS-multiple)和有放回隨機欠采樣(RUS-replacement)算法。首先使用其中一種隨機欠采樣技術將訓練樣本集轉換成平衡樣本集,然后對每個平衡樣本集使用分類回歸樹( CART)分類器算法進行分類,最后采用簡單投票法構建集成分類器對測試樣本進行分類。實驗表明,三種隨機欠采樣集成分類器均取得了良好的分類效果,其中RUS-multiple和RUS-replacement比RUS-once的分類效果更好。與CART及其Bagging和Adaboost集成分類器相比,在WEBSPAM UK-2006數據集上,RUS-multiple和RUS-replacement方法的AUC指標值提高了10%左右,在WEBSPAM UK-2007數據集上,提高了25%左右;與其他最優研究結果相比,RUS-multiple和RUS-replacement方法在AUC指標上能達到最優分類結果。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%