在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

導致非平衡數據分類性能下降的原因及解決方案的分析

電子設計 ? 來源:郭婷 ? 作者:電子設計 ? 2019-07-26 08:05 ? 次閱讀

本文對非平衡類數據分類問題進行了概述。首先在簡單介紹非平衡類數據基本概念的基礎上,分析了非平衡類數據引起的問題及其導致分類性能下降的原因;然后介紹了目前主要的解決方法,分析了現有處理方法的優缺點;最后討論了未來的研究方向

普通分類問題中,各個類包含的數據分布比較平衡,稀有類分類問題中,數據的分布極不平衡。例如:將一批醫療數據分類為“癌癥患者”和“非癌癥患者”兩個類,其中 “癌癥患者”是小比例樣本(假設占總樣本的1%),稱其為目標類,“非癌癥患者”為多數類樣本,稱為非目標類,從大量數據中正確識別“癌癥患者”就是稀有類分類問題。由于在數據集中所占比率太小,使得稀有類分類問題比普通分類問題更具挑戰性。

研究表明,解決稀有類分類問題的方法總體上可以分為:基于數據集的、算法的,以及使用組合分類器方法,如Bagging、Random Forest及Rotation Forest等。

影響稀有類分類的因素有很多,本文針對其中的一個因素——樣本大小進行研究。實驗基于上述的若干組合分類器,在特定的類比率下通過改變樣本大小,觀察樣本大小對稀有類分類的影響。

1 影響稀有類分類的因素

通常認為影響稀有類分類的因素是不平衡的類分布(Imbalanced class distribution),還有一些重要的因素影響稀有類分布,如小樣本規格(Small sample size)和分離性(Separability)。下面簡單討論這些因素對稀有類分類的影響。

(1)不平衡的類分布:研究表明,類分布越是相對平衡的數據分類的性能越好。探討了訓練集的類分布和判定樹分類性能的關系,但是不能確定多大的類分布比率使得分類性能下降。研究表明,在有些應用中1:35時不能很好地建立分類器,而有的應用中1:10時就很難建立了。

(2)樣本大小:給定特定的類分布比率(稀有類實例和普通類實例的比值),樣本大小在確定一個好的分類模型中起著非常重要的作用,要在有限的樣本中發現稀有類內在的規律是不可能的。改變該數據集的樣本大小,使得稀有類實例為50個,非稀有類實例為1 000個。結果是類分布同樣為1:20,但是前者沒有后者提供的稀有類信息量大,稀有類分類的性能沒有后者高。

(3)分離性:從普通類中區分出稀有類是稀有類分類的關鍵問題。假定每個類中存在高度可區分模式,則不需要很復雜的規則區分它們。但是如果在一些特征空間上不同類的模式有重疊就會極大降低被正確識別的稀有類實例數目。

根據以上分析可知,由于影響稀有類分類的因素多種多樣,使得稀有類分類問題更加復雜,分類的性能降低。本文在其他因素相同的前提下研究樣本大小對稀有類分類的影響。實驗證明在類分布相同的情況下,樣本越大稀有類分類的性能越好。

2 稀有類分類的評估標準

常用的分類算法的評估標準有:預測的準確率、速度、強壯性、可規模性及可解釋性。通常使用分類器的總準確率來評價普通類的分類效果。而對于稀有類分類問題,由于關注的焦點不同,僅用準確率是不合適的。

在稀有類分類問題中應更關注稀少目標類的正確分類率。在評價稀有類分類時,還應該采用其他的評價標準。

這里假設只考慮包含兩個類的二元分類問題,設C類為目標類,即稀有類,NC為非目標類。根據分類器的預測類標號和實際類標號的分布情況存在如表1所示的混合矩陣(Confusion Matrix)。

根據表1得到如下度量:

導致非平衡數據分類性能下降的原因及解決方案的分析

3 組合分類器介紹

組合分類器是目前機器學習和模式識別方面研究的熱門領域之一,大量研究表明,在理論和實驗中,組合方法比單個分類模型有明顯的優勢。常用的組合分類器有:Bagging、Random Forest及Rotation Forest。

3.1 Bagging介紹

Bagging算法是一種投票方法,各個分類器的訓練集由原始訓練集利用可重復取樣(bootstrap sampling)技術獲得,其過程如下:對于迭代t(t=1,2,…,T),訓練集St采用放回選樣,由原始樣本集S選取。由于使用放回選樣,S的某些樣本可能不在St中,而其他的可能出現多次。由每個訓練集St學習,得到一個分類算法Ct。為對一個未知的樣本X分類,每個分類算法Ct返回它的類預測,算作一票。Bagging的分類算法C*統計得票,并將得票最高的類賦予X[1]。

3.2 Random Forest介紹

隨機森林是一個包含多個決策樹的分類器, 并且其輸出的類別是由個別樹輸出的類別的眾數而定。 Leo Breiman和Adele Cutler發展出推論出隨機森林的算法。 而 "Random Forests" 是他們的商標。 這個術語是1995年由貝爾實驗室的Tin Kam Ho所提出的隨機決策森林(random decision forests)而來的。這個方法則是結合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"" 以建造決策樹的集合。重復M次這樣的抽樣過程分別得到M棵決策樹的學習樣本。單棵決策樹建造過程不進行剪枝,森林形成之后,對于一個新的樣本,每棵樹都得出相應的分類結論,最后由所有樹通過簡單多數投票決定分類結果。

3.3 Rotation Forest介紹

Rotation Forest是一個基于判定樹的組合分類器,其基本思想如下:假設x=[x1,…,xn]為不含類標號的數據集X的一個元組,則該數據集可以表示為N×n的矩陣;定義Y=[y1,…,yN]為X中元組對應的類標號集合,其中yi∈{w1,…,wc};定義D1,…,DL為組合方法中的基分類器;F為屬性集合。Rotation Forest意在建立L個不同的準確的分類器。基于新的數據集訓練得到Di分類器。L次不同的屬性集劃分得到L個不同的提取特征集,映射原始數據得到L個不同的數據集,分別訓練得到L個分類器。對于未知樣本的實例X,組合L個分類器計算每個類的置信度,將其歸類于置信度最高的類中。

為了驗證稀有類分類算法受到樣本規格大小的影響,使用UCI機器學習庫[8]中的稀有類數據集sick作為實驗數據集。實驗采用十折交叉驗證的方法統計分類的準確率。

sick數據集的基本情況為:30個屬性(帶類標號)、2個類(0,1),共有實例3 772條。其中sick和negative類分別擁有實例數目3 541和231,分別占總樣本比例93.88%和6.12%。sick類可看作稀有類。

4.1 實驗結果

基于每個數據集,采用weka平臺提供的unsupervised resample數據預處理方法改變樣本規格的大小,使得實例數目分別是原始數據的倍到10倍不等。對這些處理后的數據集分別應用組合分類器bagging、FandomForest和Rotation Forest算法進行分類。

表2是應用Rotation Forest算法在處理后得到的sick數據集上關于sick類的實驗結果。sick數據集樣本被擴充了若干倍不等。

導致非平衡數據分類性能下降的原因及解決方案的分析

表3是應用Random Forest算法在處理后得到的sick數據集上關于sick類的實驗結果。sick數據集樣本被擴充了若干倍不等。

導致非平衡數據分類性能下降的原因及解決方案的分析

表4是應用Bagging算法在處理后得到的sick數據集上關于sick類的實驗結果。Bagging算法在sick數據集上實驗時,樣本被擴充到10倍后,recall值仍沒有達到1,后來實驗又將樣本擴充至12倍,但由于內存不夠實驗終止。

導致非平衡數據分類性能下降的原因及解決方案的分析

通過上述表格中的實驗結果,可以看到隨著樣本規格變大,衡量稀有類分類的這些參數也呈遞增。這也意味著隨著稀有類實例數目的增加,算法可以獲得更多關于稀有類的信息,從而有利于對稀有類實例的識別。

4.2 結果分析

通常認為影響稀有類分類的重要因素是數據分布的不平衡性,也就是說對于稀有類問題,普通的分類算法往往失效,但本文的實驗結果表明,數據分布的不平衡性影響稀有類分類的一個因素,在特定的類比率下,使樣本規格變大,普通的分類算法往往也可以取得很好的分類結果。

本文對稀有類分類問題進行了研究,分析了影響稀有類分類問題的因素,探討了稀有類分類的評估標準。針對影響稀有類分類的一個因素:樣本規格的大小進行研究,在同等類分布比率下,改變樣本規格的大小,在weka平臺下進行實驗,得到數據集中稀有類的recall、precision和F-measure值。實驗結果表明,在特定的類比率下,使樣本規格變大,普通的分類算法往往也可以取得很好的分類結果。同時也說明,數據分布的不平衡性只是影響稀有類分類的一個因素,即使數據分布極不平衡。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7080

    瀏覽量

    89175
  • 機器學習
    +關注

    關注

    66

    文章

    8424

    瀏覽量

    132765
收藏 人收藏

    評論

    相關推薦

    鴻蒙原生頁面高性能解決方案上線OpenHarmony社區 助力打造高性能原生應用

    隨著HarmonyOS NEXT的正式推出,鴻蒙原生應用開發熱度高漲,數量激增。但在三方應用鴻蒙化進程中,性能問題頻出。為此,HarmonyOS NEXT推出了一整套原生頁面高性能解決方案,包括
    發表于 01-02 18:00

    失效分析分類有哪些?

    失效的分類  2.1 按功能分類   由失效的定義可知,失效的判據是看規定的功能是否喪失。因此,失效的分類可以按功能進行分類。例如,按不同材料的規定功能可以用各種材料缺陷(包括成分、
    發表于 11-29 16:46

    電機常見故障原因分析解決方案

    短路、線圈反接等故障。故障解決方案:①重新繞制定子繞組②檢查并糾正③測量電源電壓,設法消除不平衡④峭除繞組故障。常見類型六:電動機空載,過負載時,電流表指針不穩,擺動故障原因分析:①籠
    發表于 06-23 11:57

    道路移動機械解決方案道路移動機械定制

    ,進行離線分析,了解整機狀態,提供合理的建議及解決方案。開發快采用的數字化智能控制系統控制線路精巧,功耗低,無火花,理論上其壽命是傳統的道路移動機械控制系統的10倍。此外,智能設備往往成本得到了降低
    發表于 06-15 10:02

    ADIMEMS解決方案 傳感器性能如何支持狀態監控解決方案

    半導體技術和能力的進步為工業應用(特別是狀態監控解決方案)檢測、測量、解讀、分析數據提供了新的機會。基于MEMS 技術的新一代傳感器與診斷預測應用的先進算法相結合,擴大了測量各種機器和提高能力的機會
    發表于 08-12 22:33

    CAN總線性能下降原因

    ,不可避免的會有干擾在傳輸線上,雖然已經用差分信號傳遞數據,但是因為所有終端都是接到了一個CAN總線上,不可避免又會出現諸如發送消息碰撞,或者因為某個終端的性能下降原因,影響整個總線
    發表于 08-23 09:25

    測試毫米波發生器性能的信號分析解決方案

    和帶寬能力的解決方案。該 N9042B 信號分析儀測試發射機設計的真實性能,使用 EVM 和5g NR 信號分析軟件進行發射機下行和上行測量,只需一個按鈕,簡單易行。 N9042B 信
    發表于 03-15 17:45

    一種用于平衡數據的SVM學習算法

    在實際應用中的分類數據往往是非平衡數據,少數類別的數據可能有很大的分類代價。
    發表于 04-14 08:35 ?23次下載

    音頻平衡平衡的問題

    音響的連接中有平衡平衡之分。 平衡又叫單端輸入或單端輸出。一個信號端和一個參考端(地)。 平衡
    發表于 12-26 21:21 ?84次下載

    淺談SMOTE算法 如何利用Python解決非平衡數據問題

    本次分享的主題是關于數據挖掘中常見的平衡數據的處理,內容涉及到平衡
    發表于 05-15 14:08 ?3.8w次閱讀
    淺談SMOTE算法 如何利用Python解決非<b class='flag-5'>平衡</b><b class='flag-5'>數據</b>問題

    新的基于代價敏感集成學習的平衡數據分類方法NIBoost

    現實生活中存在大量的 平衡數據,大多數傳統的分類算法假定類分布平衡或者樣本的錯分代價相同,因此在對這些
    發表于 03-28 13:41 ?12次下載
    新的基于代價敏感集成學習的<b class='flag-5'>非</b><b class='flag-5'>平衡</b><b class='flag-5'>數據</b>集<b class='flag-5'>分類</b>方法NIBoost

    開關電源中功率器件的失效原因分析解決方案

    開關電源中功率器件的失效原因分析解決方案(通信電源技術基礎知識)-開關電源中功率器件的失效原因分析
    發表于 09-16 10:23 ?92次下載
    開關電源中功率器件的失效<b class='flag-5'>原因</b><b class='flag-5'>分析</b>及<b class='flag-5'>解決方案</b>

    Java內部類持有外部類導致內存泄露的原因以及其解決方案

    簡介 為什么要持有外部類 實例:持有外部類 實例:不持有外部類 實例:內存泄露 不會內存泄露的方案 簡介 「說明」 本文介紹 Java 內部類持有外部類導致內存泄露的原因以及其解決方案
    的頭像 發表于 10-08 16:32 ?991次閱讀

    電機失速的原因解決方案

    電機失速的原因解決方案? 電機失速是指電機在正常工作過程中速度突然降低甚至停轉的現象。電機失速可能會導致設備停止運行或者出現故障,因此需要及時解決并采取措施預防。本文將分析電機失速的
    的頭像 發表于 12-25 11:32 ?3643次閱讀

    SMT貼片加工中立碑現象的原因解決方案

    此問題,深圳佳金源錫膏廠家為您深入剖析原因,并提供相應的解決方案:一、立碑現象的原因探究1、元器件兩端受力不均,錫量分配不一致,導致濕潤力差異。2、預熱溫度設置不合
    的頭像 發表于 10-17 16:43 ?378次閱讀
    SMT貼片加工中立碑現象的<b class='flag-5'>原因</b>及<b class='flag-5'>解決方案</b>
    主站蜘蛛池模板: 大量喷潮free| 婷婷网五月天天综合天天爱| 青青青草国产| 免费看黄色片的软件| 欧美精品一区视频| 色综合久久天天综合观看| 色视频网站在线| 欧美电影一区二区三区| 国产视频每日更新| 又黄又爽又猛午夜性色播在线播放| 四虎影院永久免费| 日本特级淫片免费看| 免费日本黄色网址| 天天干天天玩天天操| 美人岛福利| 五月激情六月丁香| 亚洲不卡免费视频| 欲色综合| 日韩一级在线观看| 精品综合久久88色鬼首页| 97色在线视频观看香蕉| 天堂8中文在线最新版在线| 国产精品好好热在线观看| 中文字幕亚洲一区婷婷| 亚洲最色网站| 欧美h视频| xxxxbbbb欧美| 精品亚洲大全| 日韩精品一卡二卡三卡四卡2021| 中文网丁香综合网| 人人干网站| avtom影院永久转四虎入口| 亚洲伊人电影| 免费爱爱视频网站| 一级片视频在线观看| 国产精品天天影视久久综合网| 人人干日日操| 97爱sese| 特级淫片aaaa毛片aa视频| 黄色18网站| 久久久黄色片|