貝葉斯分類器的分類原理是通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類。
在具有模式的完整統計知識條件下,按照貝葉斯決策理論進行設計的一種最優分類器。分類器是對每一個輸入模式賦予一個類別名稱的軟件或硬件裝置,而貝葉斯分類器是各種分類器中分類錯誤概率最小或者在預先給定代價的情況下平均風險最小的分類器。它的設計方法是一種最基本的統計分類方法。
最小錯誤概率貝葉斯分類器
把代表模式的特征向量x分到c個類別(ω1,ω2,。。。,ωc)中某一類的最基本方法是計算在 x的條件下,該模式屬于各類的概率,用符號P(ω1|x),P(ω2|x),。。。,P(ωc|x)表示。比較這些條件概率,最大數值所對應的類別ωi就是該模式所屬的類。例如表示某個待查細胞的特征向量 x屬于正常細胞類的概率是0.2,屬于癌變細胞類的概率是0.8,就把它歸類為癌變細胞。
貝葉斯分類器
上述定義的條件概率也稱為后驗概率,在特征向量為一維的情況下,一般有圖中的變化關系。當 x=x*時,P(ω1|x)=P(ω2|x), 對于 x》x*的區域,由于P(ω2|x)》P(ω1|x)因此x屬ω2類,對于x《x*的區域,由于P(ω1|x)》P(ω2|x),x屬ω1類,x*就相當于區域的分界點。圖中的陰影面積就反映了這種方法的錯誤分類概率,對于以任何其他的 x值作為區域分界點的分類方法都對應一個更大的陰影面積,因此貝葉斯分類器是一種最小錯誤概率的分類器
貝葉斯分類器
進行計算
一般情況下,不能直接得到后驗概率而是要通過貝葉斯公式進行計算。式中的P(x│ωi)為在模式屬于ωi類的條件下出現x的概率密度,稱為x的類條件概率密度;P(ωi)為在所研究的識別問題中出現ωi類的概率,又稱先驗概率;P(x)是特征向量x的概率密度。分類器在比較后驗概率時,對于確定的輸入x,P(x)是常數,因此在實際應用中,通常不是直接用后驗概率作為分類器的判決函數gi(x)(見線性判別函數)而采用下面兩種形式:
公式
對所有的c個類計算gi(x)(i=1,2,。。。,c)。與gi(x)中最大值相對應的類別就是x的所屬類別。
貝葉斯分類器工作原理原理
貝葉斯分類器是一種比較有潛力的數據挖掘工具,它本質上是一種分類手段,但是它的優勢不僅僅在于高分類準確率,更重要的是,它會通過訓練集學習一個因果關系圖(有向無環圖)。如在醫學領域,貝葉斯分類器可以輔助醫生判斷病情,并給出各癥狀影響關系,這樣醫生就可以有重點的分析病情給出更全面的診斷。
進一步來說,在面對未知問題的情況下,可以從該因果關系圖入手分析,而貝葉斯分類器此時充當的是一種輔助分析問題領域的工具。如果我們能夠提出一種準確率很高的分類模型,那么無論是輔助診療還是輔助分析的作用都會非常大甚至起主導作用,可見貝葉斯分類器的研究是非常有意義的。
一、知識脈絡
二、基本原理
貝葉斯決策論通過相關概率已知的情況下利用誤判損失來選擇最優的類別分類。
“風險”(誤判損失)= 原本為cj的樣本誤分類成ci產生的期望損失(如下式,概率乘以損失為期望損失)
為了最小化總體風險,只需在每個樣本上選擇能夠使條件風險R(c|x)最小的類別標記。
h*稱為貝葉斯最優分類器,與之對應的總體風險為貝葉斯風險,另lambda等于1時,最優貝葉斯分類器是使后驗概率P(c|x)最大。
利用貝葉斯判定準則來最小化決策風險,首先要獲得后驗概率P(c|x),機器學習則是基于有限的訓練樣本集盡可能準確的估計出后驗概率P(c|x)。通常有兩種模型:1.“判別式模型”: 通過直接建模P(c|x)來預測(決策樹,BP神經網絡,支持向量機)。2.“生成式模型”:通過對聯合概率模型P(x,c)進行建模,然后再獲得P(c|x)。
P(c)是類“先驗”概率,P(x|c)是樣本x相對于類標記條件概率,或稱似然。似然函數定義(對同一個似然函數,如果存在一個參數值,使得它的函數值達到最大的話,那么這個值就是最為“合理”的參數值。可參考http://www.cnblogs.com/kevinGaoblog/archive/2012/03/29/2424346.html)
對于P(c)而言代表樣本空間中各類樣本所占的比例,根據大數定理當訓練集包含充足的獨立同分布樣本時,可通過各類樣本出現的頻率進行估計。對于P(x|c)而言,涉及關于所有屬性的聯合概率,無法根據樣本出現的頻率進行估計。
7.2極大似然估計
假設P(x|c)具有確定的形式并且被參數向量唯一確定,則我們的任務是利用訓練集估計參數Qc,將P(x|c)記為P(x|Qc)。令Dc表示訓練集D第c類樣本的集合,假設樣本獨立同分布,則參數Qc對于數據集Dc的似然是
連乘容易造成下溢,通常使用對數似然
注意。這種參數化的方法雖然能使類條件概率估計變得相對簡單,但是估計結果的準確性嚴重依賴所假設的概率分布形式是否符合潛在的真實數據分布。有限的數據集合難以直接估計其聯合概率分布。故此我們提出樸素貝葉斯分類器。
三、樸素貝葉斯分類器
為了避開聯合概率分布這一障礙,樸素貝葉斯分類器采用了“屬性條件獨立性假設”:對已知類別,假設所有屬性相互獨立。
若存在某個屬性值在訓練的過程中沒有與某個類同時出現過,直接利用式子進行概率估計將會出錯。因為會存在某一屬性為概率0,導致無論其他屬性多好都將為零。為了避免上述產生的將某種未出現的屬性值抹去,在估計概率時可進行“平滑”(smoothing),常用“拉普拉斯修正”。具體來說可以令N表示訓練集D中可能的類別數,Ni表示第i個屬性可能的取值數。
拉普拉斯修正避免了因訓練集樣本不充分而導致概率估值為零的問題,并且在訓練集變大時,修正過程所引入的先驗(prior)的影響也會逐漸變得可忽略,使得估值逐漸趨于實際的概率值。
在現實任務中樸素貝葉斯分類器有很多種使用方式。對預測速度要求較高的,將所有概率的估計值事先計算好存儲起來,這樣在進行預測是只需要查表就可以進行判別。若任務數據更替頻繁,則可采用懶惰學習(lazy learning),收到數據進行概率估計,若數據不斷增加,則可在現有的估值基礎上,僅對新增樣本屬性值所涉及的概率估值進行技術修正即可實現增量學習。
四、半樸素貝葉斯分類器
樸素貝葉斯分類器采用屬性完全獨立的假設,在現實生活中通常難以成立,對屬性條件獨立性假設進行一定程度的放松,由此產生一類“半樸素被夜色分類器”(semi-naive Bayes classifiers)的學習方法,不需要進行完全聯合概率計算,又不至于徹底忽略了比較強的屬性依賴關系。
“獨依賴估計”(One dependent Estimator, ODE),假設每個屬性在類別之外最多依賴一個其他的屬性
pai為屬性xi所依賴的屬性,稱為xi的父屬性。若對每個屬性xi,其父屬性已知,則可用類似如下的方法進行估計概率
因此我們將問題轉化成確定每個屬性的父屬性。
1. SPODE:確認一個超父屬性,其余屬性都依賴該屬性。
2.TAN(最大帶全生成樹)
評論
查看更多