線性判別分析(LDA)是一種降維技術(shù),其目標(biāo)是將數(shù)據(jù)集投影到較低維度空間中。線性判別分析也被稱為正態(tài)判別分析(NDA)或判別函數(shù)分析,是Fisher線性判別的推廣。
線性判別分析(LDA)和主成分分析(PCA)都是常用的線性變換技術(shù),用于降低數(shù)據(jù)的維度。
PCA可以描述為“無監(jiān)督”算法,因為它“忽略”類別標(biāo)簽,其目標(biāo)是找到最大化數(shù)據(jù)集方差的方向(所謂的主成分)。
與PCA不同,LDA是“有監(jiān)督的”,它計算出能夠最大化多個類別之間間隔的軸(“線性判別”)。
LDA是如何工作的?
LDA使用Fisher線性判別方法來區(qū)分類別。
Fisher線性判別是一種分類方法,它將高維數(shù)據(jù)投影到一維空間中,并在這個一維空間中進(jìn)行分類。
投影最大化類別均值之間的距離,同時最小化每個類別內(nèi)部的方差。
類別:1、2和3
類別均值:μ1、μ2和μ3
類別間散布:SB1、SB2和SB3
類別內(nèi)散布:SW1、SW2和SW3
數(shù)據(jù)集均值:μ
它的思想是最大化類別間散布SB,同時最小化類別內(nèi)散布SW。
數(shù)學(xué)公式
動機(jī)
-
尋找一個方向,可以放大類間差異。
-
最大化投影后的均值之間的(平方)差異。
(通過找到最大化類別均值之間差異的方向,LDA可以有效地將數(shù)據(jù)投影到一個低維子空間中,其中類別更容易分離)
-
最小化每個類別內(nèi)的投影散布
(通過找到最大化類別均值之間差異的方向,LDA可以有效地將數(shù)據(jù)投影到一個低維子空間中,其中類別更容易分離)
散布
均值差異
散布差異
Fischer 指數(shù)
這意味著在選擇特征值時,我們將始終選擇C-1個特征值及其相應(yīng)的特征向量。其中,C為數(shù)據(jù)集中的類別數(shù)。
例子
**數(shù)據(jù)集
**
步驟1:計算類內(nèi)散布矩陣(SW)
計算每個類別的協(xié)方差矩陣
類別1:
Class 1
均值矩陣:
協(xié)方差:
將S1到 S5加在一起就得到了 Sc1
類別2:
Class 2
均值矩陣:
和 Sc1一樣, 將S6 到S10加到一起, 就得到了協(xié)方差 Sc2 -
將Sc1和Sc2相加就得到了類內(nèi)散布矩陣Sw。
步驟2:計算類間散布矩陣(SB)
我們已經(jīng)有了類別1和類別2每個特征的均值。
步驟3:找到最佳LDA投影向量
與PCA類似,我們使用具有最大特征值的特征向量來找到最佳投影向量。該特征向量可以用以下形式表示。
我們已經(jīng)計算得到了SB和SW。
解出lambda后,我們得到最高值lambda = 15.65。現(xiàn)在,對于每個lambda值,解出相應(yīng)的向量。
步驟4:將樣本轉(zhuǎn)換到新子空間上。
因此,使用LDA我們進(jìn)行了如下轉(zhuǎn)換。
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4341瀏覽量
62806 -
線性
+關(guān)注
關(guān)注
0文章
199瀏覽量
25175 -
LDA
+關(guān)注
關(guān)注
0文章
29瀏覽量
10628
發(fā)布評論請先 登錄
相關(guān)推薦
評論