之前格物匯的文章給大家介紹過,隨著近幾年大數(shù)據(jù)技術(shù)的普及,企業(yè)可以獲取海量數(shù)據(jù),但是這些海量數(shù)據(jù)帶給我們更多信息的同時(shí),也帶來了更多的噪音和異常數(shù)據(jù),如何降維去噪成為很多企業(yè)關(guān)注的焦點(diǎn)。而特征抽取和特征選擇都是降維的重要方法,針對(duì)于the curse of dimensionality(維數(shù)災(zāi)難),都可以達(dá)到降維的目的,但是這兩種方法有所不同。
>>>>
Creatting a subset ofnew features by combinations of the exsiting features.也就是說,特征抽取后的新特征是原來特征的一個(gè)映射。
>>>>
特征選擇(Feature Selection)
choosing a subset of allthe features(the ones more informative。也就是說,特征選擇后的特征是原來特征的一個(gè)子集。
特征抽取是如何對(duì)數(shù)據(jù)進(jìn)行變換的呢?其兩個(gè)經(jīng)典的方法:主成分分析(Principle Components Analysis ,PCA)和線性評(píng)判分析(LinearDiscriminant Analysis,LDA)給出了解答,今天我們就先來看一下什么是主成分分析。
什么是主成分分析
主成分分析(principal component analysis),PCA是其縮寫。此方法是一種無監(jiān)督線性轉(zhuǎn)換技術(shù),其目標(biāo)是找到數(shù)據(jù)中最主要的元素和結(jié)構(gòu),去除噪音和冗余,將原有的復(fù)雜數(shù)據(jù)降維,揭露出隱藏在復(fù)雜數(shù)據(jù)背后的簡(jiǎn)單結(jié)構(gòu)。
主成分分析就是試圖在力保數(shù)據(jù)信息丟失最少的原則下,對(duì)這種多變量的數(shù)據(jù)表進(jìn)行最佳綜合簡(jiǎn)化。這些綜合指標(biāo)就稱為主成分,也就是說,對(duì)高維變量空間進(jìn)行降維處理,從線性代數(shù)角度來看,PCA目標(biāo)是找到一組新正交基去重新描述得到的數(shù)據(jù)空間,這些新維度就是主成分。
PCA的原理
我們現(xiàn)在來看一下PCA算法是如何實(shí)現(xiàn)的,我們通過一個(gè)具體實(shí)例來理解,假設(shè)我們有這樣一些標(biāo)準(zhǔn)化后的數(shù)據(jù):[-1,-2],[-1,0],……,[2,1],[0,1]。我們寫成向量的形式如下:
我們還可以在二維坐標(biāo)系中畫出來:
PCA主要的目的是降維簡(jiǎn)化數(shù)據(jù),這些數(shù)據(jù)本就是二維,想要再降維則需要重新找一個(gè)方向,并把這些點(diǎn)映射到這個(gè)方向上(降到1維)。試想,怎么才能找到這個(gè)方向,且不損失大部分信息呢?PCA的做法是,找到新映射的方法需要滿足如下兩個(gè)原則:
在新映射的方向上每個(gè)數(shù)據(jù)的映射點(diǎn)方差盡可能大。因?yàn)榉讲畲蟮臄?shù)據(jù)所包含的信息量越大。
新映射的方向應(yīng)彼此正交,這樣映射出的坐標(biāo)點(diǎn)選取才更有意義。
尋找新映射也可以看作基變換,我們可以不斷旋轉(zhuǎn)基,尋找滿足上面兩個(gè)原則的情況。如下圖所示,中間的映射方向圖里數(shù)據(jù)在新基上映射點(diǎn)的方差就比右邊圖映射點(diǎn)方差大的多。而方差大則表示該數(shù)據(jù)在該方向上含有的信息量多,反之另一個(gè)新基的方向上含有的信息量就少的多。如果這個(gè)方向上的信息量非常少,即使舍去也無傷大雅,我們就可以考慮將其舍去,實(shí)現(xiàn)降維的操作。
新基可以看成是由以前標(biāo)準(zhǔn)直角坐標(biāo)系旋轉(zhuǎn)而成,在線性代數(shù)中,這樣的坐標(biāo)軸旋轉(zhuǎn)操作可以通過原本直角坐標(biāo)系坐標(biāo)乘轉(zhuǎn)換矩陣得到:
所以我們就將問題轉(zhuǎn)換成找轉(zhuǎn)移矩陣W上,如何去求W呢?我們希望降維后的數(shù)據(jù)要盡可能的與原數(shù)據(jù)非常接近(不丟失信息)。我們可以計(jì)算轉(zhuǎn)換后的坐標(biāo)Z與轉(zhuǎn)換之前的坐標(biāo)X之間的距離:
因此為了讓轉(zhuǎn)換距離最小,我們可以將問題等價(jià)轉(zhuǎn)換成:
由于中間推導(dǎo)過程較為復(fù)雜,故在此省略,最后求解推導(dǎo)的結(jié)果為:
這不正是特征值的定義公式嗎?所以只需要對(duì)協(xié)方差矩陣進(jìn)行特征值分解,并將求得的特征值排序,取前N(PCA所要降低的目標(biāo)維度)個(gè)特征值構(gòu)成的向量W,即為PCA的解。
PCA優(yōu)缺點(diǎn)
優(yōu)點(diǎn)
(1)它是無監(jiān)督學(xué)習(xí),只與數(shù)據(jù)相關(guān),無參數(shù)限制。
(2)通過PCA降維,可以達(dá)到簡(jiǎn)化模型和對(duì)數(shù)據(jù)進(jìn)行壓縮的效果。同時(shí)最大程度的保持了原有數(shù)據(jù)的信息。
(3)各主成分之間正交,可消除原始數(shù)據(jù)成分間的相互影響。
(4)計(jì)算方法簡(jiǎn)單,易于在計(jì)算機(jī)上實(shí)現(xiàn)。
缺點(diǎn)
(1)如果用戶對(duì)觀測(cè)對(duì)象有一定的先驗(yàn)知識(shí),掌握了數(shù)據(jù)的一些特征,卻無法通過參數(shù)化等方法對(duì)處理過程進(jìn)行干預(yù),可能會(huì)得不到預(yù)期的效果,效率也不高。
(2)貢獻(xiàn)率小的主成分往往可能含有對(duì)樣本差異的重要信息。
好了,今天格物匯的內(nèi)容就到這里,近期我們還將介紹特征抽取的另一種方法LDA(線性評(píng)判分析),敬請(qǐng)期待。
本文作者:格創(chuàng)東智OT團(tuán)隊(duì)(轉(zhuǎn)載請(qǐng)注明作者及來源)
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2909文章
44635瀏覽量
373368 -
PCA
+關(guān)注
關(guān)注
0文章
89瀏覽量
29608 -
智能制造
+關(guān)注
關(guān)注
48文章
5561瀏覽量
76337 -
工業(yè)互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
28文章
4322瀏覽量
94116
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論