神武八荒一颗小说,天蚕土豆,国际完美世界下载

之前格物匯的文章給大家介紹過，隨著近幾年大數(shù)據(jù)技術(shù)的普及，企業(yè)可以獲取海量數(shù)據(jù)，但是這些海量數(shù)據(jù)帶給我們更多信息的同時(shí)，也帶來了更多的噪音和異常數(shù)據(jù)，如何降維去噪成為很多企業(yè)關(guān)注的焦點(diǎn)。而特征抽取和特征選擇都是降維的重要方法，針對(duì)于the cu rse of dimensionality(維數(shù)災(zāi)難)，都可以達(dá)到降維的目的，但是這兩種方法有所不同。

>>>>

特征抽?。‵eature Extrac tion)

Creatting a subset ofnew features by combinations of the exsiting features.也就是說，特征抽取后的新特征是原來特征的一個(gè)映射。

>>>>

特征選擇（Feature Selection）

choosing a subset of allthe features(the ones more informative。也就是說，特征選擇后的特征是原來特征的一個(gè)子集。

特征抽取是如何對(duì)數(shù)據(jù)進(jìn)行變換的呢？其兩個(gè)經(jīng)典的方法：主成分分析(Principle Components Analysis ,PCA)和線性評(píng)判分析（LinearDiscriminant Analysis,LDA）給出了解答，今天我們就先來看一下什么是主成分分析。

什么是主成分分析

主成分分析（principal component analysis），PCA是其縮寫。此方法是一種無監(jiān)督線性轉(zhuǎn)換技術(shù)，其目標(biāo)是找到數(shù)據(jù)中最主要的元素和結(jié)構(gòu)，去除噪音和冗余，將原有的復(fù)雜數(shù)據(jù)降維，揭露出隱藏在復(fù)雜數(shù)據(jù)背后的簡(jiǎn)單結(jié)構(gòu)。

主成分分析就是試圖在力保數(shù)據(jù)信息丟失最少的原則下，對(duì)這種多變量的數(shù)據(jù)表進(jìn)行最佳綜合簡(jiǎn)化。這些綜合指標(biāo)就稱為主成分,也就是說，對(duì)高維變量空間進(jìn)行降維處理，從線性代數(shù)角度來看，PCA目標(biāo)是找到一組新正交基去重新描述得到的數(shù)據(jù)空間，這些新維度就是主成分。

PCA的原理

我們現(xiàn)在來看一下PCA算法是如何實(shí)現(xiàn)的，我們通過一個(gè)具體實(shí)例來理解，假設(shè)我們有這樣一些標(biāo)準(zhǔn)化后的數(shù)據(jù)：[-1,-2],[-1,0],……,[2,1],[0,1]。我們寫成向量的形式如下：

我們還可以在二維坐標(biāo)系中畫出來：

PCA主要的目的是降維簡(jiǎn)化數(shù)據(jù)，這些數(shù)據(jù)本就是二維，想要再降維則需要重新找一個(gè)方向，并把這些點(diǎn)映射到這個(gè)方向上（降到1維）。試想，怎么才能找到這個(gè)方向，且不損失大部分信息呢？PCA的做法是，找到新映射的方法需要滿足如下兩個(gè)原則：

在新映射的方向上每個(gè)數(shù)據(jù)的映射點(diǎn)方差盡可能大。因?yàn)榉讲畲蟮臄?shù)據(jù)所包含的信息量越大。

新映射的方向應(yīng)彼此正交，這樣映射出的坐標(biāo)點(diǎn)選取才更有意義。

尋找新映射也可以看作基變換，我們可以不斷旋轉(zhuǎn)基，尋找滿足上面兩個(gè)原則的情況。如下圖所示，中間的映射方向圖里數(shù)據(jù)在新基上映射點(diǎn)的方差就比右邊圖映射點(diǎn)方差大的多。而方差大則表示該數(shù)據(jù)在該方向上含有的信息量多，反之另一個(gè)新基的方向上含有的信息量就少的多。如果這個(gè)方向上的信息量非常少，即使舍去也無傷大雅，我們就可以考慮將其舍去，實(shí)現(xiàn)降維的操作。

新基可以看成是由以前標(biāo)準(zhǔn)直角坐標(biāo)系旋轉(zhuǎn)而成，在線性代數(shù)中，這樣的坐標(biāo)軸旋轉(zhuǎn)操作可以通過原本直角坐標(biāo)系坐標(biāo)乘轉(zhuǎn)換矩陣得到：

所以我們就將問題轉(zhuǎn)換成找轉(zhuǎn)移矩陣W上，如何去求W呢？我們希望降維后的數(shù)據(jù)要盡可能的與原數(shù)據(jù)非常接近（不丟失信息）。我們可以計(jì)算轉(zhuǎn)換后的坐標(biāo)Z與轉(zhuǎn)換之前的坐標(biāo)X之間的距離：

因此為了讓轉(zhuǎn)換距離最小，我們可以將問題等價(jià)轉(zhuǎn)換成：

由于中間推導(dǎo)過程較為復(fù)雜，故在此省略，最后求解推導(dǎo)的結(jié)果為：

這不正是特征值的定義公式嗎？所以只需要對(duì)協(xié)方差矩陣進(jìn)行特征值分解，并將求得的特征值排序，取前N（PCA所要降低的目標(biāo)維度）個(gè)特征值構(gòu)成的向量W，即為PCA的解。

PCA優(yōu)缺點(diǎn)

優(yōu)點(diǎn)

（1）它是無監(jiān)督學(xué)習(xí)，只與數(shù)據(jù)相關(guān)，無參數(shù)限制。

（2）通過PCA降維，可以達(dá)到簡(jiǎn)化模型和對(duì)數(shù)據(jù)進(jìn)行壓縮的效果。同時(shí)最大程度的保持了原有數(shù)據(jù)的信息。

（3）各主成分之間正交，可消除原始數(shù)據(jù)成分間的相互影響。

（4）計(jì)算方法簡(jiǎn)單，易于在計(jì)算機(jī)上實(shí)現(xiàn)。

缺點(diǎn)

（1）如果用戶對(duì)觀測(cè)對(duì)象有一定的先驗(yàn)知識(shí)，掌握了數(shù)據(jù)的一些特征，卻無法通過參數(shù)化等方法對(duì)處理過程進(jìn)行干預(yù)，可能會(huì)得不到預(yù)期的效果，效率也不高。

（2）貢獻(xiàn)率小的主成分往往可能含有對(duì)樣本差異的重要信息。

好了，今天格物匯的內(nèi)容就到這里，近期我們還將介紹特征抽取的另一種方法LDA（線性評(píng)判分析），敬請(qǐng)期待。

本文作者：格創(chuàng)東智OT團(tuán)隊(duì)（轉(zhuǎn)載請(qǐng)注明作者及來源）

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

物聯(lián)網(wǎng)

物聯(lián)網(wǎng)

+關(guān)注

關(guān)注
2909

文章
44635

瀏覽量
373368
PCA

PCA

+關(guān)注

關(guān)注
0

文章
89

瀏覽量
29608
智能制造

智能制造

+關(guān)注

關(guān)注
48

文章
5561

瀏覽量
76337
工業(yè)互聯(lián)網(wǎng)

工業(yè)互聯(lián)網(wǎng)

+關(guān)注

關(guān)注
28

文章
4322

瀏覽量
94116

評(píng)論

相關(guān)推薦

戴爾I7的圖紙下載版號(hào)是PCA40D

戴爾I7的圖紙版號(hào)是PCA40D

發(fā)表于 12-20 14:43 ?0次下載

【「從算法到電路—數(shù)字芯片算法的電路實(shí)現(xiàn)」閱讀體驗(yàn)】+內(nèi)容簡(jiǎn)介

的乘法器和除法器設(shè)計(jì)，在不同專業(yè)芯片領(lǐng)域有著廣泛應(yīng)用的數(shù)字信號(hào)發(fā)生器、復(fù)數(shù)求模求角度運(yùn)算器、普通濾波器、E△ADC中使用的抽取濾波器、基于 E△結(jié)構(gòu)實(shí)現(xiàn)的小數(shù)倍分頻器、CRC校驗(yàn)器等。每個(gè)電路均給出了算法

發(fā)表于 11-21 17:14

ADS1299用ADS采集數(shù)據(jù)，ADS可以不抽取看原始得數(shù)據(jù)嗎？

1.用ADS采集數(shù)據(jù)，將時(shí)域的數(shù)據(jù)進(jìn)行FFT變換，得到頻譜里面看似有 Sinc Filter 抽取，不需要抽取是否可以？ADS可以不抽取看原始得數(shù)據(jù)嗎？ 2.這個(gè)和手冊(cè)上的頻譜不一樣？請(qǐng)問這個(gè)是什么問題呢？

發(fā)表于 11-20 06:05

求助，關(guān)于AMC1306M25抽取率OSR的疑問求解

我客戶目前正在評(píng)估AMC1306M25，有以下疑問需要解答，可否幫忙確認(rèn)一下：圖為官方的例程，兩個(gè)都應(yīng)該指的是抽取率OSR。但是當(dāng)客戶在第一個(gè)函數(shù)中填的抽取率為64，到第二張圖中ratio的值

發(fā)表于 11-14 07:09

技術(shù)科普 | 芯片設(shè)計(jì)中的LEF文件淺析

發(fā)表于 11-13 01:03 ?254次閱讀

技術(shù)科普 | 芯片設(shè)計(jì)中的LEF文件<b class='flag-5'>淺析</b>

特征工程實(shí)施步驟

數(shù)據(jù)中提取數(shù)值表示以供無監(jiān)督模型使用的方法（例如，試圖從之前非結(jié)構(gòu)化的數(shù)據(jù)集中提取結(jié)構(gòu)）。特征工程包括這兩種情況，以及更多內(nèi)容。數(shù)據(jù)從業(yè)者通常依賴ML和深度學(xué)習(xí)算法

發(fā)表于 10-23 08:07 ?270次閱讀

求助，AD7190關(guān)于Σ-Δ ADC其中的抽取濾波器的數(shù)據(jù)轉(zhuǎn)換問題求解

AD7190可以通過模式寄存器的FS[0:9]設(shè)置輸出速率， 0-1023的范圍；此時(shí)設(shè)置的數(shù)據(jù)速率選擇位是否就是Σ-Δ ADC抽取濾波器的抽取比？關(guān)于抽取濾波器，此時(shí)我設(shè)置的為1023，那我是否

發(fā)表于 09-09 06:11

防水和防振動(dòng)功能2.5 英寸SAS/SATA硬盤抽取盒非常適合車載數(shù)據(jù)存儲(chǔ)

首創(chuàng)的防水和防振動(dòng)功能 2.5 英寸 SAS/SATA 硬盤抽取盒 – 非常適合車載數(shù)據(jù)存儲(chǔ)

發(fā)表于 08-12 19:16 ?458次閱讀

防水和防振動(dòng)功能2.5 英寸SAS/SATA硬盤<b class='flag-5'>抽取</b>盒非常適合車載數(shù)據(jù)存儲(chǔ)

圖像識(shí)別算法的核心技術(shù)是什么

圖像識(shí)別算法是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究方向，其目標(biāo)是使計(jì)算機(jī)能夠像人類一樣理解和識(shí)別圖像中的內(nèi)容。圖像識(shí)別算法的核心技術(shù)包括以下幾個(gè)方面：特征提取特征提取是圖像識(shí)別

發(fā)表于 07-16 11:02 ?642次閱讀

使用rtthread settings配置完i2c后，與pca9535pw的第一通訊報(bào)錯(cuò)，為什么？

在使用rtthread settings配置完i2c后，與pca9535pw的第一通訊報(bào)錯(cuò)，不知道為什么？代碼如下： main: /* 初始化PCA

發(fā)表于 07-09 08:04

PCA9655E I / O端口擴(kuò)展器 I

電子發(fā)燒友網(wǎng)為你提供ON Semiconductor(ON Semiconductor)PCA9655E相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè)，更有PCA9655E的引腳圖、接線圖、封裝手冊(cè)、中文資料、英文資料，PCA9655E真值表，

發(fā)表于 06-28 16:28

<b class='flag-5'>PCA</b>9655E I / O端口擴(kuò)展器 I

機(jī)器學(xué)習(xí)的經(jīng)典算法與應(yīng)用

關(guān)于數(shù)據(jù)機(jī)器學(xué)習(xí)就是喂入算法和數(shù)據(jù)，讓算法從數(shù)據(jù)中尋找一種相應(yīng)的關(guān)系。Iris鳶尾花數(shù)據(jù)集是一個(gè)經(jīng)典數(shù)據(jù)集，在統(tǒng)計(jì)學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域都經(jīng)常被用作示例。數(shù)據(jù)集內(nèi)包含3類共150條記錄，每類各50個(gè)數(shù)

發(fā)表于 06-27 08:27 ?1661次閱讀