在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何看懂R中的探索性數(shù)據(jù)分析(附R代碼)

電子工程師 ? 來(lái)源:未知 ? 作者:易水寒 ? 2018-11-25 10:52 ? 次閱讀

探索性數(shù)據(jù)分析(EDA)是數(shù)據(jù)項(xiàng)目的第一步。我們將創(chuàng)建一個(gè)代碼模板來(lái)實(shí)現(xiàn)這一功能。

簡(jiǎn)介

EDA由單變量(1個(gè)變量)和雙變量(2個(gè)變量)分析組成。在這篇文章中,我們將回顧一些我們?cè)诎咐治鲋惺褂玫墓δ埽?/p>

第1步:取得并了解數(shù)據(jù);

第2步:分析分類變量;

第3步:分析數(shù)值變量;

第4步:同時(shí)分析數(shù)值和分類變量。

基本EDA中的一些關(guān)鍵點(diǎn):

數(shù)據(jù)類型

異常值

缺失值

數(shù)值和分類變量的分布(數(shù)字和圖形的形式)

分析結(jié)果的類型

結(jié)果有兩種類型:信息型或操作型。

信息型:例如繪圖或任何長(zhǎng)變量概要,我們無(wú)法從中過(guò)濾數(shù)據(jù),但它會(huì)立即為我們提供大量信息。大多數(shù)用于EDA階段。

操作型:這類結(jié)果可直接用于數(shù)據(jù)工作流(例如,選擇缺失比例低于20%的變量)。最常用于數(shù)據(jù)準(zhǔn)備階段。

準(zhǔn)備開(kāi)始

如果您沒(méi)有這些擴(kuò)展包,請(qǐng)刪除‘#’來(lái)導(dǎo)入:

# install.packages("tidyverse")

# install.packages("funModeling")

# install.packages("Hmisc")

funModeling已發(fā)布更新版本的Ago-1,請(qǐng)更新!

現(xiàn)在加載所需的程序包

library(funModeling)

library(tidyverse)

library(Hmisc)

tl; dr(代碼)

使用以下函數(shù)一鍵運(yùn)行本文中的所有函數(shù):

basic_eda <- function(data)

{

glimpse(data)

df_status(data)

freq(data)

profiling_num(data)

plot_num(data)

describe(data)

}

替換data為您的數(shù)據(jù),然后就可以啦!

basic_eda(my_amazing_data)

創(chuàng)建示例數(shù)據(jù):

使用heart_disease數(shù)據(jù)(來(lái)自funModeling包)。為了使本文容易理解,我們只選取四個(gè)變量。

data=heart_disease %>% select(age, max_heart_rate, thal, has_heart_disease)

第一步:了解數(shù)據(jù)

統(tǒng)計(jì)第一個(gè)例子中觀測(cè)(行)和變量的數(shù)量,并使用head顯示數(shù)據(jù)的前幾行。

glimpse(data)

## Observations: 303

## Variables: 4

## $ age 63, 67, 67, 37, 41, 56, 62, 57, 63, 53, 57, ...

## $ max_heart_rate 150, 108, 129, 187, 172, 178, 160, 163, 147,...

## $ thal 6, 3, 7, 3, 3, 3, 3, 3, 7, 7, 6, 3, 6, 7, 7,...

## $ has_heart_disease no, yes, yes, no, no, no, yes, no, yes, yes,...

獲取有關(guān)數(shù)據(jù)類型,零值,無(wú)窮數(shù)和缺失值的統(tǒng)計(jì)信息:

df_status(data)

## variable q_zeros p_zeros q_na p_na q_inf p_inf type unique

## 1 age 0 0 0 0.00 0 0 integer 41

## 2 max_heart_rate 0 0 0 0.00 0 0 integer 91

## 3 thal 0 0 2 0.66 0 0 factor 3

## 4 has_heart_disease 0 0 0 0.00 0 0 factor 2

df_status會(huì)返回一個(gè)表格,因此很容易篩選出符合某些條件的變量,例如:

有至少80%的非空值(p_na < 20)

有少于50個(gè)唯一值(unique <= 50)

建議:

所有變量都是正確的數(shù)據(jù)類型嗎?

有含有很多零或空值的變量嗎?

有高基數(shù)變量嗎?

更多相關(guān)信息請(qǐng)瀏覽:

https://livebook.datascienceheroes.com/exploratory-data-analysis.html

第二步:分析分類變量

freq函數(shù)自動(dòng)統(tǒng)計(jì)數(shù)據(jù)集中所有因子或字符變量:

freq(data)

## thal frequency percentage cumulative_perc

## 1 3 166 54.79 55

## 2 7 117 38.61 93

## 3 6 18 5.94 99

## 4 2 0.66 100

## has_heart_disease frequency percentage cumulative_perc

## 1 no 164 54 54

## 2 yes 139 46 100

## [1] "Variables processed: thal, has_heart_disease"

建議:

如果freq用于一個(gè)變量-freq(data$variable),它會(huì)生成一個(gè)表格。這對(duì)于處理高基數(shù)變量(如郵政編碼)非常有用。

將圖表以jpeg格式保存到當(dāng)前目錄中:

freq(data, path_out = ".")

分類變量的所有類別都有意義嗎?

有很多缺失值嗎?

經(jīng)常檢查絕對(duì)值和相對(duì)值。

第三步:分析數(shù)值變量

我們將看到:plot_num和profiling_num兩個(gè)函數(shù),它們都自動(dòng)統(tǒng)計(jì)數(shù)據(jù)集中所有數(shù)值/整數(shù)變量:

1. 繪制圖表

plot_num(data)

將圖表導(dǎo)出為jpeg格式:

plot_num(data, path_out = ".")

建議:

試著找出極度偏態(tài)分布的變量。

作圖檢查任何有異常值的變量。

更多相關(guān)信息請(qǐng)瀏覽:

https://livebook.datascienceheroes.com/exploratory-data-analysis.html

2. 定量分析

profiling_num自動(dòng)統(tǒng)計(jì)所有數(shù)值型/整型變量:

data_prof = profiling_num(data)

## variable mean std_dev variation_coef p_01 p_05 p_25 p_50 p_75 p_95

## 1 age 54 9 0.17 35 40 48 56 61 68

## 2 max_heart_rate 150 23 0.15 95 108 134 153 166 182

## p_99 skewness kurtosis iqr range_98 range_80

## 1 71 -0.21 2.5 13 [35, 71] [42, 66]

## 2 192 -0.53 2.9 32 [95.02, 191.96] [116, 176.6]

建議:

嘗試根據(jù)其分布描述每個(gè)變量(對(duì)報(bào)告分析結(jié)果也很有用)。

注意標(biāo)準(zhǔn)差很大的變量。

選擇您最熟悉的統(tǒng)計(jì)指標(biāo):data_prof %>% select(variable, variation_coef, range_98):variation_coef得到較大值可能提示異常值。range_98顯示絕大部分?jǐn)?shù)值的范圍。

第四步:同時(shí)分析數(shù)值和分類變量

使用Hmisc包的describe。

library(Hmisc)

describe(data)

## data

##

## 4 Variables 303 Observations

## ---------------------------------------------------------------------------

## age

## n missing distinct Info Mean Gmd .05 .10

## 303 0 41 0.999 54.44 10.3 40 42

## .25 .50 .75 .90 .95

## 48 56 61 66 68

##

## lowest : 29 34 35 37 38, highest: 70 71 74 76 77

## ---------------------------------------------------------------------------

## max_heart_rate

## n missing distinct Info Mean Gmd .05 .10

## 303 0 91 1 149.6 25.73 108.1 116.0

## .25 .50 .75 .90 .95

## 133.5 153.0 166.0 176.6 181.9

##

## lowest : 71 88 90 95 96, highest: 190 192 194 195 202

## ---------------------------------------------------------------------------

## thal

## n missing distinct

## 301 2 3

##

## Value 3 6 7

## Frequency 166 18 117

## Proportion 0.55 0.06 0.39

## ---------------------------------------------------------------------------

## has_heart_disease

## n missing distinct

## 303 0 2

##

## Value no yes

## Frequency 164 139

## Proportion 0.54 0.46

## ---------------------------------------------------------------------------

這對(duì)于快速了解所有變量非常有用。但是當(dāng)我們想要使用統(tǒng)計(jì)結(jié)果來(lái)改變我們的數(shù)據(jù)工作流時(shí),這個(gè)函數(shù)不如freq和profiling_num好用。

建議:

檢查最小值和最大值(異常值)。

檢查分布(與之前相同)。

更多相關(guān)信息請(qǐng)瀏覽:

https://livebook.datascienceheroes.com/exploratory-data-analysis.html

推薦閱讀

(點(diǎn)擊標(biāo)題可跳轉(zhuǎn)閱讀)

數(shù)據(jù)科學(xué)家需要知道的 5 個(gè)基本統(tǒng)計(jì)學(xué)概念

2 種數(shù)據(jù)科學(xué)編程中的思維模式,了解一下

數(shù)據(jù)科學(xué)領(lǐng)域,你該選 Python 還是 R ?

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • eda
    eda
    +關(guān)注

    關(guān)注

    71

    文章

    2759

    瀏覽量

    173275
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4788

    瀏覽量

    68617
  • 數(shù)據(jù)分析
    +關(guān)注

    關(guān)注

    2

    文章

    1449

    瀏覽量

    34060

原文標(biāo)題:一文讀懂 R 中的探索性數(shù)據(jù)分析

文章出處:【微信號(hào):DBDevs,微信公眾號(hào):數(shù)據(jù)分析與開(kāi)發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    數(shù)據(jù)分析需要的技能

    將原始數(shù)據(jù)轉(zhuǎn)換成方便實(shí)用的格式,是數(shù)據(jù)分析師必備基礎(chǔ)能力,需要使用的工具有Excel、R語(yǔ)言以及python編程語(yǔ)言等;可視化報(bào)表是對(duì)創(chuàng)建和研究數(shù)據(jù)的視覺(jué)表現(xiàn),方便業(yè)務(wù)快速
    發(fā)表于 04-10 15:59

    怎么有效學(xué)習(xí)Python數(shù)據(jù)分析

    的過(guò)程。對(duì)于新手,如何學(xué)好python,這些很關(guān)鍵:Part1:能掌握好Python關(guān)鍵代碼以及Pandas、Numpy、Matplotlib、Seaborn這四個(gè)基本工具包,便能獨(dú)立完成一些簡(jiǎn)單的數(shù)據(jù)分析
    發(fā)表于 06-28 15:18

    什么是探索性測(cè)試ET

    探索性測(cè)試ET(exploratory)是和ST(script based test)相比較而言的.籠統(tǒng)地說(shuō),ST就是有確定的步驟和預(yù)期目標(biāo)的測(cè)試.探索性測(cè)試可以說(shuō)是一種測(cè)試思維。它沒(méi)有很多實(shí)際
    發(fā)表于 07-05 06:38

    數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》總結(jié)及代碼---chap3數(shù)據(jù)探索

    數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》總結(jié)及代碼練習(xí)---chap3 數(shù)據(jù)探索
    發(fā)表于 05-25 13:25

    R語(yǔ)言)風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)分析 精選資料分享

    風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)分析基于R語(yǔ)言,對(duì)德國(guó)某風(fēng)電場(chǎng)7臺(tái)850kw的風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)進(jìn)行分析。約5萬(wàn)條數(shù)據(jù)。部分
    發(fā)表于 07-12 07:10

    數(shù)據(jù)探索數(shù)據(jù)預(yù)處理

    目錄1數(shù)據(jù)探索數(shù)據(jù)預(yù)處理21.1 賽題回顧21.2 數(shù)據(jù)探索性分析與異常值處理21.3 相關(guān)性
    發(fā)表于 07-12 08:37

    探索性數(shù)據(jù)分析(EDA)及其應(yīng)用

    所謂探索性數(shù)據(jù)分析(EDA),是指對(duì)已有的數(shù)據(jù)(特別是調(diào)查或觀察得來(lái)的原始數(shù)據(jù))在盡量少的先驗(yàn)假定下進(jìn)行探索,通過(guò)作圖、制表、方程擬合、計(jì)算
    發(fā)表于 01-24 10:02 ?1509次閱讀
    <b class='flag-5'>探索性</b><b class='flag-5'>數(shù)據(jù)分析</b>(EDA)及其應(yīng)用

    設(shè)計(jì)多網(wǎng)絡(luò)協(xié)議的Python網(wǎng)絡(luò)編程的探索性指南

    很高興看到本書(shū)出版了,我要感謝所有為本書(shū)的出版做出貢獻(xiàn)的人。本書(shū)是Python網(wǎng)絡(luò)編程方面的探索性指南,涉及了很多網(wǎng)絡(luò)協(xié)議
    發(fā)表于 09-14 10:47 ?5次下載

    探索性數(shù)據(jù)分析系統(tǒng)對(duì)基因組醫(yī)學(xué)研究的幫助

    基于高性能計(jì)算集群這樣的新一代測(cè)序器和快速演化分析平臺(tái),基因研究領(lǐng)域已經(jīng)被海量數(shù)據(jù)淹沒(méi)。眾多基因、癌癥、醫(yī)學(xué)研究機(jī)構(gòu)和制藥公司不斷產(chǎn)生的海量數(shù)據(jù),已不再能被及時(shí)的處理并恰當(dāng)?shù)拇鎯?chǔ),甚至通過(guò)常規(guī)通訊
    發(fā)表于 10-11 09:46 ?0次下載
    <b class='flag-5'>探索性</b>大<b class='flag-5'>數(shù)據(jù)分析</b>系統(tǒng)對(duì)基因組醫(yī)學(xué)研究的幫助

    細(xì)分模型探索性數(shù)據(jù)分析和預(yù)處理

    交流學(xué)習(xí)!文章較長(zhǎng),建議收藏~ 客戶細(xì)分模型是將整體會(huì)員劃分為不同的細(xì)分群體或類別,然后基于細(xì)分群體做管理、營(yíng)銷和關(guān)懷。客戶細(xì)分模型常用于整體會(huì)員的宏觀性分析以及探索性分析,通過(guò)細(xì)分建立初步認(rèn)知,為下一步的
    的頭像 發(fā)表于 11-08 16:05 ?1584次閱讀
    細(xì)分模型<b class='flag-5'>探索性</b><b class='flag-5'>數(shù)據(jù)分析</b>和預(yù)處理

    磐石測(cè)控:PS-2205ST-R旋鈕扭力測(cè)試儀的數(shù)據(jù)分析

    磐石測(cè)控:PS-2205ST-R旋鈕扭力測(cè)試儀的數(shù)據(jù)分析
    的頭像 發(fā)表于 02-23 15:57 ?518次閱讀
    磐石測(cè)控:PS-2205ST-<b class='flag-5'>R</b>旋鈕扭力測(cè)試儀的<b class='flag-5'>數(shù)據(jù)分析</b>?

    Sweetviz讓你三行代碼實(shí)現(xiàn)探索性數(shù)據(jù)分析

    Sweetviz是一個(gè)開(kāi)源Python庫(kù),它只需三行代碼就可以生成漂亮的高精度可視化效果來(lái)啟動(dòng)EDA(探索性數(shù)據(jù)分析)。輸出一個(gè)HTML。 如上圖所示,它不僅能根據(jù)性別、年齡等不同欄目縱向分析
    的頭像 發(fā)表于 10-17 10:59 ?456次閱讀
    Sweetviz讓你三行<b class='flag-5'>代碼</b>實(shí)現(xiàn)<b class='flag-5'>探索性</b><b class='flag-5'>數(shù)據(jù)分析</b>

    Sweetviz: 讓你三行代碼實(shí)現(xiàn)探索性數(shù)據(jù)分析

    Sweetviz是一個(gè)開(kāi)源Python庫(kù),它只需三行代碼就可以生成漂亮的高精度可視化效果來(lái)啟動(dòng)EDA(探索性數(shù)據(jù)分析)。輸出一個(gè)HTML。 它不僅能根據(jù)性別、年齡等不同欄目縱向分析
    的頭像 發(fā)表于 10-31 10:28 ?936次閱讀
    Sweetviz: 讓你三行<b class='flag-5'>代碼</b>實(shí)現(xiàn)<b class='flag-5'>探索性</b><b class='flag-5'>數(shù)據(jù)分析</b>

    為什么選擇eda進(jìn)行數(shù)據(jù)分析

    數(shù)據(jù)科學(xué)領(lǐng)域,數(shù)據(jù)分析是一個(gè)復(fù)雜且多步驟的過(guò)程,它涉及到數(shù)據(jù)的收集、清洗、探索、建模和解釋。在這些步驟
    的頭像 發(fā)表于 11-13 10:41 ?240次閱讀

    eda與傳統(tǒng)數(shù)據(jù)分析的區(qū)別

    EDA(Exploratory Data Analysis,探索性數(shù)據(jù)分析)與傳統(tǒng)數(shù)據(jù)分析之間存在顯著的差異。以下是兩者的主要區(qū)別: 一、分析目的和方法論 EDA 目的 :EDA的主要
    的頭像 發(fā)表于 11-13 10:52 ?328次閱讀
    主站蜘蛛池模板: 天天干天天操天天爽| 天天澡天天干| 日本黄色网址大全| 国产欧美日韩haodiaose| 在线视频你懂得| 欧美一级黄色录相| 一区二区三区午夜| 视频h在线| 天堂网成人| wwwxxxx在线观看| 婷婷色九月综合激情丁香| 亚洲精品电影天堂网| 激情六月色| 国内色综合精品视频在线| 99精品热| 狠狠色噜噜狠狠狠狠狠色综合久久| 人人艹人人干| 中文字幕第15页| 好男人社区www的视频免费| 国产欧美日韩va| 午夜剧场一级片| 97人人人人| 亚洲国产人久久久成人精品网站 | 天天视频色版| 97国产精品人人爽人人做| 国产h视频在线观看高清| 日本视频色| 男女一级特黄a大片| 一本到卡二卡三卡视频| 成人国产精品毛片| 真人午夜a一级毛片| 免费人成在线观看网站品爱网| 美女午夜影院| 五月激情综合| 天天操天天操天天操香蕉| 国产男女怕怕怕免费视频| 国产精品四虎在线观看免费| 国产h视频在线观看高清| 美女张开大腿让男人捅| 88av视频在线观看| 日产毛片|