在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

統(tǒng)計(jì)學(xué)知識(shí)大梳理

QuTG_CloudBrain ? 來源:PMCAFF ? 2023-11-24 17:07 ? 次閱讀

道德經(jīng)云:”道生一,一生二,二生三,三生萬物“。學(xué)習(xí)知識(shí)亦是如此,一個(gè)概念衍生出兩個(gè)概念,兩個(gè)概念演化出更小的子概念,接著衍生出整個(gè)知識(shí)體系。

筆者結(jié)合自己對(duì)統(tǒng)計(jì)學(xué)和概率論知識(shí)的理解寫了這篇文章,有以下幾個(gè)目標(biāo)

目標(biāo)一:構(gòu)建出可以讓人理解的知識(shí)架構(gòu),讓讀者對(duì)這個(gè)知識(shí)體系一覽無余

目標(biāo)二:盡l量闡述每個(gè)知識(shí)在數(shù)據(jù)分析工作中的使用場(chǎng)景及邊界條件

目標(biāo)三:為讀者搭建從“理論”到“實(shí)踐“的橋梁

概述

你的“對(duì)象” 是誰(shuí)?

此對(duì)象非彼“對(duì)象”,我們學(xué)習(xí)“概率和統(tǒng)計(jì)學(xué)”目的在于應(yīng)用到對(duì)于“對(duì)象”的研究中,筆者將我們要研究的“對(duì)象”按照維度分為了兩大類。

e6b8b24e-76d0-11ee-939d-92fbcf53809c.jpg

一維:就是當(dāng)前擺在我們面前的“一組”,“一批”,哪怕是“一坨”數(shù)據(jù)。這里我們會(huì)用到統(tǒng)計(jì)學(xué)的知識(shí)去研究這類對(duì)象。

二維:就是研究某個(gè)“事件”,筆者認(rèn)為事件是依托于“時(shí)間軸”存在的,過去是否發(fā)生,現(xiàn)在是可能會(huì)出現(xiàn)幾種情況,每種情況未來發(fā)生的可能性有多大?這類問題是屬于概率論的范疇。

因此,我們?cè)谧鰯?shù)據(jù)分析的研究前,先弄清我們研究的對(duì)象屬于哪類范疇,然后在按著這個(gè)分支檢索自己該用到的知識(shí)或方法來解決問題。

分析就像在給 “愛人” 畫肖像

從外觀的角度描述一個(gè)姑娘,一般是面容怎么樣?身段怎么樣??jī)蓚€(gè)維度去描述。就像畫一幅肖像畫,我們的研究“對(duì)象”在描述性分析中也是通過兩個(gè)維度去來描述即,“集中趨勢(shì)---代表值”,“分散和程度”。

e6c3c300-76d0-11ee-939d-92fbcf53809c.jpg

看到這幾個(gè)概念是不是就很熟悉了?筆者認(rèn)為一個(gè)描述性的分析就是從這兩個(gè)維度來說清楚你要研究的對(duì)象是什么樣子?至于從哪些特征開始說呢?就是常用的概念“均值”,“方差”之類的。下面我們進(jìn)入正題,筆者將詳細(xì)闡述整個(gè)知識(shí)架構(gòu)。

01

對(duì)“數(shù)據(jù)”的描述性分析

e6d20b90-76d0-11ee-939d-92fbcf53809c.jpg

數(shù)據(jù)分析中最常規(guī)的情況,比如你手上有一組,一批或者一坨數(shù)據(jù),數(shù)據(jù)分析的過程就是通過“描述”從這些數(shù)據(jù)中獲取的信息,通常可以從兩個(gè)維度去描述:

1. 集中趨勢(shì)量度:為這批數(shù)據(jù)找到它們的“代表”

均值(μ)

e6dc2f76-76d0-11ee-939d-92fbcf53809c.jpg

均值的局限性

均值是最常用的平均數(shù)之一,但是它的局限性在于“若用均值描述的數(shù)據(jù)中存在異常值的情況,會(huì)產(chǎn)生偏差” ;例如下面一組數(shù)據(jù)就不太適合用均值來代表

這5個(gè)人的年齡均值是:31.2歲

e6e901ec-76d0-11ee-939d-92fbcf53809c.jpg

很顯然,在這組數(shù)據(jù)中,大部分人的年齡是10幾歲的青少年,但是E的年齡是100歲為異常值,用均值來描述他們的年齡是31.2歲,很顯然用均值作為描述這組數(shù)據(jù)是不合適的,那么我們?cè)撊绾螠?zhǔn)確的表征這組數(shù)據(jù)呢???

中位數(shù)

中位數(shù),又稱中點(diǎn)數(shù),中值。是按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù)。

中位數(shù)的局限

e6f9222a-76d0-11ee-939d-92fbcf53809c.jpg

回到上一個(gè)例子,若用中位數(shù)來表征這組數(shù)據(jù)的平均年齡,就變得更加合理,中位數(shù)15。

那么我們?cè)诳匆幌孪旅嬉唤M數(shù)據(jù),中位數(shù)的表現(xiàn)又如何?

e70829d2-76d0-11ee-939d-92fbcf53809c.jpg

中位數(shù):45

這組數(shù)據(jù)的中位數(shù)為:45,但是中位數(shù)45并不能代表這組數(shù)據(jù)。

因?yàn)檫@組數(shù)據(jù)分為兩批,兩批的差異很大。那么如何處理這類數(shù)據(jù)呢?接下來介紹第三位平均數(shù)。

眾數(shù)

眾數(shù)是樣本觀測(cè)值在頻數(shù)分布表中頻數(shù)最多的那一組的組中值。

平均數(shù)可以表征一批數(shù)據(jù)的典型值,但是僅憑平均數(shù)還不能給我們提供足夠的信息,平均數(shù)無法表征一組數(shù)據(jù)的分散程度。

2. 分散性與變異性的量度

(全距,迷你距,四分位數(shù),標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)分)

全距=max-min

全距也叫“極差”極差。它是一組數(shù)據(jù)中最大值與最小值之差。可以用于度量數(shù)據(jù)的分散程度。

全距的局限性

全距雖然求解方便快捷,但是它的局限性在于“若數(shù)據(jù)中存在異常值的情況,會(huì)產(chǎn)生偏差。為了擺脫異常值帶來的干擾,比如我們看一下下面的兩組數(shù)據(jù)。只是增加了一個(gè)異常值,兩組數(shù)據(jù)的全距產(chǎn)生了巨大的差異。

四分位數(shù)

所有觀測(cè)值從小到大排序后四等分,處于三個(gè)分割點(diǎn)位置的數(shù)值就是四分位數(shù):Q1,Q2和Q3。

Q1:第一四分位數(shù) (Q1),又稱“較小四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。

Q2:第二四分位數(shù) (Q2),又稱“中位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。

Q3:第三四分位數(shù) (Q3),又稱“較大四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。

迷你距 也叫“四分位距”

迷你距。它是一組數(shù)據(jù)中較小四分位數(shù)與較大四分位數(shù)之差。

即:迷你距= 上四分位數(shù) - 下四分位數(shù)

迷你距可以反映中間50%的數(shù)據(jù),如果出現(xiàn)了極大或極小的異常值,將會(huì)被排除在中心數(shù)據(jù)50%以外。因此使用迷你距可以剔除數(shù)據(jù)中異常值。

全距,四分位距,箱形圖可以表征一組數(shù)據(jù)極大和極小值之間的差值跨度,一定程度上反應(yīng)了數(shù)據(jù)的分散程度,但是卻無法精準(zhǔn)的告訴我們,這些數(shù)值具體出現(xiàn)的頻率,那么我們?cè)撊绾伪碚髂兀?/p>

我們度量每批數(shù)據(jù)中數(shù)值的“變異”程度時(shí),可以通過觀察每個(gè)數(shù)據(jù)與均值的距離來確定,各個(gè)數(shù)值與均值距離越小,變異性越小數(shù)據(jù)越集中,距離越大數(shù)據(jù)約分散,變異性越大。方差和標(biāo)準(zhǔn)差就是這么一對(duì)兒用于表征數(shù)據(jù)變異程度的概念。

方差

方差是度量數(shù)據(jù)分散性的一種方法,是數(shù)值與均值的距離的平方數(shù)的平均值。

e71972dc-76d0-11ee-939d-92fbcf53809c.jpg

標(biāo)準(zhǔn)差

標(biāo)準(zhǔn)差為方差的開方。

e724dab4-76d0-11ee-939d-92fbcf53809c.jpg

通過方差和標(biāo)準(zhǔn)差我們現(xiàn)在可以表征一組數(shù)據(jù)的數(shù)值的變異程度。那么對(duì)于擁有不同均值和不同標(biāo)準(zhǔn)差的多個(gè)數(shù)據(jù)集我們?nèi)绾伪容^呢?

標(biāo)準(zhǔn)分——表征了距離均值的標(biāo)準(zhǔn)差的個(gè)數(shù)

e72f6984-76d0-11ee-939d-92fbcf53809c.png

標(biāo)準(zhǔn)分為我們提供了解決方法,當(dāng)比較均值和標(biāo)準(zhǔn)差各不相同的數(shù)據(jù)集時(shí),我們可以把這些數(shù)值視為來自同一個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)集,然后進(jìn)行比較。標(biāo)準(zhǔn)分將把每一個(gè)數(shù)據(jù)集轉(zhuǎn)化為通用的分布形態(tài),進(jìn)行比較。

標(biāo)準(zhǔn)分還有個(gè)重要的作用,它可以把正態(tài)分布變?yōu)闃?biāo)準(zhǔn)正態(tài)分布,后文會(huì)有介紹。

第一部分小結(jié)

1. 描述一批數(shù)據(jù),通過集中趨勢(shì)分析,找出其“代表值” ;通過分散和變異性的描述,查看這批數(shù)據(jù)的分散程度。

2. 集中趨勢(shì)參數(shù):均值,中位數(shù),眾數(shù)

3. 分散性和變異性參數(shù) : 全距,四分位距,方差,標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)分

02

關(guān)于“事件”的研究分析

概率論

1. 一個(gè)事件的情況

為了讓讀者更好理解,筆者概率論中最核心的概念以及概念之間彼此的關(guān)系繪制成了下圖,那么接下來筆者開始“講故事”了。

e741958c-76d0-11ee-939d-92fbcf53809c.jpg

事件:有概率可言的一件事情,一個(gè)事情可能會(huì)發(fā)生很多結(jié)果,結(jié)果和結(jié)果之間要完全窮盡,相互獨(dú)立。

概率:每一種結(jié)果發(fā)生的可能性。所有結(jié)果的可能性相加等于1,也就是必然!!!

概率分布:我們把事件和事件所對(duì)應(yīng)的概率組織起來,就是這個(gè)事件的概率分布。

概率分布可以是圖象,也可以是表格。如下圖1和表2都可以算是概率分布

e74c32c6-76d0-11ee-939d-92fbcf53809c.jpg

e754c224-76d0-11ee-939d-92fbcf53809c.png

期望:表征了綜合考慮事情的各種結(jié)果和結(jié)果對(duì)應(yīng)的概率后這個(gè)事情的綜合影響值。(一個(gè)事件的期望,就是代表這個(gè)事件的“代表值”,類似于統(tǒng)計(jì)里面的均值)

e75ce65c-76d0-11ee-939d-92fbcf53809c.png

方差:表征了事件不同結(jié)果之間的差異或分散程度。

e769ca20-76d0-11ee-939d-92fbcf53809c.png

2. 細(xì)說分布

理想很豐滿,現(xiàn)實(shí)很骨感。真實(shí)的生活中別說去算一個(gè)事件的期望,即使把這個(gè)事件的概率分布能夠表述完整,每個(gè)事件對(duì)應(yīng)的概率值得出來就已經(jīng)是一件了不起的事情了。

因此,為了能更快更準(zhǔn)確的求解出事件的概率分布,當(dāng)某些事件,滿足某些特定的條件,那么我們可以直接根據(jù)這些條件,來套用一些固定的公式,來求解這些事件的分布,期望以及方差。

“離散型”數(shù)據(jù)和“連續(xù)性”數(shù)據(jù)差異

在我們展開分布的知識(shí)之前,先補(bǔ)充一個(gè)預(yù)備知識(shí),什么是離散數(shù)據(jù),什么是連續(xù)數(shù)據(jù),它們二者之間有什么差異?

離散數(shù)據(jù): 一個(gè)粒兒,一個(gè)粒兒的數(shù)據(jù)就是離散型數(shù)據(jù)。

連續(xù)數(shù)據(jù): 一個(gè)串兒,一個(gè)串兒的數(shù)據(jù)就是連續(xù)型數(shù)據(jù)。

好啦,開個(gè)玩笑!!!別打我,下面分享干貨!!!

其實(shí)上述描述并沒有錯(cuò)誤,離散型和連續(xù)型數(shù)據(jù)是一對(duì)相對(duì)概念,同樣的數(shù)據(jù)既可能是離散型數(shù)據(jù),又可能是連續(xù)型數(shù)據(jù)。判別一個(gè)數(shù)據(jù)是連續(xù)還是離散最本質(zhì)的因素在于,一個(gè)數(shù)據(jù)組中數(shù)據(jù)總體的量級(jí)和數(shù)據(jù)粒度之間的差異。差異越大越趨近于連續(xù)型數(shù)據(jù),差異越小越趨近于離散型數(shù)據(jù)。

舉個(gè)例子:

人這個(gè)單位,對(duì)于一個(gè)家庭來說,就離散型數(shù)據(jù),一個(gè)家庭可能有 3個(gè)人,4個(gè)人,5個(gè)人。..。等等。

對(duì)于一個(gè)國(guó)家來說,就是連續(xù)型數(shù)據(jù),我們的國(guó)家有14億人口,那么以個(gè)人為單位在這個(gè)量級(jí)的數(shù)據(jù)群體里就是連續(xù)型數(shù)據(jù)。

清楚了離散型和連續(xù)型數(shù)據(jù)的差異,我們接下來一塊科普這幾種常用的特殊分布。

離散型分布

離散數(shù)據(jù)的概率分布,就是離散分布。這三類離散型的分布,在“0-1事件”中可以采用,就是一個(gè)事只有成功和失敗兩種狀態(tài)。

e777210c-76d0-11ee-939d-92fbcf53809c.png

連續(xù)型分布

連續(xù)型分布本質(zhì)上就是求連續(xù)的一個(gè)數(shù)據(jù)段概率分布。

正態(tài)分布

e781c3fa-76d0-11ee-939d-92fbcf53809c.jpg

f(x)----是該關(guān)于事件X的概率密度函數(shù)

μ --- 均值

σ^2 ---方差

σ ---標(biāo)準(zhǔn)差

綠色區(qū)域的面積 ---該區(qū)間段的概率

正態(tài)分布概率的求法

step1 --- 確定分布和范圍 ,求出均值和方差

step2 --- 利用標(biāo)準(zhǔn)分將正態(tài)分布轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布 (還記得 第一部分的標(biāo)準(zhǔn)分嗎?)

step3 ---查表找概率

離散型分布 → 正態(tài)分布 (離散分布轉(zhuǎn)化為正態(tài)分布)

精彩的地方在這里,筆者已經(jīng)闡述了連續(xù)型數(shù)據(jù)和離散型數(shù)據(jù)是一對(duì)相對(duì)的概念,那么這就意味著在某種“邊界”條件下,離散型分布和連續(xù)型分布之間是可以相互轉(zhuǎn)化的。進(jìn)而簡(jiǎn)化概率分布的計(jì)算。這里筆者不在偷懶直接上皂片了(編公式快吐了!!!!)

e7894e4a-76d0-11ee-939d-92fbcf53809c.jpg

3. 多個(gè)事件的情況:“概率樹”和“貝葉斯定理”

多個(gè)事件就要探討事件和事件之間的關(guān)系

對(duì)立事件:如果一個(gè)事件,A’包含所有A不包含的可能性,那么我們稱A’和A是互為對(duì)立事件

窮盡事件:如何A和B為窮盡事件,那么A和B的并集為1

互斥事件:如何A和B為互斥事件,那么A和B沒有任何交集

獨(dú)立事件:如果A件事的結(jié)果不會(huì)影響B(tài)事件結(jié)果的概率分布那么A和B互為獨(dú)立事件。

例子:10個(gè)球,我隨機(jī)抽一個(gè),放回去還是10個(gè)球,第二次隨機(jī)抽,還是10選1,那么第一次和第二次抽球的事件就是獨(dú)立的。

相關(guān)事件:如果A件事的結(jié)果會(huì)影響B(tài)事件結(jié)果的概率分布那么A和B互為獨(dú)立事件。

例子:10個(gè)球,我隨機(jī)抽一個(gè),不放回去還是10個(gè)球,第二次隨機(jī)抽是9選1,那么第一次和第二次抽球的事件就是相關(guān)的。

條件概率(條件概率,概率樹,貝葉斯公式)

e79ddc5c-76d0-11ee-939d-92fbcf53809c.jpg

條件概率代表:已知B事件發(fā)生的條件下,A事件發(fā)生的概率

概率樹 --- 一種描述條件概率的圖形工具。

假設(shè)有個(gè)甜品店,顧客買甜甜圈的概率是3/4 ;不買甜甜圈直接買咖啡的概率是1/3 ;同時(shí)買咖啡和甜甜圈概率是9/20。

從圖中我們可以發(fā)現(xiàn)以下兩個(gè)信息:

1. 顧客買不買甜甜圈可以影響喝不喝咖啡的概率,所以事件甜甜圈與事件咖啡是一組相關(guān)事件

2. 概率樹每個(gè)層級(jí)分支的概率和都是1

e7ac39f0-76d0-11ee-939d-92fbcf53809c.jpg

貝葉斯公式 ----提供了一種計(jì)算逆條件概率的方法

貝葉斯公式用于以下場(chǎng)景,當(dāng)我們知道A發(fā)生的前提下B發(fā)生的概率,我們可以用貝葉斯公式來推算出B發(fā)生條件下A發(fā)生的概率。

e7b90dce-76d0-11ee-939d-92fbcf53809c.jpg

第二部分小結(jié)

1. 事件,概率,概率分布之間的關(guān)系

2. 期望,方差的意義

3. 連續(xù)型數(shù)據(jù)和離散型數(shù)據(jù)之間的區(qū)別和聯(lián)系

4. 幾何分布,二項(xiàng)分布,泊松分布,正態(tài)分布,標(biāo)準(zhǔn)正態(tài)分布

5. 離散分布和正態(tài)分布可以轉(zhuǎn)化

6. 多個(gè)事件之間的關(guān)系,相關(guān)事件和獨(dú)立事件,條件概率和貝葉斯公式

03

關(guān)于“小樣本”預(yù)測(cè)

“大總體”

現(xiàn)實(shí)生活中,總體的數(shù)量如果過于龐大我們無法獲取總體中每個(gè)數(shù)據(jù)的數(shù)值,進(jìn)行對(duì)總體的特征提取進(jìn)而完成分析工作。那么接下來就用到了本章節(jié)的知識(shí)。

e7cc8192-76d0-11ee-939d-92fbcf53809c.png

1. 抽取樣本

總體:你研究的所有事件的集合

樣本:總體中選取相對(duì)較小的集合,用于做出關(guān)于總體本身的結(jié)論

偏倚:樣本不能代表目標(biāo)總體,說明該樣本存在偏倚

簡(jiǎn)單隨機(jī)抽樣: 隨機(jī)抽取單位形成樣本。

分成抽樣: 總體分成幾組或者幾層,對(duì)每一層執(zhí)行簡(jiǎn)單隨機(jī)抽樣

系統(tǒng)抽樣:選取一個(gè)參數(shù)K,每到第K個(gè)抽樣單位,抽樣一次。

2. 預(yù)測(cè)總體(點(diǎn)估計(jì)預(yù)測(cè),區(qū)間估計(jì)預(yù)測(cè))

點(diǎn)估計(jì)量--- 一個(gè)總參數(shù)的點(diǎn)估計(jì)量就是可用于估計(jì)總體參數(shù)數(shù)值的某個(gè)函數(shù)或算式。

場(chǎng)景1: 樣本無偏的情況下,已知樣本,預(yù)測(cè)總體的均值,方差。

(1) 樣本的均值 = 總體的估算均值(總體均值的點(diǎn)估計(jì)量) ≈ 總體實(shí)際均值(誤差是否可接受)

e7d73254-76d0-11ee-939d-92fbcf53809c.png

(2)總體方差 估計(jì)總體方差

e7e86966-76d0-11ee-939d-92fbcf53809c.jpg

場(chǎng)景2:已知總體,研究抽取樣本的概率分布

比例抽樣分布:考慮從同一個(gè)總體中取得所有大小為n的可能樣本,由這些樣本的比例形成一個(gè)分布,這就是“比例抽樣分布”。樣本的比例就是隨機(jī)變量。

舉個(gè)栗子:已知所有的糖球(總體)中紅色糖球比例為0.25。從總體中隨機(jī)抽n個(gè)糖球,我們可以求用比例抽樣分布求出這n個(gè)糖球中對(duì)應(yīng)紅球各種可能比例的概率。

e7f33a12-76d0-11ee-939d-92fbcf53809c.png

樣本均值分布:考慮同一個(gè)總體中所有大小為n的可能樣本,然后用這個(gè)樣本的均值形成分布,該分布就是“樣本均值分布” ,樣本的均值就是隨機(jī)變量。

e7ff5f18-76d0-11ee-939d-92fbcf53809c.png

中心極限定理:如果從一個(gè)非正態(tài)總體X中抽出一個(gè)樣本,且樣本極大(至少大于30),則圖片.png的分布近似正態(tài)分布。

e810dd10-76d0-11ee-939d-92fbcf53809c.png

區(qū)間估計(jì)量--- 點(diǎn)估計(jì)量是利用一個(gè)樣本對(duì)總體進(jìn)行估計(jì),區(qū)間估計(jì)是利用樣本組成的一段區(qū)間對(duì)樣本進(jìn)行估計(jì)。

舉個(gè)栗子:今天下午3點(diǎn)下雨;今天下午3點(diǎn)到4點(diǎn)下雨。如果我們的目的是為了盡可能預(yù)測(cè)正確,你會(huì)使用那句話術(shù)?

如何求置信區(qū)間?(這里筆者講一下思路,不畫圖碼公式了,讀者有興趣可以查閱一下教材)

e81c30de-76d0-11ee-939d-92fbcf53809c.jpg

求置信區(qū)間簡(jiǎn)便公式(直接上皂片)

關(guān)于C值參數(shù):置信水平 90% C=1.64 , 95% C=1.96 , 99% C=2.58

e827cd0e-76d0-11ee-939d-92fbcf53809c.jpg

待補(bǔ)充知識(shí)一(t分布)

我們之前的區(qū)間預(yù)測(cè)有個(gè)前提,就是利用了中心極限定理,當(dāng)樣本量足夠大的時(shí)候(通常大于30),均值抽樣分布近似于正態(tài)分布。若樣本量不夠大呢?這是同樣的思路,只是樣本均值分布將近似于另一種分布處理更加準(zhǔn)確,那就是t分布。這里筆者直接放張圖,不做拓展了。

e83200ee-76d0-11ee-939d-92fbcf53809c.jpg

待補(bǔ)充知識(shí)二(卡方分布)----注意待補(bǔ)充不代表不重要,是筆者水平有限,目前還不能用簡(jiǎn)單的語(yǔ)言概述其中的精髓。

卡方分布的定義

若n個(gè)相互獨(dú)立的隨機(jī)變量ξ、ξ、……、ξn ,均服從標(biāo)準(zhǔn)正態(tài)分布,則這n個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量的平方和構(gòu)成一新的隨機(jī)變量,其分布規(guī)律稱為卡方分布。

e84290a8-76d0-11ee-939d-92fbcf53809c.jpg

卡方分布的應(yīng)用場(chǎng)景

用途1:用于檢驗(yàn)擬合優(yōu)度。也就是檢驗(yàn)一組給定的數(shù)據(jù)與指定分布的吻合程度;

用途2:檢驗(yàn)兩個(gè)變量的獨(dú)立性。通過卡方分布可以檢查變量之間是否存在某種關(guān)聯(lián):

3. 驗(yàn)證結(jié)果(假設(shè)檢驗(yàn))

假設(shè)檢驗(yàn)是一種方法用于驗(yàn)證結(jié)果是否真實(shí)可靠。具體操作分為六個(gè)步驟。

e8524048-76d0-11ee-939d-92fbcf53809c.jpg

兩類錯(cuò)誤---即使我們進(jìn)行了“假設(shè)檢驗(yàn)”依然無法保證決策是百分百正確的,會(huì)出現(xiàn)兩類錯(cuò)誤

e85cc658-76d0-11ee-939d-92fbcf53809c.png

第一類錯(cuò)誤: 拒絕了一個(gè)正確的假設(shè),錯(cuò)殺了一個(gè)好人

第二類錯(cuò)誤:接收了一個(gè)錯(cuò)誤的假設(shè),放過了一個(gè)壞人

第三部分小結(jié):

1. 無偏抽樣

2. 點(diǎn)估計(jì)量預(yù)測(cè)(已知樣本預(yù)測(cè)總體,已知總體預(yù)測(cè)樣本)

3. 區(qū)間估計(jì)量預(yù)測(cè)(求置信區(qū)間)

4. 假設(shè)檢驗(yàn)

04

相關(guān)與回歸(y=ax+b)

這里介紹的相關(guān)和回歸是關(guān)于二維雙變量的最簡(jiǎn)單最實(shí)用的線性回歸,非線性回歸這里不暫不做拓展。

散點(diǎn)圖:顯示出二變量數(shù)據(jù)的模式

相關(guān)性:變量之間的數(shù)學(xué)關(guān)系。

線性相關(guān)性:兩個(gè)變量之間呈現(xiàn)的直線相關(guān)關(guān)系。

最佳擬合直線:與數(shù)據(jù)點(diǎn)擬合程度最高的線。(即每個(gè)因變量的值與實(shí)際值的誤差平方和最小)

誤差平方和SSE:

線性回歸法:求最佳擬合直線的方法(y=ax+b),就是求參數(shù)a和b

斜率a公式:

e8640f30-76d0-11ee-939d-92fbcf53809c.png

b公式:

e86e3de8-76d0-11ee-939d-92fbcf53809c.png

相關(guān)系數(shù)r:表征描述的數(shù)據(jù)與最佳擬合線偏離的距離。(r=-1完全負(fù)相關(guān),r=1完全正相關(guān),r=0不相關(guān))

r公式:

e875c130-76d0-11ee-939d-92fbcf53809c.png

結(jié)束語(yǔ)

筆者這里梳理了統(tǒng)計(jì)與概率學(xué)最基礎(chǔ)的概念知識(shí),盡量闡述清楚這些概念知識(shí)之間關(guān)聯(lián)的關(guān)系,以及應(yīng)用的場(chǎng)景。底層概念是上層應(yīng)用的基礎(chǔ),當(dāng)今浮躁的“機(jī)器學(xué)習(xí)”,“神經(jīng)網(wǎng)絡(luò)”,“AI自適應(yīng)”這些高大上的關(guān)鍵字滿天飛。筆者認(rèn)為踏踏實(shí)實(shí)的把“基礎(chǔ)”打扎實(shí),才是向上發(fā)展的唯一途徑。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:統(tǒng)計(jì)學(xué)知識(shí)大梳理

文章出處:【微信號(hào):CloudBrain-TT,微信公眾號(hào):云腦智庫(kù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    一文解析半導(dǎo)體產(chǎn)業(yè)鏈條以及相關(guān)知識(shí)

    先來了解一下半導(dǎo)體產(chǎn)業(yè)鏈條以及相關(guān)知識(shí),看完傳統(tǒng)封裝與先進(jìn)封裝對(duì)比后再來了解封裝裝備,最后看看核心封裝設(shè)備的梳理。 下圖為工藝對(duì)比 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
    的頭像 發(fā)表于 11-18 11:23 ?296次閱讀
    一文解析半導(dǎo)體產(chǎn)業(yè)鏈條以及相關(guān)<b class='flag-5'>知識(shí)</b>

    一文解析半導(dǎo)體產(chǎn)業(yè)鏈條以及相關(guān)知識(shí)

    先來了解一下半導(dǎo)體產(chǎn)業(yè)鏈條以及相關(guān)知識(shí),看完傳統(tǒng)封裝與先進(jìn)封裝對(duì)比后再來了解封裝裝備,最后看看核心封裝設(shè)備的梳理。 下圖為工藝對(duì)比 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
    的頭像 發(fā)表于 11-18 11:23 ?265次閱讀
    一文解析半導(dǎo)體產(chǎn)業(yè)鏈條以及相關(guān)<b class='flag-5'>知識(shí)</b>

    什么是光子學(xué)

    ? 本文概述了光子學(xué),包括其基本原理、關(guān)鍵技術(shù)、應(yīng)用和新興趨勢(shì)。 一、光子學(xué)的基本原理 光子學(xué)是一門研究光和其他形式輻射能的學(xué)科。它涉及使用光學(xué)元件、激光、光纖和電子光學(xué)儀器來產(chǎn)生、操縱和檢測(cè)光。它
    的頭像 發(fā)表于 10-29 06:21 ?235次閱讀

    示波器統(tǒng)計(jì)曲線和故障分析pass/fail測(cè)試

    虛擬示波器可以應(yīng)用在工業(yè)自動(dòng)化檢測(cè)中,除了常規(guī)的檢測(cè)波形和測(cè)量值參數(shù)以外,由多個(gè)行業(yè)客戶定制和驗(yàn)證的統(tǒng)計(jì)曲線和故障分析(pass/fail)功能也為工業(yè)自動(dòng)化檢測(cè)帶來極大的便利。(一)故障分析
    發(fā)表于 08-30 10:19

    【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】時(shí)間序列的信息提取

    的穩(wěn)健縮放、時(shí)間序列的標(biāo)準(zhǔn)化。 時(shí)間序列的特征工程、時(shí)間序列的統(tǒng)計(jì)特征、時(shí)間序列的熵特征、時(shí)間序列的降維特征這些小節(jié),涉及到比較多的數(shù)學(xué)公式,包含有概率論與樹林里統(tǒng)計(jì)、高等數(shù)學(xué)等方面的知識(shí),可以做些了解
    發(fā)表于 08-17 21:12

    如何使用Polyspace Code Prover來統(tǒng)計(jì)堆棧

    前一篇文章介紹了堆棧和內(nèi)存的一些背景知識(shí)。本次介紹如何使用 Polyspace Code Prover來統(tǒng)計(jì)堆棧,如何使用這些數(shù)據(jù)為軟件優(yōu)化服務(wù)。
    的頭像 發(fā)表于 07-25 14:06 ?581次閱讀
    如何使用Polyspace Code Prover來<b class='flag-5'>統(tǒng)計(jì)</b>堆棧

    南京理工大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院師生團(tuán)隊(duì)一行蒞臨中科億海微參觀交流

    近日,南京理工大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院(以下簡(jiǎn)稱“數(shù)統(tǒng)學(xué)院”)徐慧玲書記帶領(lǐng)師生團(tuán)隊(duì)一行蒞臨中科億海微電子科技(蘇州)有限公司(簡(jiǎn)稱“中科億海微”)進(jìn)行參觀交流。師生團(tuán)隊(duì)參觀了中科億海微的公司展廳及特種
    的頭像 發(fā)表于 07-06 08:11 ?641次閱讀
    南京理工大學(xué)數(shù)學(xué)與<b class='flag-5'>統(tǒng)計(jì)學(xué)</b>院師生團(tuán)隊(duì)一行蒞臨中科億海微參觀交流

    數(shù)據(jù)分析除了spss還有什么

    Sciences)是一款非常流行的統(tǒng)計(jì)分析軟件,但除了SPSS之外,還有許多其他數(shù)據(jù)分析工具和方法。 引言 數(shù)據(jù)分析是一個(gè)跨學(xué)科的領(lǐng)域,涉及到統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域。數(shù)據(jù)分析的目標(biāo)是從大量數(shù)據(jù)中提取有用信息,發(fā)現(xiàn)模式和趨勢(shì),并為決策提供支持。本
    的頭像 發(fā)表于 07-05 15:01 ?705次閱讀

    SPC軟件:一套有效的制造過程監(jiān)控和分析工具

    MAISSE?SPC軟件憑借其卓越的數(shù)據(jù)處理能力,實(shí)時(shí)收集生產(chǎn)線上的數(shù)據(jù),并運(yùn)用先進(jìn)的統(tǒng)計(jì)學(xué)技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行深入分析。
    的頭像 發(fā)表于 06-28 16:50 ?909次閱讀
    SPC軟件:一套有效的制造過程監(jiān)控和分析工具

    自動(dòng)控制原理需要哪些基礎(chǔ)知識(shí)

    自動(dòng)控制原理是工程學(xué)和應(yīng)用科學(xué)領(lǐng)域的一個(gè)重要分支,它涉及到系統(tǒng)的設(shè)計(jì)、分析和維護(hù),以確保系統(tǒng)能夠自動(dòng)地、準(zhǔn)確地響應(yīng)外部或內(nèi)部的變化。 基礎(chǔ)數(shù)學(xué)知識(shí) 自動(dòng)控制原理涉及到大量的數(shù)學(xué)運(yùn)算和公式,因此,掌握
    的頭像 發(fā)表于 06-11 11:08 ?3342次閱讀

    SPC控制圖:告訴你生產(chǎn)過程質(zhì)量波動(dòng)的因素(SPC系統(tǒng))

    質(zhì)量管理的重大意義。一、SPC控制圖的原理與構(gòu)成SPC控制圖,即統(tǒng)計(jì)過程控制圖,是一種基于統(tǒng)計(jì)學(xué)原理的質(zhì)量管理工具。它通過對(duì)生產(chǎn)過程中關(guān)鍵參數(shù)的監(jiān)測(cè)和記錄,繪制出數(shù)
    的頭像 發(fā)表于 06-06 08:35 ?1073次閱讀
    SPC控制圖:告訴你生產(chǎn)過程質(zhì)量波動(dòng)的因素(SPC系統(tǒng))

    三坐標(biāo)測(cè)量需要哪些基礎(chǔ)知識(shí)

    三坐標(biāo)測(cè)量(CoordinateMeasuringMachine,CMM)是一種利用測(cè)頭沿三個(gè)坐標(biāo)軸移動(dòng)來測(cè)量工件幾何尺寸和形狀的精密測(cè)量技術(shù)。要有效地使用三坐標(biāo)測(cè)量機(jī),需要具備以下基礎(chǔ)知識(shí):1.
    的頭像 發(fā)表于 05-17 09:51 ?2684次閱讀
    三坐標(biāo)測(cè)量需要哪些基礎(chǔ)<b class='flag-5'>知識(shí)</b>?

    學(xué)鴻蒙的1萬個(gè)理由,北京中關(guān)村現(xiàn)大幅鴻蒙海報(bào)

    五一假期以來,北京中關(guān)村附近多個(gè)地鐵站、公交站出現(xiàn)大幅鴻蒙海報(bào)。據(jù)統(tǒng)計(jì),不止中關(guān)村,北京杭州兩地清華、北大、浙江大學(xué)等多所高校附近也掛上了巨幅鴻蒙海報(bào)。 學(xué)鴻蒙,突破自我,Get職場(chǎng)”星“技能;學(xué)
    發(fā)表于 05-08 20:31

    降噪是什么原理 降噪方法分為哪幾種

    降噪是什么原理 降噪方法分為哪幾種? 降噪是指通過一系列技術(shù)手段減少或消除環(huán)境中存在的噪聲干擾,從而提高音頻、圖像、信號(hào)等的質(zhì)量或清晰度。降噪的原理主要涉及信號(hào)處理、數(shù)字濾波、統(tǒng)計(jì)學(xué)等方面的知識(shí)
    的頭像 發(fā)表于 03-14 16:55 ?8147次閱讀

    學(xué)FPGA用哪種開發(fā)板或?qū)嶒?yàn)平臺(tái)比較好?

    剛開始學(xué)FPGA,目前正在學(xué)理論知識(shí),想通過用開發(fā)板或?qū)嶒?yàn)平臺(tái)搞些東西,加深理解,不知道用哪種開發(fā)平臺(tái)比較好?
    發(fā)表于 02-06 22:56
    主站蜘蛛池模板: 成人三级在线播放线观看 | 日韩第十页 | 哟交小u女国产精品视频 | 女人大毛片一级毛片一 | 国产人成精品香港三级古代 | 免费看片你懂的 | 555成人免费影院 | 特黄一级真人毛片 | 色综合色综合 | 欧美极品xxxxⅹ另类 | 天天看天天碰 | 国产三级日本三级日产三级66 | 美国一级毛片免费看成人 | 免费看18污黄 | 四虎影院在线免费播放 | 国产经典一区 | 狠狠干欧美 | 在线观看亚洲专3333 | 国内精品久久久久影院薰衣草 | 777奇米四色米奇影院在线播放 | 色多多视频在线观看 | 你懂的在线免费 | 99久久网站 | 日本一级大片 | 欧美一区二区视频 | 国产三级在线观看 | 精品视频一区二区三区四区五区 | 欧美mv日韩mv国产mv网站 | 狠狠干欧美 | 亚洲成a人片77777kkk | 日本理论午夜中文字幕第一页 | 青草国产在线视频 | 亚洲色图综合网站 | 天天操免费视频 | 黑人又大又粗又长又深受不了 | 欧美香蕉视频 | 亚洲无吗在线视频 | 99精品国产第一福利网站 | 欧美ol丝袜高跟秘书在线播放 | 在线黄网 | 日本在线视频一区二区三区 |