編者按:中心極限定理是概率論中的一組重要定理,它的中心思想是無論是什么分布的數據,當我們從中抽取相互獨立的隨機樣本,且采集的樣本足夠多時,樣本均值的分布將收斂于正態分布。為了幫助更多學生理解這個概念,今天,UW iSchool的教師Mike Freeman制作了一些直觀的可視化圖像,讓不少統計學教授大呼要把它們用在課堂上。
本文旨在盡可能直觀地解釋統計學基礎理論之一——中心極限定理的核心概念。通過下文中的一系列動圖,讀者應該能真正理解這個定理,并從中汲取應用靈感,把它用于決策樹等其他項目。
需要注意的是,這里我們不會介紹具體推理過程,所以它不涉及定理解釋。
教科書上的中心極限定理
在看可視化前,我們先來回顧一下統計學課程對中心極限定理的描述。
來源:LthID
n>30一般為大樣本的分界線 來源:LthID
來源:LthID
一個簡單的例子
為了降低這個定理的理解門檻,首先我們來舉個簡單的例子。假設有一個包含100人的團體,他們在某些問題上的意見分布在0-100之間。如果以可視化的方式把他們的意見分數表示在水平軸上,我們可以得到下面這幅圖:深色豎線表示所有人意見分數的平均值。
假如你是一名社會科學家,你想知道這個團體的立場特點,并用一些信息,比如上面的“平均意見得分”來描述他們。但可惜的是,由于時間、資金有限,你沒法一一詢問。這時候,你就可能需要對這100人進行抽樣。比方說,在有限的時間、資金條件內,你可以從中隨機抽取10個人作為自己的采訪對象(n=10),向他們詢問有關特定問題的具體想法:
隨機抽取10個樣本
如你所見,這些樣本的均值可能會和整個團體的總體均值有很大差異。那么,怎么采樣才能更可靠呢?
考慮多個樣本
假設我們可以從團體中采集多個樣本。雖然這種做法在現實中是客觀存在的(尤其是在政治民意調查中),但在這里,我們會更多地將其作為一種解釋工具(當你進行重復采樣時,實際上會有一些意料之外的因素出現)。對于每個樣本,我們在每次采樣時都跟蹤樣本均值與整體平均值的差。
多次重復該過程,我們就能獲得樣本均值的分布,它通常被稱為樣本均值分布,或者(更簡單的)抽樣分布。下面是對100人的團體進行多次抽樣后(每次10人),樣本均值的變化情況:
第一次采樣,樣本均值和總體均值有明顯偏差
多次采樣后,樣本均值和總體均值的偏差變小了
可以發現,隨著抽樣次數逐漸增多,總體均值和樣本均值之間的差距正在不斷縮小。這是可以理解的,因為整個過程就相當于從100人中抽取更多樣本。但之前我們也說了,資金、時間是有限的,這沒有解決資源受限的問題,也無法反映人整個團體在特定問題上的立場。
為了了解每次計算樣本均值的效果,我們得先看看抽樣分布的分布情況。
理解分布
鑒于上述可視化圖像在分布上不夠直觀,所以在這里,我們把原先表示每個意見的圓圈變成方塊,以直方圖的形式展現總體分布的情況:
顯然,我們的數據分布并不正常。雖然上圖中有些部分的曲線是符合正態分布的,但大多數是不符合的,這段曲線沒法幫助我們理解這100個人的習性。相反地,我們可以從樣本均值的分布情況著手,看看抽樣分布的變化情況:
隨著采樣次數上升,抽樣分布正在發生變化
進一步增加采樣次數,抽樣分布的形狀逐漸趨于穩定
隨著采樣數量的增加,采樣分布在可視化中形成了一條鐘形曲線,符合正態分布。如上所述,隨著重復采樣次數的增加,樣本均值(抽樣分布的平均值)會變得越來越準確。
為什么重要
當采樣的數量接近無窮大時,我們的抽樣分布就會近似于正態分布。這個統計學基礎理論意味著我們能根據個體樣本推斷所有樣本。結合正態分布的其他知識,我們可以輕松計算出給定平均值的值的概率。同樣的,我們也可以根據觀察到的樣本均值估計總體均值的概率。
維基百科對于“中心極限定理”的定義:中心極限定理是概率論中的一組定理。中心極限定理說明,在適當的條件下,大量相互獨立隨機變量的均值經適當標準化后依分布收斂于正態分布。
在留言中,美國田納西州范德堡大學的醫學院生物統計學教授Frank Harrell留下了自己的風趣評論:“但是在所有定理中,中心極限定理是最后一個我想教給學生的東西。我想他們得先學好第一堂課,它包括一些設計、數據的意義、數據的穩健性、bootstrap、一些貝葉斯、高精度數據圖等等。”
讀完他的話,是不是覺得即便了解了這個定理,自己要學的東西還是很多呢?
-
圖像
+關注
關注
2文章
1087瀏覽量
40501 -
可視化
+關注
關注
1文章
1197瀏覽量
20969
原文標題:什么是中心極限定理?這里有一份可視化解釋
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論