中心極限定理通俗介紹

2021-09-25 04:40:52 字數 2665 閱讀 1816

**:

中心極限定理是統計學中比較重要的乙個定理。 本文將通過實際模擬資料的形式,形象地展示中心極限定理是什麼,是如何發揮作用的。

中心極限定理指的是給定乙個任意分布的總體。我每次從這些總體中隨機抽取 n 個抽樣,一共抽 m 次。 然後把這 m 組抽樣分別求出平均值。 這些平均值的分布接近正態分佈。

我們先舉個栗子?現在我們要統計全國的人的體重,看看我國平均體重是多少。當然,我們把全國所有人的體重都調查一遍是不現實的。所以我們打算一共調查1000組,每組50個人。 然後,我們求出第一組的體重平均值、第二組的體重平均值,一直到最後一組的體重平均值。中心極限定理說:這些平均值是呈現正態分佈的。並且,隨著組數的增加,效果會越好。 最後,當我們再把1000組算出來的平均值加起來取個平均值,這個平均值會接近全國平均體重。

其中要注意的幾點:

1、總體本身的分布不要求正態分佈

上面的例子中,人的體重是正態分佈的。但如果我們的例子是擲乙個骰子(平均分布),最後每組的平均值也會組成乙個正態分佈。(神奇!)

2、樣本每組要足夠大,但也不需要太大

取樣本的時候,一般認為,每組大於等於30個,即可讓中心極限定理發揮作用。

話不多說,我們現在來一步步看到中心極限定理是如何起作用的。

注:我們使用python語言以及ipython notebook來生成和展現資料。不懂的童鞋可以略過**

假設我們現在觀測乙個人擲骰子。這個骰子是公平的,也就是說擲出1~6的概率都是相同的:1/6。他擲了一萬次。我們用python來模擬投擲的結果:

import numpy as np 

random_data = np.random.randint(1, 7, 10000)

print random_data.mean() # 列印平均值

print random_data.std() # 列印標準差

生成出來的平均值:3.4927(每次重新生成都會略有不同)

生成出來的標準差:1.7079

平均值接近3.5很好理解。 因為每次擲出來的結果是1、2、3、4、5、6。 每個結果的概率是1/6。所以加權平均值就是3.5。

我們把生成的資料用直方圖畫出來直觀地感受一下:

可以看到1~6分布都比較平均,不錯。

我們接下來隨便先拿一組抽樣,手動算一下。例如我們先從生成的資料中隨機抽取10個數字:

sample1 = 

for i in range(0, 10):

print sample1 # 列印出來

這10個數字的結果是:[3, 4, 3, 6, 1, 6, 6, 3, 4, 4]平均值:4.0標準差:1.54可以看到,我們只抽10個的時候,樣本的平均值(4.0)會距離總體的平均值(3.5)有所偏差。

有時候我們運氣不好,抽出來的數字可能偏差很大,比如抽出來10個數字都是6。那平均值就是6了。 為什麼會出現都是6的情況呢?因為我比較6...哦不是,因為這就是隨機的魅力呀!

不過不要擔心,接下去就是見證奇蹟的時刻。

我們讓中心極限定理發揮作用。現在我們抽取1000組,每組50個。

我們把每組的平均值都算出來。

samples = 

samples_mean =

samples_std =

for i in range(0, 1000):

sample =

for j in range(0, 50):

sample_np = np.array(sample)

samples_mean_np = np.array(samples_mean)

samples_std_np = np.array(samples_std)

print samples_mean_np

這一共1000個平均值大概是這樣的:[3.44, 3.42, 3.22, 3.2, 2.94 ... 4.08, 3.74](我肯定不會把1000個數字都寫完,又沒有稿費可以騙)

然後,我們把這1000個數字用直方圖畫出來:

tada! 完美地形成了正態分佈。

結果列印如下:

平均值:3.48494

標準差:0.23506

在實際生活當中,我們不能知道我們想要研究的物件的平均值,標準差之類的統計引數。中心極限定理在理論上保證了我們可以用只抽樣一部分的方法,達到推測研究物件統計引數的目的。

在上文的例子中,擲骰子這一行為的理論平均值3.5是我們通過數學定理計算出來的。而我們在實際模擬中,計算出來的樣本平均值的平均值(3.48494)確實已經和理論值非常接近了。

中心極限定理 講講中心極限定理

今天我們來聊聊統計學裡面比較重要的乙個定理 中心極限定理,中心極限定理是指 現在有乙個總體資料,如果從該總體資料中隨機抽取若干樣本,重複多次,每次抽樣得到的樣本量統計值 比如均值 與總體的統計值 比如均值 應該是差不多的,而且重複多次以後會得到多個統計值,這多個統計值會呈正態分佈。還是直接來看例子吧...

中心極限定理

中心極限定理是統計學中又一非常重要的性質。什麼是中心極限定理,為了很直觀的理解它我就通過舉例的方式來進行說明。假設有乙個總體t,現在我從t中隨機抽取k個含有n個元素的樣本s,s1,s2,sk 每個樣本s1 x1,x2.xn s2 x1,x2,xn sk x1,x2,xn 每個樣本的均值為x1,x2,...

中心極限定理

中心極限定理指的是 給定乙個任意分布的總體。每次從這些總體中隨機抽取 n 個抽樣,一共抽 m 次。然後把這 m 組抽樣分別求出平均值。這些平均值的分布接近正態分佈。我們先舉個栗子 現在我們要統計全國的人的體重,看看我國平均體重是多少。當然,我們把全國所有人的體重都調查一遍是不現實的。所以我們打算一共...