統計學 中心極限定理(R語言)

2021-08-14 08:07:14 字數 2832 閱讀 6159

中心極限定理用通俗的話來講就是,假設有乙個服從(μ,σ2)的總體,這個總體的分布可以是任意分布,不用是正態分佈,既可以是離散的,也可以是連續的。我們從該分布裡隨機取n個樣本x1,x2,...,xn,然後求這些樣本的均值x_mean,這個過程我們重複m次,我們就會得到x_mean_1,x_mean_2,...,x_mean_m,如果n-->∞,這些樣本的均值服從n(μ,σ2/n)的正態分佈。

舉例:我有1000個蘋果,它們的重量服從μ=100,σ2=50的分布,每次從中隨機的抽取5個蘋果稱重:

第一次選取的5個蘋果的重量為:(89,78,101,22,150),均值x_mean_1=88

第二次。。。。。

第m次選取的5個蘋果的重量為:(77,90,34,88,140),均值x_mean_m=99.2

那這m次的樣本的均值的分布為μ_mean = μ = 100, σ2_mean = σ2 / 5 = 50 / 5 = 10

以下是我們用r語言模擬該過程

library(moments)

options(digits = 3)

options(scipen = 200)

x = rexp(10000, rate=1)# 原始分布,可以隨便設定,我設定的是乙個指數分布

x_mean = mean(x) # 原始分布的均值

x_var= var(x) # 原始分布的方差

m=10000 # 抽取的次數

par(new=true)

par(mfrow=c(2,3))

list_result = list()

for(n in c(5,10,50,100,500,1000))

s_mean = mean(s)# 樣本均值的均值

s_var = var(s)# 樣本均值的方差

hist(s,breaks = 50,main = paste('n = ',n,sep=''))

result =c(

n,x_mean,

s_mean,

x_var,

s_var,

x_var/n,

skewness(s),# 偏度

kurtosis(s)) # 峰度

cat(result)

cat('n')

}hist(x)

以下是選擇不同的n時樣本均值的分布圖,可以看到隨著n的變大,分布圖越來越接近正態分佈:

從以下的列表可以看出,隨著n的增大,樣本均值的均值越來越接近總體的均值,樣本均值的分布的偏度越來越小,越符合正態分佈。

例1題目:你從

200,000

蘋果裡挑出

36個蘋果作為樣本,這

36個樣本的均值是

112g

,標準差是

40g,那麼這

200,000

個蘋果的均值在

100g

到124g

之間的概率為多少?

分析:這裡給出乙個樣本集的情況,這36個樣本(或者n=36的一次樣本集取樣中

)的均值是

112,這36個樣本的σ=40。注意這裡給出的是乙個樣本集的情況,不是多個樣

本集的sampling

distribution of the sample mean。

我們知道,抽樣分布的均值等於總體的均值,

從樣本的方差,可以估算總本方差

還記得無偏差樣本方差嗎?是除以n-1,而不是n,無偏差樣本方差,可以近似為總本

方差σ2,

所以總體

200,000

個蘋果的方差可以認為是樣本的方差,標準差為

40g。

進而可得樣本均值的方差

為σ2/n=40

*40/36

,標準差即為

6.67

這個題目的相當於

根據上面的公式我們可以認為題目求的是對於乙個特定的抽樣均值,我們求其在抽樣均值的均值

12附近的概率。

由於樣本均值的分布接近與正態分佈,所以我們可以利用

z-score

來算概率,

z-score=12/6.67=1.8

,用z-table

可得此區間的概率是

0.9641

,但是注意這是單尾的值,雙尾的值為(

0.9641-0.5

)*2=0.9282。

所以200,000

個蘋果的均值在

100g

到124g

之間的概率為

92.8%。 例2

題目:成年男性在戶外活動平均要喝2l的水,標準差為0.7l,如果50個男性戶外活動,準備110l的水,不夠喝的概率是多少?

分析:總體服從μ=2,σ=0.7。

題目問的是50個男性喝的水超過110l的概率,也就是說平均乙個人喝水超過2.2l的概率,這也就是樣本均值。從中心極限定理我們知道,那麼樣本均值服從μ_m = μ = 2,σ_m = σ/sqrt(50) = 0.099的正態分佈。

所以本題也就是求:

同理我們求z-score = (2.2-2)/0.099 = 2.02,通過檢視z-table可以看到概率為:0.9861,所以水不夠喝的概率為1.39%

附錄:

中心極限定理 講講中心極限定理

今天我們來聊聊統計學裡面比較重要的乙個定理 中心極限定理,中心極限定理是指 現在有乙個總體資料,如果從該總體資料中隨機抽取若干樣本,重複多次,每次抽樣得到的樣本量統計值 比如均值 與總體的統計值 比如均值 應該是差不多的,而且重複多次以後會得到多個統計值,這多個統計值會呈正態分佈。還是直接來看例子吧...

概率統計 中心極限定理

什麼是中心極限定理 中心極限定理central limit theorem 設從均值為 方差為 2 有限 的任意乙個總體中抽採樣本量為n的樣本,當n充分大時,樣本均值的抽樣分布近似服從均值為 方差為 2 n的正態分佈。注意 原來的分布不一定要符合正態分佈,可以是任何的分布,可以是離散也可以是連續,即...

中心極限定理

中心極限定理是統計學中又一非常重要的性質。什麼是中心極限定理,為了很直觀的理解它我就通過舉例的方式來進行說明。假設有乙個總體t,現在我從t中隨機抽取k個含有n個元素的樣本s,s1,s2,sk 每個樣本s1 x1,x2.xn s2 x1,x2,xn sk x1,x2,xn 每個樣本的均值為x1,x2,...