整理總結 深入淺出統計學 置信區間的構建

2021-10-04 19:14:07 字數 2726 閱讀 7695

我們的確可以使用點估計量來估計總體均值、方差或一定比例的精確值,但是我們始終無法確定我們使用的樣本一定是無偏樣本,因此我們考慮使用置信區間的方法來估計總體統計量,因為它是考慮了不確定性的方法。

二、置信區間的簡便演算法

三、特殊情況 —— 總體正態、樣本t分布

糖果公司用乙個包含100粒糖球的樣本得出口味持續時間均值的點估計量為62.7分鐘,於是便在電視節目**時段宣布其公司糖球口味的平均持續時間為62.7分鐘,但有人自行做了測試,得出了不同的結果,威脅要起訴糖果公司。

此時,我們應該制定的是總體均值的估計值的區間範圍,而不是乙個精確值,因為這樣的話會給予我們更大的誤差空間,就不容易被人起訴了。

1、選擇總體統計量

在問題中,需要為糖球口味持續時間的均值來構建區間,於是需要為總體均值μ

\muμ來構建乙個置信區間。

2、求出其抽樣分布

為了求出總體均值的抽樣分布,我們需要先計算出x

‾\overline x

x的期望、方差和分布。而這些在上一節中已經計算過了。

此時乙個問題是我們現在並不知道總體的方差是多少,但是我們可以借用點估計法μ

^\hat

μ^​ 或 s

2s^2

s2來近似替代,因為這已經是我們目前所具有的資料中可以得到的最近似的值了。公式進一步推導成如下形式。

對於樣本均值的分布,我們可以根據"若x符合正態分佈,那麼x

‾\overline x

x也符合正態分佈"的定理來得知,其應符合正態分佈。在本題中即是x‾∼

n(μ,

s2n)

\overline x \thicksim n(\mu,\frac)

x∼n(μ,

ns2​

)。3、決定置信水平

置信水平表明你希望自己對於「總體統計量落入置信區間」的這一說法有多大的把握,比如我們希望總體均值的執行水平為95%,這表明總體均值處於置信區間的概率為0.95,當然可以更高如99%,這樣糖果公司就可以更有信心在廣告宣稱「總體均值位於這個置信區間」這一說法。

值得注意的是,置信水平越高,區間越寬,也就是確定的概率越大,範圍越廣,也越對說法有把握。

為了防止說法幾乎毫無意義,我們需要確定乙個合適的置信水平,確保範圍小而可靠,對此,我們一般採用95%作為常用置信水平。

4、求出置信上下限

根據抽樣分布和選擇好的置信水平來求出置信上下限,從而確定置信區間的範圍。

此時我們再將x

‾\overline x

x進行標準化,從而利用正態分佈表來查出其對應的區間值。

此時我們將括號裡面的不等式進行展開,即可確定置信區間範圍,其中x

‾\overline x

x可以通過樣本x

‾\overline x

x來計算。

得出最後結果。

1、統計量的抽樣分布符合正態分佈時

2、統計量的抽樣分布符合t分布時

糖果公司想求出糖球重量的置信區間,但只抽取了少量的樣本,比如抽取了乙個具有代表性的樣本,共10顆,然後稱了每一粒糖球的重量,計算出這個樣本的x

‾\overline x

x=0.5,s

2s^2

s2=0.09,此時該如何求出其置信區間。

1、選擇總體統計量

我們需要為糖球重量均值構建乙個置信區間,也就是要為總體均值μ

\muμ構建置信區間。

2、求x

‾\overline x

x的概率分布

當總體符合正態分佈,δ

2\delta^2

δ2未知,且可供支配的樣本很小時,x

‾\overline x

x符合t分布。而當樣本數量為n個時,t分布的形式為t∼t

(n−1

)t\thicksim t(n-1)

t∼t(n−

1),而t =x

‾−us

/nt=\frac}

t=s/n​

x−u​

,也就是說在這道題中t=x

3、決定置信水平

一般設定為95%。

4、求出μ

\muμ的置信上下限

再利用t分布概率錶可求出p(t

>t)

=pp(t>t)=p

p(t>t)

=p中的t值,在這道題中p=0.025。

統計學 置信區間

假設我們想直到1000個人的平均身高。但是對1000人分別進行身高測量太麻煩。所以我們選擇100人樣本進行估計。估計可以是點估計 估計確切身高數 也可以是區間估計 估計確切身高的範圍 區間估計更為科學,所以這裡我們選擇區間估計。要估計就要考慮估計的準確度,我們實現確定95 的估計準確度。95 準確度...

整理總結 深入淺出統計學 排列與組合

順序是概率計算過程中不可避免的事情,通過學習簡便方法來完成概率計算的高階。2 型別排名 二 部分排列 三 組合 1 個體排名 i 普通排位 現有n匹賽馬,那麼它們所有可能的排列順序為n!ii 圓形排位 現有n匹賽馬,要求所有馬匹圍成一圈。1 如果只考慮馬匹的絕對位置的話,則所有可能排列順序為n 2 ...

統計學筆記1 置信區間

作為資料科學的重要基礎學科,我開始share統計學的學習筆記。單個正態總體,總體方差已知,均值的置信區間,基於中心極限定理 標準正態分佈,適用於樣本量大的情況 n 100 單個正態總體,總體方差未知,均值的置信區間,基於t分布,適用於樣本量較小的情況 bootstrap,通過數值模擬求置信區間 bo...