可汗學院統計學筆記（二）

中心極限定理：假設我們有乙個分布，它有定義好的均值和方差。用x表示服從這個分布的變數。進行n次實驗（n很大），每次實驗得到的結果是對這個分布的抽樣，將每次實驗結果用

這裡有乙個重要的分布:

,也就是

**：上提供了乙個演示程式可以讓我們更好地理解中心極限定理。

第一行是原始分布，它可以是任意乙個奇怪的分布。第二行是取樣的過程，在最終的結果中不顯示。第三行和第四行分別是當抽樣次數為5和15時，所有樣本的均值的分布。可以看到當n=5時，樣本均值的分布已經可以看出正態分佈的形狀，當n增大到16時，這個樣本均值的分布是乙個方差更小的正態分佈。

關於樣本均值的抽樣分布的幾個重要結論：

1.樣本均值的抽樣分布的均值與總體均值相等。即：

2.樣本均值的抽樣分布的方差與樣本數成反比，並有乙個確定的關係：

標準差：

樣本均值的抽樣分布的標準差又稱為均值標準誤差（standard error of the mean）。

這裡插播兩個正態分佈的概念：

偏度（skew）

如果是乙個完美的正態分佈，則skew=0；如果偏度為正，則意味著右側尾部較長；如果偏度為負，則意味著左側尾部較長。

峰度（kurtosis）

如果時乙個完美的正態分佈，則峰度為0時；當峰度為負時，正態分佈的頂部較肥，尾部較陡峭；當峰度為正時，正態分佈的頂部較瘦，尾部較平緩。

伯努利分布是最簡單的二項分布。伯努利分布中的事件只會出現兩種結果。我們假設其中一種結果為「成功」，其概率為p，另外一種結果為「失敗」，其概率為1-p。則有以下結果：

均值：方差：

標準差:

有這個一樣問題：

從農場的200，000個蘋果中取出36個蘋果進行取樣。樣本的平均重量為112g，樣本的標準差為40g。請問：總體200，000個蘋果的平均重量的95%置信區間是多少？

我們得到的只是樣本的資訊，如何根據極少的樣本資訊得到總體資訊呢？思路如下：

1.從總體中抽取36個樣本得到的樣本均值是樣本均值的抽樣分布的乙個抽樣，也就是乙個正態分佈的抽樣；

2.用樣本的標準差作為總體標準差的估計，並計算樣本均值的抽樣分布的標準差：；

3.樣本均值為

4. 3中的概率值可以通過經驗法則或查表計算。

說明：因為使用樣本的標準差作為總體標準差的估計，並不準確，所以這裡說的是「置信」區間，而不是確定的。

t 分布（t distribution）用於小樣本容量時置信區間的估計

當樣本數很小時，樣本均值的抽樣分布並不服從於正態分佈，不能用正態分佈的經驗法則或**進行概率計算。有專門的t分布計算**。t分布與正態分佈的差別是：t分布有「肥」尾，這是因為低估了抽樣分布的標準差。

今天沒時間啦，暫時先寫這麼多，之後再補充~

參考：可汗學院：統計學

可汗學院統計學筆記（三）

假設檢驗是推論統計中用於檢驗統計假設的一種方法。而統計假設是可通過觀察一組隨機變數的模型進行檢驗的科學假說。一旦能估計未知引數，就會希望根據結果對未知的真正引數值做出適當的推論。統計上對引數的假設，就是對乙個或多個引數的論述。而其中欲檢驗其正確性的為零假設 null hypothesis 零假設...

可汗學院的統計學

描述性統計學描述集中趨勢，均值，中位數，眾數，離群值，在平均工資，平均房價，學生成績等情況中，中位數或者眾數更能反映集中趨勢，離群值可能有量錯誤或沒寫特殊條件的值沒有參考意義，但是會改變平均值連續型隨機變數離散型隨機變數離散概率密度分布函式，條形圖連續概率密度分布，因為是連續的，可以去無...

組隊學習可汗學院統計學1

12 總體均值與樣本均值，總體值不好得 13 計算了乙個均值和方差 14 樣本方差用s 2 表示，按照和計算總體方差一樣的計算方法由於均值可能與正常有偏移，使得方差的計算變小。15 標準差為方差開根號，所以方差的表示是標準差的平方，舉了例子算標準差 16 將方差計算公式進行化簡然後不用先求均值進行...

可汗學院統計學筆記（二）

可汗學院統計學筆記（三）

可汗學院的統計學

組隊學習可汗學院統計學1

相關推薦