可汗學院統計學筆記（三）

假設檢驗是推論統計中用於檢驗統計假設的一種方法。而「統計假設」是可通過觀察一組隨機變數的模型進行檢驗的科學假說。一旦能估計未知引數，就會希望根據結果對未知的真正引數值做出適當的推論。統計上對引數的假設，就是對乙個或多個引數的論述。而其中欲檢驗其正確性的為零假設（null hypothesis），零假設通常由研究者決定，反映研究者對未知引數的看法。相對於零假設的其他有關引數之論述是備擇假設（alternative hypothesis），它通常反映了執行檢定的研究者對引數可能數值的另一種（對立的）看法（換句話說，備擇假設通常才是研究者最想知道的）。假設檢驗的種類包括：t檢驗，z檢驗，卡方檢驗，f檢驗等等。

在假設檢驗的問題中，通常需要根據已有的統計量對某乙個假設進行檢驗。我們得到的統計量通常是樣本均值的抽樣分布，服從正態分佈（當n足夠大時，例如n>=30）或t分布（當n<30)。在零假設成立的條件下，計算出現樣本統計量的概率。如果概率值小於某個閾值，則「拒絕」零假設，接受備擇假設。在這個問題中，有兩個假設的概念：

零假設，通常記為

假設檢驗通常檢驗零假設的正確性，也即是問題中的假設的對立假設，對於利用這個零假設進行檢驗，我理解的原因是：題目中真正需要進行檢驗的假設通常不能提供確切的統計數值用於計算，而零假設可以充分利用題目中所給的條件，利用反正法推翻零假設，就證明了備擇假設的可信性。

p-value：在零假設成立的條件下，出現樣本統計情況的概率通常很小，將這種極端情況的概率值稱為p-value，通常設定5%為門限，當p-value低於這個門限時，就拒絕零假設。

雙側檢驗（two-tailed test）：當樣本出現的極端情況可能出現在總體分布的兩側尾部時，稱為雙側檢驗。通常題目中的假設要求檢驗某個統計量是否變化；

單側檢驗（one-tailed test）：當樣本出現的極端情況只可能出現在總體分布的一側尾部時，只需檢測一側的尾部，稱為單側檢驗。通常題目中的假設要求檢驗某個統計量向某個方向的變化。

z-統計量和 t-統計量

與樣本容量有關。當樣本容量很大時（n>=30），樣本統計量（不一定是均值，可能是其他計算量）的抽樣分布服從正態分佈，此時計算概率時使用z分布的計算表；當樣本容量不是很大（n<30）時，樣本統計量的抽樣分布不再服從正態分佈，而服從t分布，此時使用t分布的計算表。

第一型錯誤（type 1 error）：拒絕了正確的零假設的概率，也就是零假設判斷錯誤的概率。

大樣本佔比的假設檢：

樣本佔比實驗可以理解為伯努利實驗，佔比就是伯努利實驗的成功率。n次伯努利實驗是二項分布，當n很大時，二項分布趨近於正態分佈。具體地，當np>5,且n(1-p)>5,則可以假定樣本佔比的分布為正態分佈。

隨機變數之差的方差：

可汗學院統計學筆記（三）

可汗學院統計學筆記（二）

可汗學院的統計學

組隊學習可汗學院統計學1

可汗學院統計學筆記（三）

可汗學院統計學筆記（二）

可汗學院的統計學

組隊學習可汗學院統計學1

相關推薦