可汗學院統計學筆記(三)

2021-09-17 00:19:12 字數 1521 閱讀 7976

假設檢驗是推論統計中用於檢驗統計假設的一種方法。而「統計假設」是可通過觀察一組隨機變數的模型進行檢驗的科學假說。一旦能估計未知引數,就會希望根據結果對未知的真正引數值做出適當的推論。統計上對引數的假設,就是對乙個或多個引數的論述。而其中欲檢驗其正確性的為零假設(null hypothesis),零假設通常由研究者決定,反映研究者對未知引數的看法。相對於零假設的其他有關引數之論述是備擇假設(alternative hypothesis),它通常反映了執行檢定的研究者對引數可能數值的另一種(對立的)看法(換句話說,備擇假設通常才是研究者最想知道的)。假設檢驗的種類包括:t檢驗,z檢驗,卡方檢驗,f檢驗等等。

在假設檢驗的問題中,通常需要根據已有的統計量對某乙個假設進行檢驗。我們得到的統計量通常是樣本均值的抽樣分布,服從正態分佈(當n足夠大時,例如n>=30)或t分布(當n<30)。在零假設成立的條件下,計算出現樣本統計量的概率。如果概率值小於某個閾值,則「拒絕」零假設,接受備擇假設。在這個問題中,有兩個假設的概念:

零假設,通常記為

假設檢驗通常檢驗零假設的正確性,也即是問題中的假設的對立假設,對於利用這個零假設進行檢驗,我理解的原因是:題目中真正需要進行檢驗的假設通常不能提供確切的統計數值用於計算,而零假設可以充分利用題目中所給的條件,利用反正法推翻零假設,就證明了備擇假設的可信性。

p-value:在零假設成立的條件下,出現樣本統計情況的概率通常很小,將這種極端情況的概率值稱為p-value,通常設定5%為門限,當p-value低於這個門限時,就拒絕零假設。

雙側檢驗(two-tailed test):當樣本出現的極端情況可能出現在總體分布的兩側尾部時,稱為雙側檢驗。通常題目中的假設要求檢驗某個統計量是否變化;

單側檢驗(one-tailed test):當樣本出現的極端情況只可能出現在總體分布的一側尾部時,只需檢測一側的尾部,稱為單側檢驗。通常題目中的假設要求檢驗某個統計量向某個方向的變化。

z-統計量 和 t-統計量

與樣本容量有關。當樣本容量很大時(n>=30),樣本統計量(不一定是均值,可能是其他計算量)的抽樣分布服從正態分佈,此時計算概率時使用z分布的計算表;當樣本容量不是很大(n<30)時,樣本統計量的抽樣分布不再服從正態分佈,而服從t分布,此時使用t分布的計算表。

第一型錯誤(type 1 error):拒絕了正確的零假設的概率,也就是零假設判斷錯誤的概率。

大樣本佔比的假設檢:

樣本佔比實驗可以理解為伯努利實驗,佔比就是伯努利實驗的成功率。n次伯努利實驗是二項分布,當n很大時,二項分布趨近於正態分佈。具體地,當np>5,且n(1-p)>5,則可以假定樣本佔比的分布為正態分佈。

隨機變數之差的方差:

可汗學院統計學筆記(二)

中心極限定理 假設我們有乙個分布,它有定義好的均值和方差。用x表示服從這個分布的變數。進行n次實驗 n很大 每次實驗得到的結果是對這個分布的抽樣,將每次實驗結果用 這裡有乙個重要的分布 也就是 上提供了乙個演示程式可以讓我們更好地理解中心極限定理。第一行是原始分布,它可以是任意乙個奇怪的分布。第二行...

可汗學院的統計學

描述性統計學 描述集中趨勢,均值,中位數,眾數,離群值,在平均工資,平均房價,學生成績等情況中,中位數或者眾數更能反映集中趨勢,離群值可能有 量錯誤或沒寫特殊條件的值沒有參考意義,但是會改變平均值 連續型隨機變數 離散型隨機變數 離散概率密度分布函式,條形圖 連續概率密度分布,因為是連續的,可以去無...

組隊學習可汗學院統計學1

12 總體均值與樣本均值,總體值不好得 13 計算了乙個均值和方差 14 樣本方差用s 2 表示,按照和計算總體方差一樣的計算方法由於均值可能 與正常有偏移,使得方差的計算變小。15 標準差為方差開根號,所以方差的表示是標準差的平方,舉了例子算標準差 16 將方差計算公式進行化簡然後不用先求均值進行...