(補基礎)資料分析系列 假設檢驗的基礎知識

2021-10-07 06:49:18 字數 2273 閱讀 4692

junliang 資料科學家聯盟 

目錄:

0x03 一類錯誤和二類錯誤

0x04 假設檢驗的步驟

0x0ff 總結

我們經常會遇到這樣的問題:

假設檢驗的基本思想是「小概率事件」原理,其統計推斷方法是帶有某種概率性質的反證法。小概率思想是指小概率事件在一次試驗中基本上不會發生。反證法思想是先提出檢驗假設,再用適當的統計方法,利用小概率原理,確定假設是否成立。即為了檢驗乙個假設 h0 是否正確,首先假定該假設 h0 正確,然後根據樣本對假設 h0 做出接受或拒絕的決策。如果樣本觀察值導致了「小概率事件」發生,就應拒絕假設 h0 ,否則應接受假設 h0 。

顯著性檢驗的基本原理是提出「無效假設」和檢驗「無效假設」成立的機率(p)水平的選擇。「無效假設」,就是當比較實驗處理組與對照組的結果時,假設兩組結果間差異不顯著。經統計學分析後,如發現兩組間差異系抽樣引起的,則「無效假設」成立,可認為這種差異為不顯著。若兩組間差異不是由抽樣引起的,則「無效假設」不成立,可認為這種差異是顯著的。

通常假設檢驗的目的是兩總體引數是否相等,以兩樣本均數比較為例,無效假設為兩樣本所代表的總體均數相等;備擇假設為不相等(有可能甲大於乙,也有可能甲小於乙)既兩種情況都有可能發生。

而研究者做這樣的假設說明:

(1)他沒有充分的理由判斷甲所代表的總體均數會大於乙的或甲的會小於乙的;

(2)他只關心甲乙兩個樣本各自所代表的總體均數是否相等,至於哪個大不是他關心的問題。這時研究者往往會採用雙側檢驗。

拒絕域的功能主要用來判斷假設檢驗是否拒絕原假設的。如果樣本觀測計算出來的檢驗統計量的具體數值落在拒絕域內,就拒絕原假設,否則不拒絕原假設。給定顯著性水平 α 後,查表就可以得到具體臨界值,將檢驗統計量與臨界值進行比較,判斷是否拒絕原假設。

雙尾檢驗更加嚴謹,更難拒絕 h0 假設,所以它應用得更為廣泛。只有當我們的研究真的非常有方向性的時候,才考慮單尾檢驗。

當 p < α/2 時拒絕 h0。

當研究假設具有明確方向性時使用單尾檢驗,在一側尾部上拒絕 h0。

如果研究者從專業知識的角度判斷甲所代表的總體均數不可能大於(或小於)乙的,這時一般就採用單側檢驗。

例子:

要比較經常參加體育鍛煉的中學男生心率是否低於一般中學男生的心率,就屬於單側檢驗。因為根據醫學知識知道經常鍛鍊的中學男生心率不會高於一般中學男生,因此在進行假設檢驗時應使用單側檢驗。

1)左尾檢驗

2)右尾檢驗

無論是左尾檢驗還是右尾檢驗,當 p < α 時拒絕 h0。

單尾檢驗和雙尾檢驗的區別:

他們拒絕 h0 的標準。單尾檢驗允許你在差異相對較小時拒絕 h0,這個差異被規定了方向。另一方面,雙尾檢驗需要相對較大的差異,這個差異不依賴於方向。

其中 α 錯誤又稱為「棄真」錯誤(一類錯誤),β 錯誤又稱為「納偽」錯誤(二類錯誤)。在日常實際應用中,通常我們採用的是顯著性水平檢驗,即求犯「棄真」錯誤的概率;我們常說在α = 0.05的水平進行顯著性檢驗,α = 0.05即是我們的犯「棄真」錯誤的概率,又稱為顯著性水平;1 - α (95%) 即是我們說的置信度水平。

作出決策;

假設檢驗是用來判斷樣本與樣本,樣本與總體的差異是由抽樣誤差引起還是本質差別造成的統計推斷方法。其基本原理是先對總體的特徵作出某種假設,然後通過抽樣研究的統計推理,對此假設應該被拒絕還是接受作出推斷。常用的假設檢驗方法有 z 檢驗、t 檢驗、卡方檢驗、f 檢驗等。

我們在生活中經常會遇到對乙個總體資料進行評估的問題,但我們又不能直接統計全部資料,這時就需要從總體中抽出一部分樣本,用樣本來估計總體情況。

本篇文章主要講了假設檢驗的基礎知識,後續文章我們再來講講假設檢驗的使用方法以及假設檢驗在資料分析中的實際使用案例。

參考資料

[1] 假設檢驗(hypothesis testing).

[2] 假設檢驗.

[3] 雙尾檢驗和單尾檢驗.

python資料分析 假設檢驗

一 假設概念 假設總體均值為 那麼實際抽樣的均值離 越近意味著假設越合理,相反,實際抽樣均值離 越遠意味著假設越不合理。其中,實際抽樣結果與假設的差異 程度 可以用概率值表示,概率值越大意味著越無差異。在實際中往往認為設定乙個p value的閾值將差異程度判斷為有差異或者無差異,這就是顯著性水平。二...

資料分析面試必備知識 假設檢驗

3 顯著水平 4 與置信區間的關係 講概率 論統計,肯定要從拋硬幣說起啊,這才是正確開啟姿勢嘛。你說你的硬幣是公平的,也就是 花 和 字 出現的概率是差不多的。然後,你想和我打賭,作為乙個資深的理智賭徒,我怎能聽信你的一面之詞,我提出要檢查下你的 硬幣到底是不是公平的,萬一是兩面 花 怎麼辦?電影裡...

資料分析必備的統計學(二) 假設檢驗

講完概率分布,再來講講統計學的最後乙個知識點 假設檢驗。假設檢驗是數理統計學中根據一定假設條件由樣本推斷總體的一種方法。事先對總體引數或分布形式作出某種假設,然後利用樣本資訊來判斷原假設是否成立,採用邏輯上的反證法,依據統計上的小概率原理。為了更好的解釋,這裡舉個例子。假設我有一袋豆子,袋子裡有紅豆...