（補基礎）資料分析系列假設檢驗的基礎知識

junliang 資料科學家聯盟

目錄：

0x03 一類錯誤和二類錯誤

0x04 假設檢驗的步驟

0x0ff 總結

我們經常會遇到這樣的問題：

假設檢驗的基本思想是「小概率事件」原理，其統計推斷方法是帶有某種概率性質的反證法。小概率思想是指小概率事件在一次試驗中基本上不會發生。反證法思想是先提出檢驗假設，再用適當的統計方法，利用小概率原理，確定假設是否成立。即為了檢驗乙個假設 h0 是否正確，首先假定該假設 h0 正確，然後根據樣本對假設 h0 做出接受或拒絕的決策。如果樣本觀察值導致了「小概率事件」發生，就應拒絕假設 h0 ，否則應接受假設 h0 。

顯著性檢驗的基本原理是提出「無效假設」和檢驗「無效假設」成立的機率（p）水平的選擇。「無效假設」，就是當比較實驗處理組與對照組的結果時，假設兩組結果間差異不顯著。經統計學分析後，如發現兩組間差異系抽樣引起的，則「無效假設」成立，可認為這種差異為不顯著。若兩組間差異不是由抽樣引起的，則「無效假設」不成立，可認為這種差異是顯著的。

通常假設檢驗的目的是兩總體引數是否相等，以兩樣本均數比較為例，無效假設為兩樣本所代表的總體均數相等；備擇假設為不相等（有可能甲大於乙，也有可能甲小於乙）既兩種情況都有可能發生。

而研究者做這樣的假設說明：

（１）他沒有充分的理由判斷甲所代表的總體均數會大於乙的或甲的會小於乙的；

（２）他只關心甲乙兩個樣本各自所代表的總體均數是否相等，至於哪個大不是他關心的問題。這時研究者往往會採用雙側檢驗。

拒絕域的功能主要用來判斷假設檢驗是否拒絕原假設的。如果樣本觀測計算出來的檢驗統計量的具體數值落在拒絕域內，就拒絕原假設，否則不拒絕原假設。給定顯著性水平 α 後，查表就可以得到具體臨界值，將檢驗統計量與臨界值進行比較，判斷是否拒絕原假設。

雙尾檢驗更加嚴謹，更難拒絕 h0 假設，所以它應用得更為廣泛。只有當我們的研究真的非常有方向性的時候，才考慮單尾檢驗。

當 p < α/2 時拒絕 h0。

當研究假設具有明確方向性時使用單尾檢驗，在一側尾部上拒絕 h0。

如果研究者從專業知識的角度判斷甲所代表的總體均數不可能大於（或小於）乙的，這時一般就採用單側檢驗。

例子：

要比較經常參加體育鍛煉的中學男生心率是否低於一般中學男生的心率，就屬於單側檢驗。因為根據醫學知識知道經常鍛鍊的中學男生心率不會高於一般中學男生，因此在進行假設檢驗時應使用單側檢驗。

1）左尾檢驗

2）右尾檢驗

無論是左尾檢驗還是右尾檢驗，當 p < α 時拒絕 h0。

單尾檢驗和雙尾檢驗的區別：

他們拒絕 h0 的標準。單尾檢驗允許你在差異相對較小時拒絕 h0，這個差異被規定了方向。另一方面，雙尾檢驗需要相對較大的差異，這個差異不依賴於方向。

其中 α 錯誤又稱為「棄真」錯誤（一類錯誤），β 錯誤又稱為「納偽」錯誤（二類錯誤）。在日常實際應用中，通常我們採用的是顯著性水平檢驗，即求犯「棄真」錯誤的概率；我們常說在α = 0.05的水平進行顯著性檢驗，α = 0.05即是我們的犯「棄真」錯誤的概率，又稱為顯著性水平；1 - α (95%) 即是我們說的置信度水平。

作出決策；

假設檢驗是用來判斷樣本與樣本，樣本與總體的差異是由抽樣誤差引起還是本質差別造成的統計推斷方法。其基本原理是先對總體的特徵作出某種假設，然後通過抽樣研究的統計推理，對此假設應該被拒絕還是接受作出推斷。常用的假設檢驗方法有 z 檢驗、t 檢驗、卡方檢驗、f 檢驗等。

我們在生活中經常會遇到對乙個總體資料進行評估的問題，但我們又不能直接統計全部資料，這時就需要從總體中抽出一部分樣本，用樣本來估計總體情況。

本篇文章主要講了假設檢驗的基礎知識，後續文章我們再來講講假設檢驗的使用方法以及假設檢驗在資料分析中的實際使用案例。

參考資料

[1] 假設檢驗（hypothesis testing）.

[2] 假設檢驗.

[3] 雙尾檢驗和單尾檢驗.

（補基礎）資料分析系列假設檢驗的基礎知識

python資料分析假設檢驗

資料分析面試必備知識假設檢驗

資料分析必備的統計學（二）假設檢驗

（補基礎）資料分析系列 假設檢驗的基礎知識

python資料分析 假設檢驗

資料分析面試必備知識 假設檢驗

資料分析必備的統計學（二） 假設檢驗

相關推薦

（補基礎）資料分析系列假設檢驗的基礎知識

python資料分析假設檢驗

資料分析面試必備知識假設檢驗

資料分析必備的統計學（二）假設檢驗