樣本量大小會影響假設檢驗的結果(是否顯著)嗎?

2022-06-06 17:03:11 字數 1319 閱讀 1281

今天聽課聽到這樣乙個結論:如果假設檢驗的樣本量很大,那麼顯著性水平α應該設得小一點。

為什麼呢?我沒想通,於是去網上試圖查詢答案。結果發現網上很多人還在糾結:如果假設檢驗的樣本量很大,那麼會使假設檢驗的結果非常容易產生顯著性。這是不是真的?樣本量太大是不是不好?

我:??? 很久之前我就知道這種說法沒有道理,但是我從來沒有仔細去研究過這個問題。這次在知乎和stackexchange上蒐羅了一下大家的回答,發現很多老師包括很多書上的說法都是錯誤的,在這裡有必要澄清和記錄一下。

首先,有些人之所以認為大樣本會使假設檢驗結果更容易產生顯著性,理由如下:

投銅板,投的次數越多,某個統計檢驗量的值出現的可能性越小。(摘自:

反對者說:這正說明了大樣本的好處呀。如果樣本量小,那麼很可能假設檢驗的結果是由於偶然的原因導致的。樣本量越大,我們越可以肯定假設檢驗的結果是準確的。

還有一種理由是這樣的,以t檢驗為例,根據t值的計算公式:

,如果樣本量n越大,標準誤差就越小,這樣t值就越大,也就可以推出p值越小,這不就說明樣本量越大,結果越容易顯著嗎?

反對者說:如果效應量不變,那麼這種說法是正確的。但是,在其他部分(α,1-β)不變的情況下,n越大,效應量越小,因此t值並不會因此變大。

反對者承認,在大樣本的情況下,我們會檢測出那些細小但有時不具有實際意義的差別。也就是說,即使假設檢驗的結果具有統計顯著性,但是由於該結果的效應量太小,因而該結果沒有什麼意義。比如《a/b測試例項》這個例子,轉化率從30%到33%,這個需要提公升的部分就是我們希望假設檢驗能檢測到的最小差別,以此可以計算出效應量。從樣本量的計算中可以看出來,在其他部分(α,1-β)不變的情況下,效應量越小,我們需要的樣本量就越大。因此,也就是說樣本量越大,假設檢驗也就越敏感,越容易檢測出細小的差別。但這並不是說我們不應該使用大樣本,而是說我們對假設檢驗結果的解釋依賴於效應量和敏感度。如果效應量很小,敏感度又很高,那麼很可能結果具有統計顯著性但並沒有什麼實際意義。

那麼為什麼大家都在爭論這個問題呢?誰也說服不了誰。我覺得是因為他們都沒有說清楚前提條件,以至於大家說話沒在乙個頻道上。

如果我們保持效應量不變,也就是說把我們想要檢測出的最小差別確定好,此外把想要達到的power也確定好,那麼如果樣本量大的話,統計檢驗量的值確實更容易被檢測出顯著。在這種情況下,我們應該把α調小一點,這樣可以同時很好地控制第一類錯誤和第二類錯誤出現的概率。

回到開頭說的這個結論,我問了教授,說是假設檢驗本身設計是沒錯的,但是人們經常會錯誤地使用它。不是說樣本量大了就不好,而是樣本量大了,我們應該把顯著性水平α調小一點,而不是生搬硬套,一直使用α=0.05。

12 均值的假設檢驗

標籤 機器學習與資料探勘 此篇的r 對應本系列的 12 r語言手冊 第五站 單變數分析 在這兩個假設之下,又有四種情況 型別i錯誤的概率記為 alpha 而型別i 錯誤的概率記為 beta 對於乙個固定樣本容量,alpha 減小與 beta 增大相關,反之亦然。在統計分析中,alpha 通常固定在某...

python假設檢驗的實現

這裡以熟悉的鳶尾花資料集舉例 from sklearn.datasets import load iris data load iris df pd.dataframe data data 100 df target data.target 100 df 0 mean z檢驗 import stat...

統計學的假設檢驗

假設檢驗是一種規則,它根據資料樣本所提供的證據,指定是肯定還是否定有關總體的宣告。基本原理是先對總體的特徵作出某種假設,然後通過抽樣研究的統計推理,對此假設應該被拒絕還是接受作出推斷。假設檢驗的基本思想是小概率反證法思想。小概率思想是指小概率事件 p 0.01或p 0.05 在一次試驗中基本上不會發...