兩樣本檢驗

2022-06-07 20:03:11 字數 3298 閱讀 5317

兩樣本t檢驗用於檢驗兩個總體的均值是否相等。兩總體都是未知的,且我們不想或不易測量出總體所有的個體,來求得總體均值。所以我們從總體中隨機抽樣得到樣本。對兩樣本進行統計檢驗,來看兩樣本差異是否顯著。

若我們想知道兩個不同物種的烏龜的平均重量是否相等。我們可以進行隨機抽樣選擇部分烏龜來代表總體烏龜。由於存在誤差,兩個物種樣本的平均重量是存在差異的。而我們可以通過two sample t-test知道它們之間的差異是否顯著。

為使two sample t-test結果有效,需要滿足一些條件。

兩總體相互獨立

兩總體均服從正太分布,且兩總體方差相等,若不相等考慮welch』s t-test

確定零假設:

確定備擇假設,這裡有3種假設方法,根據實際問題進行假設:

計算檢驗統計量\(t\):

\(t=\frac}-\bar})}}-\frac})}\)

其中:- \(\bar, \bar\): 樣本均數

- \(n_1, n_2\): 樣本大小

- \(s_\)計算 \(s_p = \sqrt_+(n_2-1)s^_ }+-2}}}\)

- \(s^_, s^_\): 樣本方差

計算p-value:

選擇乙個顯著性水準\(\alpha\),(一般為0.01,0.05,0.1),然後根據\(\alpha\)和自由度\(df\)

\((n-1)\),去找到相應的p-value。可以去查t界值表或者通過程式計算出來。

以之前烏龜為例,若樣本資料為:

建立檢驗假設,檢驗水準

計算t檢驗統計量:

\[s_p=\sqrt_ + (n_2-1)s^_ }} = \sqrt} = 17.647

\]\[t=\frac}-\bar})}}-\frac})}= \frac+\frac})} = -1.2508

\]\[df = n_1+n_2-2=40+38-2=76

\]以\(\nu=76、|t|=|-1.2508|=1.2508\) 為輸入通過程式t score to p value calculator計算,可得出\(p=0.21484\)。

確定結論

\(p=0.21484>\alpha=0.05\), 故不拒絕零假設\(h_\),差異無統計學意義。沒有充分理由說明兩個烏龜物種的平均重量不相等。

一般常見的演算法,都是有python庫封裝好的了,我們直接呼叫它給的介面就行了。

這裡借助乙個python科學計算庫scipy, 一般可以通過命令pip install scipy安裝。

import numpy as np

import scipy.stats as stats

## 研究者想知道兩種植物的平均高度是否相等,所以他們各蒐集了20株植物

## group1,group2分別為兩個植物樣本身高

group1 = np.array([14, 15, 15, 16, 13, 8, 14, 17, 16, 14, 19, 20, 21, 15, 15, 16, 16, 13, 14, 12])

group2 = np.array([15, 17, 14, 17, 14, 8, 12, 19, 19, 14, 17, 22, 24, 16, 13, 16, 13, 18, 15, 13])

# 確定總體方差是否相等

# 根據經驗,如果較大的樣本方差與較小的樣本方差之比小於4:1,我們可以假定總體具有相同的方差。

print(np.var(group1), np.var(group2))

# 7.73 12.26 # 12.26 / 7.73 = 1.586,小於4。這意味著我們可以假設總體方差相等

## 通過stats.ttest_ind 進行兩樣本t檢驗

res = stats.ttest_ind(a=group1, b=group2, equal_var=true)

print("t statistic: ", res.statistic)

print("p value: ", res.pvalue)

## output

## t statistic: -0.6337397070250238

## p value: 0.5300471010405257

stats.ttest_ind的引數ab分布是第乙個樣本和第二個樣本;equal_var只兩個總體方差是否相等。預設為true,若為false應使用welch』s t-test

結果說明:

\(h_: \mu_=\mu_\) 假設兩種植物平均高度相等

\(h_: \mu_\ne\mu_\) 該植物平均高度不相等

因為此次檢驗p-value(0.53005) 大於 \(\alpha=0.05\), 不能拒絕\(h_\),所以沒有充分的證據說明兩植物的平均高度不同。

t-test在r裡使用t.test進行計算

> group1 

> group2

> ?t.test

> t.test(group1, group2, alternative = "two.sided", var.equal = t, mu=0)

two sample t-test

data: group1 and group2

t = -0.63374, df = 38, p-value = 0.53

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-2.726335 1.426335

sample estimates:

mean of x mean of y

15.15 15.80

t.test中的引數設定:

最後的結果和python中的一樣,甚至更詳細。

two sample t-test: definition, formula, and example

兩樣本差異的統計學比較方法 假設檢驗

一 背景 這幾天重新複習了一下以前經典的假設檢驗方法。包括之前使用excel來做一些簡單的統計分析。假設檢驗 hypothesis test 亦稱顯著性檢驗 significant test 是統計推斷的另一重要內容,其目的是比較總體引數之間有無差別。假設檢驗的實質是判斷觀察到的 差別 是由抽樣誤差...

SPSS中,進行配對樣本T檢驗

特點 在配對樣本t檢驗中,強調被試一定要同質 同一樣本,不同變數環境 其目的就為了消除目的是額外變數的影響,更能反映自變數和因變數之間的關係。配對樣本t檢驗的過程,是對兩個同質的樣本分別接受兩種不同的處理或乙個樣本先後接受不同的處理,來判斷不同的處理是否有差別。這種檢驗的目的在於根據樣本資料對樣本來...

隨手寫程式 單樣本t分布檢驗

def t test x,miu n len x if n 30 or n 47 return 請輸入31 46長度的樣本 t 71,55,19,24,9,96,83,71,60,49,39,29,20,11,2,94 it iter t for i in range len t t i next ...