機器學習 卡方檢驗

2021-09-10 10:16:30 字數 1800 閱讀 2699

本文相對原文有刪減和增加一些自己的理解。

其實卡方檢驗是英文chi-square test 的諧音。在大資料運營場景中,通常用在某個變數(或特徵)值是不是和應變數有顯著關係。

卡方檢驗就是檢驗兩個變數之間有沒有關係。

如果有顯著區別的話,我們會考慮把這些變數放到模型或者分析裡去。這邊顯著區別可以理解為兩個變數顯著相關

那我們先從乙個最簡單的例子說起。

1) 根據投硬幣觀察到的正面,反面次數,判斷這個硬幣是均衡的還是不均衡。

現在有乙個正常的硬幣,我給你投50次,你覺得會出現幾個正面,幾個反面?

按照你的經驗你會這麼思考,最好的情況肯定是25個正面,25個反面,

但是肯定不可能這麼正正好好的,嗯,差不多28個正面,22個反面吧23個正面,27個反面也可能的

但是10個正面,40個反面肯定不可能的,除非我運氣真的那麼碰巧。

你上面的這個思維方式,就是拿已經知道的結果(硬幣是均衡的,沒有人做過手腳),推測出會出現的不同現象的次數。

而卡方檢驗是拿觀察到的現象(投正面或反面的次數或者頻數),來判斷這個結果(硬幣是不是均衡的)。

繼續上面這個例子,

如果我不知道這個硬幣是不是均衡的,我想用正面,反面的頻次來判斷,我投了50次,

其中28個正面,22個反面。我怎麼用卡方檢驗來證明這個硬幣是均衡的還是不均衡的呢?

這裡要引出卡方檢驗的公式:

這個公式可以幫我們求出卡方檢驗的值,我們用

其中,自由度我們可以求出來,置信度的話,我們按照我們自己意願挑選,一般我們會挑90%或者95%。

這三個數值計算方法如下:

我們拿到這3個資訊,去查表,因為0.72小於查表得到的3.841,所以我們得出這個硬幣是均衡的結論。

03 投篩子

接下來,我們再來看乙個稍微難一點的例子,投骰子。

有乙個篩子,我不知道它是不是均衡的,於是我打算投36次看一下。

按照投硬幣的方式,我先要畫出乙個**,然後計算出3個數值,

帶著這3個值,我們去查表,於是我們得出這個現象不能判定他是個均衡的篩子。

卡方檢驗(詳解)

卡方檢驗 卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。屬於非引數檢驗,主要是比較兩個及兩個以上樣本率 構成比 以及兩個分類變數的關聯性分析。根本思想在於比較理論頻數和實際頻數的吻合程度或者擬合優度問題。舉例一 想知道喝牛奶對感冒發病率有沒有影響。喝牛奶組和不喝牛奶組的感冒率為30.94 和25....

卡方檢驗隨筆

一 什麼是卡方檢驗 考慮這樣乙個場景 有一枚硬幣,我們希望知道,這枚硬幣是否是均勻的。於是我們拋了100次,檢視正面和反面的次數,根據這個結果來判斷這個硬幣是否為均勻的。1 有50次正面,50次反面,那麼我們覺得基本上這個硬幣是均勻的 2 有55次正面,45次反面,我們也覺得硬幣差不多是均勻的 3 ...

卡方檢驗,U檢驗,t檢驗,F檢驗

卡方檢驗 主要用於等級資料 t檢驗 適用於計量資料 正態分佈 方差具有齊性的兩組間小樣本比較。包括配對資料間 樣本與均數間 兩樣本均數間比較三種,三者的計算公式不能混淆。也可以這樣理解主要是用於小樣本 樣本容量小於30 的兩個平均值差異程度的檢驗方法。u檢驗 檢驗應用條件與t檢驗基本一致,只是當大樣...