回歸方程的擬合優度檢驗別錯過，卡方檢驗實用總結！

通常情況下，卡方檢驗是研究分類資料與分類資料之間關係的分析方法，如性別和是否戴**眼鏡之間的關係。卡方檢驗通常會涉及卡方值和p值兩個名詞術語。卡方值與p值有對應關係，p值小於0.05則說明有差異存在，即性別與是否戴**眼鏡之間有聯絡。在具體差異分析的基礎上，進一步分析不同性別樣本戴**眼鏡的百分比，例如，男性戴**眼鏡的百分比為30%，而女性戴**眼鏡的百分比為50%，說明女性樣本戴**眼鏡的比例要明顯高於男性樣本。

除此之外，卡方檢驗（準確說是卡方擬合優度檢驗）還可以檢驗定類資料的分布特徵是否與預期保持一致。比如本來預計男性和女性的比例各佔一半（50%），但收集回來的資料卻是45%和55%，那麼收集回來的資料是否就明顯的偏差預期（50%）呢？此時也可以使用卡方檢驗。

卡方檢驗在實際使用過程中，還可用於問卷多選題的分析（也稱作多重響應分析），比如多選題的選擇比例是否均勻，也或者單選題和多選題之間的差異關係情況如何呢，均可使用卡方檢驗進行分析。下**為卡方檢驗的實際使用型別說明：

卡方檢驗實際應用

通常理解的卡方檢驗，其檢驗目的在於定類和定類資料的差異。比如性別和是否戴眼鏡的關係，性別和是否戴眼鏡都是定類資料，因此可以研究性別和是否戴眼鏡的比例是否有明顯的差異性。

除此之外，還有一種卡方檢驗（準確說是卡方擬合優度檢驗），其目的是研究定類資料各選項的分布比例上是否有著差異性，比如性別男和女預期是50%和50%，那事實上的樣本是否明顯的偏離這一比例呢，這種即卡方擬合優度檢驗。

在問卷研究裡面，有很多的多選題，多選題各項的比例是否均勻呢？那麼就可以利用卡方擬合優度檢驗進行分析（spssau預設提供）；如果想研究單選題和多選題的選擇差異關係，那麼這種是研究定類資料和定類資料的差異性，spssau預設也提供卡方檢驗結果。

卡方檢驗spssau操作

1) 絕大多數情況下，均是直接研究定類和定類資料差異，spssau共有兩個地方可實現，分別是通用方法裡面的「交叉（卡方）」和醫學研究裡面的卡方檢驗。如果是彙總資料，即加權資料，此時只能使用【醫學研究->卡方檢驗】，同時，如果希望提供更多詳細的資料指標，比如自由度，列聯絡數，cramer v等，均需要使用醫學研究裡面的卡方檢驗。

2) 如果是進行卡方擬合優度檢驗，即研究定類資料選項佔比差異，此時應該使用醫學研究裡面的卡方擬合優度檢驗。操作如下圖所示：

預設spssau會假定選項的選擇比例完全一致，即男和女的比例是50%和50%。如果預期是40%和60%，那麼可對「期望值設定(預設相等)」這個按鈕進行設定，如下圖：

3) 如果是問卷研究裡面的多選題操作，直接使用spssau問卷研究裡面對應多選題的按鈕即可，比如下圖：

特別說明一點：多選題的資料格式非常特殊，乙個選項乙個標題，比如5個選項就有5個標題，而且需要使用數字標識『選中』還是『沒有選中』，一般情況下數字1表示『選中』，數字0表示『沒有選中』。

如果原始資料使用數字表示選中，null值表示沒有選中，那麼需要把null值全部替換成數字0，可使用spssau【資料處理->異常值功能】進行批量處理，把null值即缺失值填補成數字0即可。

使用卡方檢驗時，資料格式非常重要，因為spssau支付加權和非加權兩種格式，而且有時想利用卡方檢驗檢視相關關係情況，此時還需要看一些新的指標，比如列聯絡數、cramer v或lambda指標等。當然還會有一些其它問題，彙總如下圖：

第1點：卡方檢驗資料格式問題？

spssau共支援2種資料格式，分別是常規資料格式（非加權格式）和加權格式，如下說明：

上圖為常規格式（即非加權格式），一行代表乙個樣本，一列代表乙個屬性，將全部的原始資料資訊列出即可，比如有100個樣本，那麼就有100行資料。

在醫學/實驗研究時，很多時候只有彙總資料，即帶加權項的資料，比如下圖中x有2種情況，y有3個情況，一種有2*3=6種組合，資料資訊只有6種組別的彙總項（即加權項），分別是40，10，20，30，20，50；相當於總共有170個樣本，如果是使用常規格式（即非加權格式），此時應該有170行；但加權格式則只需要6行即可表示，如下圖：

在使用spssau【醫學研究->卡方檢驗】，也或者【醫學研究->卡方擬合優度檢驗】時，spssau均支援加權資料格式。一旦資料是加權格式，那麼分析時需要把『加權項』放到對應的框中即可。

第2點：fisher卡方值問題？

在spssau的【醫學研究->卡方檢驗】裡面，如果資料是2*2格式，比如性別為男和女2個選項，學歷分為本科以下和本科以上共2個選項。那麼此時為2*2的組合，此時spssau缺省會提供fisher卡方檢驗值。

當然，spssau還會提供一些其它的卡方指標值，包括pearson卡方，連續校正卡方，各選擇單元格的期望值和比例值等中間過程值等等（當然具體應該使用那乙個，spssau會自動進行判斷和選擇），下圖僅為中間過程值等。

第3點：相關關係問題？

如果希望看出差異的幅度，而不僅僅是看是否有差異。除了使用肉眼進行分析，即對比選擇百分比的具體值情況進行分析外。還可以使用效應量（effect size）,effect size值通常包括phi、列聯絡數、校正列聯絡數、cramer v和lambda等。此五個係數的意義都是檢視差異幅度，但使用的前提並不一樣，通常只需要使用其中乙個即可，具體使用的標準和說明如下：

第4點：到底用卡方，還是方差，也或者非引數檢驗？

有時候會出現一種疑問，比如看下面的例子。

當前想研究性別和滿意度的差異關係，滿意度分為「非常不滿意、比較不滿意、一般、滿意和非常滿意」共五項。滿意度看上去更像是定量資料，而非定類資料，但看成是定類資料也可以。

那麼此時到底用卡方呢，還是使用方差（也或者非引數檢驗呢？）。其實這裡的滿意度是一種有序的定類資料，一般這種資料可能看成是定量更多，即使用方差分析更適合（當然也可使用卡方檢驗）。

但比如醫學裡面有這樣的資料「未見療效，好轉和**」，這個也是有序的定類資料，這個僅3項，看成是定類資料就更適合了，所以使用卡方檢驗較好。

回歸方程的擬合優度檢驗別錯過，卡方檢驗實用總結！

擬合優度檢驗

資料探勘之擬合優度檢驗

用python求解多元線性回歸方程的權重和殘差

回歸方程的擬合優度檢驗 別錯過，卡方檢驗實用總結！

擬合優度檢驗

資料探勘之擬合優度檢驗

用python求解多元線性回歸方程的權重和殘差

相關推薦

回歸方程的擬合優度檢驗別錯過，卡方檢驗實用總結！