9 spss做交叉表檢驗和對應分析

2021-09-23 19:58:19 字數 3306 閱讀 6717

前邊我們已經講過很多內容了。回顧一下,主要有相關分析,假設檢驗,和各種回歸。以及因子分析。我們知道,對於兩組連續變數,我們可以通過假設檢驗來判斷他們的分布是否相同,差異時候存在。不知道大家想過沒有,如果我們想討論兩個分類變數的分布是否相同呢?這裡我們首先來討論這個問題。

首先舉個例子,假設我們有兩個不同季節的某種衛生的是否達標的記錄。那麼我們就是有兩組二分類的變數(就是取值不是這個就是那個,只有兩種取值的變數)。對於這兩組變數,如果你還想用均值檢驗來看看分布是不是一樣的話,那我真是被你蠢哭了。這個明顯是不適合用均值檢驗或者非引數檢驗的。它適合的是我們正在介紹的卡方檢驗。

做分析首先需要做的第一步是輸入資料。正常的輸入方法是類似均值檢驗的:我們設一列達標與否,打一堆1或者2上去表示這個個案是達標或者不達標的。然後在設一列季節變數,在打一堆1或者2上去表示對應的這個個案是那個季節的。但是大部分時候,出於效率的考慮,我們都不會這麼輸資料。我們會設三個變數。達標與否,季節,權重。這樣我們用四個個案就能表示了(1,1,第乙個季節達標的數量)(1,2,第二個季節達標的數量)(2,1,第乙個季節不達標的數量)(2,2,第二個季節不達標的數量)。這兩種輸入資料的方法都是正確的,但是明顯,後一種要簡潔一些是不是?

然後,首先用權重那個變數為我們的所有資料加權。然後開啟選單分析——描述統計——交叉表。行選季節,列選達標與否(或者行選達標與否,列選季節),勾選下邊的顯示複式條形圖。點開統計量,全部勾選。點開單元格,全部勾選。然後確定。(為了後邊的對應分析,我得節省點篇幅。)

第乙個表是在概述你的資料情況,不用管它。第二個表是卡方檢驗表。這個錶可要好好看。我相信到了現在大家已經認識到了p值是多麼可愛,多麼重要的乙個指標了,可是這個表的問題在於,它的p值太多了。分別有:pearson卡方,連續矯正,似然比,fisher精確檢驗,線性和線性組合,mcnemar檢驗,哇,這麼多,我到底要看哪乙個呢?

首先你要看先你的最後一行的有效案例是多少個,其次還要看你最下邊的標註,有幾個單元格的期望計數小於2,最小期望計數是多少。有了這三個資料就能判斷用哪個p值了。注意,下邊這段判斷方法很重要,你最好找張紙抄下來。

有效案例大於等於40,所有期望計數大於等於5的時候,用pearson卡方。有效案例大於等於40,有期望計數小於5但最小的期望計數大於1時,用校正卡方。總頻數小於40,或者,注意,是或者,有期望計數小於1的時候,用fisher精確。

p值小於0.05,則認為有差異。

現在把我們的例子在變一變,如果我們的衛生達標與否這個指標改為了乙個三分類變數,不達標,合格,優秀。這三種類別呢?

操作過程和上邊是一樣的,但是結果只會告訴你這三組是否有差異,到底那組和那組有差異還要自己從新在做四格表才能判斷。

另,在加乙個變數,比如這個個案是公有性質或私有性質,三個指標放到一起來判斷的時候,就把性質這個變數放到交叉表的主面板的層裡邊(就在行和列的框框下邊。)

粗略的說完卡方以後,我們就來介紹一下對應分析。

卡方檢驗通常用來處理比較簡單的問題,但是對於複雜一點的問題,它的效果會很糟糕哦。比如我的變數每個都有四五個分類,我想看看分類之間的分布是否有差別等等的,肯定不可能用卡方撒。所以這時候就用到了對應分析。

對應分析又叫做關聯分析,因為它不僅能反映出來那個分類和那個分類的分布有沒有差別,也能反映出來變數之間的分類誰和誰更容易接近。舉個例子,假設我有乙個變數分類為1,2,3,4,5,另乙個變數分類為a,b,c,d,e,f。那麼我不僅能觀察知道1,2,3,4,5之間誰和誰更接近,我還能觀察知道a是和1,2,3,4,5中的那個更親近,b又是和誰更親近,套用到實際問題裡就是我會知道,哪一類人更容易有那種行為,所以也叫關聯分析。(這個名是不是比對應分析響亮一些?想想啤酒與尿布的故事吧!注意,你已經開始涉及到一些機器學習的內容了。)

那麼為什麼對應分析算是降維分析的一種呢?主要是因為它的原理是主成分分析。粗糙的理解是這樣的,它通過把兩個多分類變數分別降維降到二維(就是用兩個成分來表示這個多分類變數,類似因子分析裡的成分圖),然後把兩張二維的圖通過某些轉換合到一塊(你湊合著這麼理解吧,不是簡單的往一塊和,在最一開始就是一塊降得),然後你就可以在一張平面上觀察了。因此它歸到降維裡的範疇。儘管它不像因子分析那樣,把多個變數降成較少的變數那樣好理解。

開啟選單分析——降維——對應分析,行和列各選擇乙個分類變數。比如乙個變數是年齡段的分類,另乙個變數是對某種商品的喜愛程度。在行和列的框框下邊還有乙個定義範圍,點開那個對話方塊,選擇你的最大值和最小值。定義好以後開啟模型對話方塊,解得維數一般選2,處於乙個好觀察的角度,也出於準確性,一般選擇2。然後在開啟統計量,勾選對應表,行點概覽,列點概覽,列輪廓表。繪製對話方塊勾選雙標圖。然後就可以得到結果了。

對應表和簡要表是不怎麼重要的,可以忽略掉。注意看摘要表。首先要解釋兩個名詞。  奇異值。(這裡忍不住插嘴,世界上優秀的智慧型推薦的演算法都是用的奇異值分解。)我們知道乙個大矩陣通過這麼這麼分解,那麼那麼分解,最後能分解成幾個小矩陣。這些小矩陣就對應於我們的乙個個的成分。所以奇異值的大小呢,就能反映這些小矩陣的重要程度。那麼奇異值和因子分析裡的特徵值有什麼區別呢?特徵值是用在方陣裡的,而奇異值是用在長方形的矩陣裡的。而慣量它是奇異值的方,就類似於特徵值了。這兩個名詞了解就可以了,不需要詳細的知道。

在摘要表裡第一要看總計裡邊的p值。這個p值不小於0.05的話,那對應分析完全就是沒意義的。

第二要看慣量比例裡邊的解釋。對應的百分比。這個類似於因子分析裡解釋的總方差。都是反映的某乙個維能夠解釋模變數的百分比。通常來說,前兩個維都要起碼累積到百分之九十。有的資料很好的話,可能只能提取出兩個維,兩個維就能夠累計到百分之百了。

在下邊是概述點,如果你的摘要表表現很好的話,這個表就不怎麼用看啦。

最後是最重要的散點圖。

雙擊散點圖,在圖形編輯裡邊調整座標的初始值,在行和列的0.0處加輔助線。然後這張圖就會別分成四大塊了。中心點就是(0,0)。那麼在這張圖上邊就會有兩類不同圖形的點點,比如圓形表示年齡段的分類,三角表示喜愛程度。在小圖形附近還會標註清楚每個小圖形對應那個程度。那麼這個圖怎麼看呢?

首先四個大塊就直觀的告訴我們那些點和那些點距離比較近了。比如代表20歲到40歲的點和非常喜愛的點靠的很近,那麼就可以認為20歲到40歲的人會非常喜愛這個產品。這是最基本的乙個資訊。此外我們可以通過輔助線來進一步解釋這張圖。比如,我們找到代表非常喜愛的這個三角形,然後把這個點和(0,0)的中心點連線,連出一條直線來。然後把所有的小圓點向這條線做垂線。就是代表每個年齡段的小圓點都引一條垂線出來,垂點落到原來的那條直線上。假如我們分四個年齡段的話,那我們現在就有四個垂點啦。然後我們比較這四個垂點離代表非常喜愛的那個三角形的距離。注意,比較的是垂點哦。垂點離三角形越近,也就是說該年齡段的人越容易表達出非常喜愛哦。因為是垂點,所以從圖上看離得比較遠的兩個點未必就關聯程度比較低哦。

同樣的道理,我們也可以做出同一年齡段的人更容易喜愛還是不喜愛這個產品的直線圖。總之散點圖可以很直觀的解釋資訊哦。

簡單對應分析大概就是這樣了。注意,做簡單分析的時候,我們只能觀察兩個變數啊。那怎麼觀察更多的變數呢?敬請期待下一講:多重對應分析。

中級演算法 9 相交鍊錶

題目 編寫乙個程式,找到兩個單鏈表相交的起始節點。例如,下面的兩個鍊錶 a a1 a2 c1 c2 c3 b b1 b2 b3 在節點 c1 開始相交。注意 如果兩個鍊錶沒有交點,返回 null.在返回結果後,兩個鍊錶仍須保持原有的結構。可假定整個鍊錶結構中沒有迴圈。程式盡量滿足 o n 時間複雜度...

利用SPSS做資料分析 之資料處理2

記錄合併也叫縱向合併,是將具有共同的資料字段 結構,不同的資料表記錄,合併到乙個新的資料表中。現在有兩張表,一張 使用者明細 男 一張 使用者明細 女 他們擁有相同的資料字段 結構,只是記錄資訊不一樣,為了能夠進行整體的分析,我們需要將這兩張表合併到一張資料表中。如果兩個資料集合並出現錯誤或失敗,請...

5 spss做加權最小二乘回歸及嶺回歸

上一節我們講到一般多元線性回歸的操作方法。本節要介紹的是多元線性回歸的其他幾種情況。包括適用於含有加權變數的加權最小二乘回歸方程等。然後繼續討論上一節中沒有討論完畢的如何解決多重共線性這個問題。講加權最小二乘回歸之前,我們首先還是舉個例子。假設我們想考察全國三十乙個省的某種疾病的發病率和每個省的面積...