典型相關分析

2021-10-24 08:34:45 字數 2348 閱讀 9555

研究兩組可能包含多個指標的變數之間相關關係的一種多元統計方法。它能夠揭示出兩組變數內部的關係。

我們要**觀眾和業內人士對於一些電視節目的觀點有什麼關係呢?

觀眾的評分來自低學歷(led)高學歷(hed)和網路(net)調查三種,它們形成第一組變數;業內人士的評分來自包括演員和導演在內的藝術家(arti)、發行(com)與業內各部門主管(man)三種,形成第二組變數。

如果直接對這些變數的相關性進行兩兩分析,很難得到關於這兩組變數之間關係的乙個很清楚的印象。

於是我們吧多個變數和多個變數之間的關係轉化成為兩個具有代表性的變數之間的關係。

那麼問題來了,選擇哪個指標作為哪個最有代表性的變數呢???

首先我們解釋一下什麼叫做有代表性。

就是能較為全面,綜合的衡量其所在組的內在規律。

這裡的話,一組最簡單的綜合形式就是該變數組線性組合。

首先在每組的變數中找出變數的線性集合,使得兩組線性組合之間具有最大的相關係數。

然後選取和最初挑選的這對線性組合不相關的線性組合,使其配對,並選取相關係數最大的一對

如此下去,直到兩組變數之間的相關性被提取完畢。

被選取的線性組合配對稱為典型變數,他們的相關係數稱為典型相關係數。典型相關係數度量了兩組變數之間聯絡的強度

假設兩組變數分別為:

分別在兩組變數中選取有若干代表性的綜合變數:u(i),v(i),使得每乙個綜合變數是原變數的線性組合,即:

注意:綜合變數的組數是不確定的,如果第一組就能代表原資料的大部分資訊,那麼一組就足夠了。假設第一組反應的資訊不夠,那麼我們就需要找第二組了。並且為了讓第二組資訊更有效,需要保證兩組的資訊不相關,即:

第一組需要滿足的條件:

在var(u1) = var(v1) = 1的條件下,找到a(1)和b(1)兩組係數,使得p(u1,v1)最大。(因為相關係數和量綱無關:

這裡為了確保典型變數的唯一性,我們只考慮方差為1的x(1)和x(2)的線性函式a(i)』x(1)和b(i)x(2),求使得他們相關係數達到最大的這一組。若存在常相量a(1)和b(1),在d(a(1)'x(1)) = d(b(1)'x(2)) = 1的條件下,使得p(a(1)'x(1),b(1)'x(2))達到最大,則稱a(1)'x(1),b(1)'x(2)是一對典型相關變數,求出第一對後,可以類似的求出第二和第三對等典型相關變數

假設兩組隨機變數中的指標個數p<=q,令:

根據典型相關分析的基本思想,要進行兩組隨機變數間的相關分析,首先要計算出各組變數的線性組合——典型變數,並使其係數達到最大,因此,我們設兩組變數的線性組合為:

我們可以得到(其實這裡我還沒有看懂):

在前面說明的我們對方差的約束條件下(方差為1),我們可以得出:

問題就轉化為使得上式取得最大值的係數向量a和b。

根據條件極值的求解法我們引出拉格朗日乘數,將問題再次轉化為求解

的極大值。

然後我們分別求導,得出:

求解方程式可以得到:

其中a為pp階矩陣,b為qq階矩陣。

典型變數和典型相關係數的計算可以歸結為矩陣a和矩陣b特徵根和特徵向量的求解。如果矩陣a和b的秩為r,則有r對典型變數,第k對典型變數的係數向量分別是矩陣a和b的第k特徵根對應的特徵向量。

首先將資料匯入spss

選擇典型相關分析

將不同的組別分開

隨後就彈出分析結果。

典型相關分析

典型相關分析函式 a,b,r,u,v,stats cononcorr x,y param x 原始變數x矩陣,每列乙個自變數指標,第i列是 xi 的樣本值 y 原始變數y矩陣,每列乙個因變數指標,第j列是 yj 的樣本值 return 列數為典型相關變數數 stats 假設檢驗的值 詳細用一下就知道...

6 1 典型相關分析

典型相關分析由hotelling提出,其基本思想和主成分分析非常相似。首先在每組變數中找出變數的線性組合,使得兩組的線性組合之間具有最大的相關係數 然後選取和最初挑選的這對線性組合不相關的線性組合,使其配對,並選取相關係數最大的一對 如此繼續下去,直到兩組變數之間的相關性被提取完畢為止。被選出的線性...

R語言 相關分析和典型相關分析

r語言相關分析與典型相關分析 相關分析與典型相關分析 pearson相關係數 a c 1,3,5,7,9 b c 1,4,6,9,10 cor a,b pearson相關係數 cor.test a,b 檢驗相關係數的顯著性 cor iris 1 4 相關係數,引數填資料集,則計算相關係數矩陣 spe...