典型相關分析(CCA)簡述

2021-10-25 00:24:49 字數 2960 閱讀 9695

典型相關分析(canonical correlation analysis)是研究兩組變數之間相關關係的一種多元統計方法,它能夠揭示出兩組變數之間的內在聯絡

在一元統計分析中,用相關係數來衡量兩個隨機變數的線性相關關係,用復相關係數研究乙個隨機變數與多個隨機變數的線性相關關係。然而,這些方法均無法用於研究兩組變數之間的相關關係,於是提出了cca。

基本思想和主成分分析非常相似。首先,在每組變數中尋找出變數的線性組合,使得兩組的線性組合之間具有最大的相關係數;然後選取和已經挑選出的這對線性組合不相關的另一對線性組合,並使其相關係數最大,如此下去,直到兩組變數的相關性被提取完畢為止。被選出的線性組合配對稱為典型變數,它們的相關係數稱為典型相關係數。

設有兩組隨機變數x=(x1,x2,⋯,xp)′和y=(y1,y2,⋯,yq)′,不妨設p≤q。設第一組變數均值為ex=μ1,方差為var(x)=cov(x,x)=σ11。第二組變數均值為ey=μ2,方差為var(y)=cov(y,y)=σ22。第一組與第二組變數的協方差矩陣為cov(x,y)=σ12=σ′21。

分別對兩組變數做線性組合,得式(1)、(2),如下:

所以u,v的方差,協方差,相關係數為式(3)、(4)、(5)、(6),如下::

其中u,v稱為典型變數,它們之間的相關係數ρ稱為典型相關係數。

cca要解決的問題是,在所有線性組合u和v中選取典型相關係數最大的那對,即選取a(1),b(1)使u1=(a(1))′x與v1=(b(1))′y之間的相關係數最大,這裡(u1,v1)稱為第一對典型相關變數;然後在選取a(2),b(2)使得u1=(a(2))′x,v2(b(2))′y,在與u1,v1不相關的情況下,使得(u2,v2)的相關係數最大,稱為第二對典型相關變數;如此繼續下去,直到所有分別與(u1,v1),(u2,v2),⋯,(up−1,vp−1)都不相關的線性組合(up,vp)為止,此時p為x與y之間的協方差矩陣的秩。

由上面的分析可得模型,式(7):

由於收縮u和v的值並不會影響ρ,故我們可引入限制條件a′σ11a=1,b′σ22b=1將模型轉化為式(8):

引入lagrange乘子,得式(9):

對lagrange函式求導得式(10)、(11):

將上兩式分別左乘a′,左乘b′得:

又因為(a′σ12b)′=b′σ21a⟹λa′σ11a=νb′σ22b。由限制條件知:λ=ν=ρ=a′σ12b,即λ的值就是線性組合u和v的相關係數。我們重新將上式寫成式(12)、(13):

然後左乘σ12σ−122得式(14):

結合式(12)得式(15):

同理,將式子(12)左乘σ21σ−111,並將式子(13)代入式子(12)得式(16):

將σ−111左乘式子(15),σ−122左乘式子(16)得式(17):

於是,λ2既是矩陣a也是矩陣b的特徵值,a與b分別是對應的特徵向量。所以我們的問題轉化成求矩陣a,b的最大特徵值對應的特徵向量,而特徵值的平方根√λ為相關係數,從而求出第一對典型相關變數。

此時,我們可以得到如下的猜想:矩陣a,b的所有非零特徵值的平方跟都會是其對應的典型相關係數。見證明

典型相關性分析是用來探索兩個多變數(向量)之間之間的關聯關係的,這兩個多變數來自於乙個相同的個體。

一般有兩個典型的目的:

data interpretation:尋找特徵值,這些特徵值對於解釋兩個變數集合之間的相互作用十分關鍵。

舉例來說,我們判定乙個人解題能力x與他/她的閱讀能力y之間的關係。一方面,我們使用觀察乙個人的解題速度x1,解題正確率x2作為解題能力的指標;另一方面,我們觀察乙個人的閱讀速度y1,理解程度y2作為閱讀能力的指標。我們可以觀察二者之間的關聯關係。

假設兩組隨機變數x=(x1,x2)′和y=(y1,y2)′。設第一組變數均值為ex=μ1,方差為var(x)=cov(x,x)=σ11。第二組變數均值為ey=μ2,方差為var(y)=cov(y,y)=σ22。第一組與第二組變數的協方差矩陣為cov(x,y)=σ12=σ′21,而我們通過對樣本計算協方差矩陣得到如下結果:

由上述原理說明及例項展示,我們可以歸納得出cca演算法計算基本步驟如下:

計算x的方差var(x)=cov(x,x)=σ11, y的方差var(y)=cov(y,y)=σ22,x和y的協方差cov(x,y)=σ12=σ′21;

計算矩陣a:、b;

求a、b的特徵值和特徵向量a,b,並對a、b進行相應的向量化操作,求得滿足a,b約束條件下的a』、b』;

根據上述步驟結果,求相關係數,並對此進行分析

演算法篇 典型相關分析 CCA 理論

實際問題中,常常需要研究多個變數之間的相關關係,這個時候,可以試下典型相關分析 canonical correlation analysis 這種演算法由h hotelling於1936 年提出,在19世紀 70 年代臻於成熟。早期因為需要大量的矩陣計算,所以沒有廣泛應用。現代計算機提高了cca的地...

典型相關分析 cca 原理 液壓迴路分析與設計

gb t 786.1 2009這項國家標準已經發布 實施10年了,但其並沒有得到很好的遵照。究其原因 首先在一些標準 手冊 專著和 中就沒有嚴格地遵照 其次一些流體傳動及控制工作者本身不重視 最後受前一段時間的不良學風影響,且國內沒有 鼓勵 糾錯機制。針對前一段情況,作者曾出版過一本 液壓迴路分析與...

典型關聯分析 CCA 原理總結

典型關聯分析 canonical correlation analysis,以下簡稱cca 是最常用的挖掘資料關聯關係的演算法之一。比如我們拿到兩組資料,第一組是人身高和體重的資料,第二組是對應的跑步能力和跳遠能力的資料。那麼我們能不能說這兩組資料是相關的呢?cca可以幫助我們分析這個問題。在數理統...