演算法篇 典型相關分析 CCA 理論

2021-06-28 11:28:55 字數 789 閱讀 9045

實際問題中,常常需要研究多個變數之間的相關關係,這個時候,可以試下典型相關分析(canonical correlation  analysis)。這種演算法由h·hotelling於1936 年提出,在19世紀 70 年代臻於成熟。早期因為需要大量的矩陣計算,所以沒有廣泛應用。現代計算機提高了cca的地位。

首先,cca研究的是兩組變數x =(x1,x2,x3,......,xn)和y =(y1,y2,y3,......,ym)之間的相關關係。通常用相關係數衡量,如下公式:

通過找到任意非零向量α =(α1,α2,α3,......,αn)和β =(β1,β2,β3,......,βm)將兩組變數線性組合,如下:

(注:圖中的p、q請自動腦補成n、m,公式都是一樣的)

這樣,cca將研究x和y的相關問題轉變成研究u和v的相關問題,只需找到α和β使得u和v的相關係數最大即可。

順便補幾個公式:

cov是協方差,cov(x,y) = [var(x)+var(y)-var(x+y)]/2

var(variance)是方差,資料是一維時候也寫作d,d(x)=e(x2)-[e(x)]2

e是期望,e(x) = x1*p(x1) + x2*p(x2) + …… + xn*p(xn)

參考文獻:

典型相關分析(CCA)簡述

典型相關分析 canonical correlation analysis 是研究兩組變數之間相關關係的一種多元統計方法,它能夠揭示出兩組變數之間的內在聯絡。在一元統計分析中,用相關係數來衡量兩個隨機變數的線性相關關係,用復相關係數研究乙個隨機變數與多個隨機變數的線性相關關係。然而,這些方法均無法用...

典型相關分析 cca 原理 液壓迴路分析與設計

gb t 786.1 2009這項國家標準已經發布 實施10年了,但其並沒有得到很好的遵照。究其原因 首先在一些標準 手冊 專著和 中就沒有嚴格地遵照 其次一些流體傳動及控制工作者本身不重視 最後受前一段時間的不良學風影響,且國內沒有 鼓勵 糾錯機制。針對前一段情況,作者曾出版過一本 液壓迴路分析與...

典型關聯分析 CCA 原理總結

典型關聯分析 canonical correlation analysis,以下簡稱cca 是最常用的挖掘資料關聯關係的演算法之一。比如我們拿到兩組資料,第一組是人身高和體重的資料,第二組是對應的跑步能力和跳遠能力的資料。那麼我們能不能說這兩組資料是相關的呢?cca可以幫助我們分析這個問題。在數理統...