協方差矩陣計算

cov(x,y)=exy－ex*ey

協方差的定義，ex為隨機變數x的數學期望，同理，exy是xy的數學期望

舉例：xi 1.1 1.9 3

yi 5.0 10.4 14.6

e(x) = (1.1+1.9+3)/3=2

e(y) = (5.0+10.4+14.6)/3=10

e(xy)=(1.1×5.0+1.9×10.4+3×14.6)/3=23.02

cov(x,y)=e(xy)-e(x)e(y)=23.02-2×10=3.02

此外：還可以計算：d(x)=e(x^2)-e^2(x)=(1.1^2+1.9^2+3^2)/3 - 4=4.60-4=0.606 σx=0.778888

d(y)=e(y^2)-e^2(y)=(5^2+10.4^2+14.6^2)/3-100=15.44 σy=3.93

r(x,y)=cov(x,y)/(σxσy)=3.02/(0.778888×3.93) = 0.986

表明這組資料x,y之間相關性很好!

補充：計算協方差矩陣

如計算矩陣 1 2 3

10 20 30 的協方差矩陣。

計算結果為：

40.5000 81.0000 121.5000

81.0000 162.0000 243.0000

121.5000 243.0000 364.5000

通常，在提到協方差的時候，需要對其進一步區分。（1）隨機變數的協方差。跟數學期望、方差一樣，是分布的乙個總體引數。（2）樣本的協方差。是樣本集的乙個統計量，可作為聯合分布總體引數的乙個估計。在實際中計算的通常是樣本的協方差。

在概率論和統計中，協方差是對兩個隨機變數聯合分布線性相關程度的一種度量。兩個隨機變數越線性相關，協方差越大，完全線性無關，協方差為零。定義如下。

cov(x,y)=e[(x−e[x])(y−e[y])]

當x，y是同乙個隨機變數時，x與其自身的協方差就是x的方差，可以說方差是協方差的乙個特例。

cov(x,x)=e[(x−e[x])(x−e[x])]

或var(x)=cov(x,x)=e[(x−e[x])2]

由於隨機變數的取值範圍不同，兩個協方差不具備可比性。如x，y，z分別是三個隨機變數，想要比較x與y的線性相關程度強，還是x與z的線性相關程度強，通過cov(x,y)與cov(x,z)無法直接比較。定義相關係數η為

通過x的方差var(x)與y的方差var(y)對協方差cov(x,y)歸一化，得到相關係數η，η的取值範圍是[−1,1]。1表示完全線性相關，−1表示完全線性負相關，0表示線性無關。線性無關並不代表完全無關，更不代表相互獨立。

在實際中，通常我們手頭會有一些樣本，樣本有多個屬性，每個樣本可以看成乙個多維隨機變數的樣本點，我們需要分析兩個維度之間的線性關係。協方差及相關係數是度量隨機變數間線性關係的引數，由於不知道具體的分布，只能通過樣本來進行估計。

設樣本對應的多維隨機變數為x=[x1,x2,x3,...,xn]tx=[x1,x2,x3,...,xn]t，樣本集合為，m為樣本數量。與樣本方差的計算相似，a和b兩個維度樣本的協方差公式為，其中1⩽a⩽n，1⩽b⩽n，n為樣本維度

這裡分母為m−1m−1是因為隨機變數的數學期望未知，以樣本均值代替，自由度減一。