變數之間的相關性 協方差 相關係數

2021-10-11 02:40:16 字數 1147 閱讀 5769

方差和標準差衡量的是乙個變數(一組資料)的離散程度,也就是變數和均值之間的偏離程度。

正相關:兩個變數具有相同的變化趨勢(也稱同方向),要麼同時變大,要麼同時變小,這時協方差是正的;

負相關:兩個變數具有相反的變化趨勢(也稱反方向),乙個變大,另乙個變小,這時協方差是負的;

協方差描述的是兩個變數是否同時偏離期望值(或均值),偏離的方向相同就是正相關,偏離的方向相反就是負相關。

方差是協方差的一種特殊情況,也就是兩個變數完全相同。

協方差的公式定義,期望值(或均值)分別為 e[x] 與 e[y] 的兩個實隨機變數 x 與 y 之間的協方差cov(x, y)定義為:

例子:變數a有5個值 [5, 10, 6, 15, 2],變數b有5個值 [6, 9, 7, 10, 3],兩個變數的協方差計算如下:

e[a] = (5 + 10 + 6 + 15 + 2) / 5 = 7.6

e[b] = (6 + 9 + 7 + 10 + 3) / 5 = 7

a - e[a] = [ -2.6 , 2.4 , -1.6 , 7.4, -5.6 ]

b - e[b] = [ -1 , 2 , 0 , 3, -4 ]

(a - e[a]) * (b - e[b]) = [ -2.6 , 2.4 , -1.6 , 7.4, -5.6 ] * [ -1 , 2 , 0 , 3, -4 ] = 52

cov(a, b) = e[(a - e[a]) * (b - e[b])] = 52 / 5 = 10.4

可以看出a和b是正相關關係,但是具體正相關的程度是多少,從協方差中是看不出來的。

如果a和b的量綱(單位)一樣,用協方差表示的相關程度還有點作用,但是如果兩個變數採用不同的量綱,它們的協方差在數值上具有很大的差異,這就不能用來表示相關程度了。這需要另外乙個知識:相關係數。

如圖:

ρab= 10.4 / (

4.49 * 

2.44

) =  0.94

看出a和b是正相關關係,且a和b具有較大的相關程度。

即使兩個變數具有不同量綱,但是它們的 pearson 相關係數始終在[-1, 1]之間,這樣就有利於判斷兩個變數的相關程度了。

相關係數矩陣計算 期望 方差 協方差 相關係數

第一部分 理論部分 注 對以上的擴充套件涉及到矩 協方差矩陣 第二部分 實驗部分 編譯器 python 3.6 作 者 寒木雅 計算樣本期望 均值 方差 標準差 協方差 相關係數import numpy as np 生成隨機樣本x,yx np.random.randint 0,10,100 y np...

期望 方差 協方差 相關係數

一 期望 在概率論和統計學中,數學期望 或均值,亦簡稱期望 是試驗中每次可能結果的概率乘以其結果的總和。它反映隨機變數平均取值的大小。線性運算 推廣形式 函式期望 設f x 為x的函式,則f x 的期望為 離散函式 連續函式 注意 函式的期望不等於期望的函式 一般情況下,乘積的期望不等於期望的乘積 ...

方差 協方差 相關係數的理解

協方差對於變數x y,協方差的定義為每個時刻的 x值與其均值之差 乘以 y值與其均值之差 的均值 其實是求 期望 因此,如果x與x的均值差與y與y的均值差的符號相同,則協方差值大於0,符號相反,則協方差值小於0,總結如下 圖2 圖3 圖4 解釋一 x 越大 y 也越大,x 越小 y 也越小,這種情況...