協方差與相關係數 「傻傻」也能分清

2021-10-19 02:42:19 字數 2582 閱讀 9927

協方差(covariance) 的主要思想之一,其可以將資料分為三類關係:

協方差的計算公式暗示,協方差本身並不能告訴我們相關性直線的斜率(陡峭或平坦),也不能告訴我們樣本是否靠近相關性直線,它僅僅告訴我們兩變數之間的相關性直線的斜率是正還是負

協方差本身的意義難以詮釋,故我們不會以計算協方差為目標。但是計算協方差是其他計算的基礎,例如相關係數(correlation)

總的來說:協方差可以理解成兩個變數之間的方差,其取值可以是負無窮到正無窮,它可以表示兩個變數之間的變化趨勢,但是不能表示它們之間的程度

協方差對資料的scale敏感,使其不能揭示資料間的相關性程度。比如:左邊的資料較右邊的資料更接近相關性直線,左邊資料對應的協方差為102;右邊資料對應的協方差為381,遠大於左側資料的協方差。將右側資料同時縮小4倍後,資料距離相關性直線的距離未發生改變,但對應的協方差變為24,小於原來的協方差,也小於左側資料的協方差

總結:協方差是可以描述3類相關關係,包括正相關(協方差》0)、負相關(協方差<0)和無相關(協方差=0)。因為協方差對資料的scale異常敏感,故其本身的意義很難解讀,但是它確實計算相關係數和其他指標的基礎。

**正因為協方差的值不具有具體意義,對資料scale敏感,所以進一步對協方差進行拓展,比如接下來介紹的相關係數correlation

從上面的公式中可以看出:相關係數的計算公式中包括x與y的協方差、x的方差和y的方差。故計算x與y的協方差是計算相關係數的基礎。分母的作用是將協方差的結果調整至[-1,1],故相關係數不受資料scale的影響。

取值 [-1,1] (數值越接近0,相關性越弱,正負表示方向)

[-1,0] : 從強負相關到弱負相關到無相關

[0,1] :從無相關到弱正相關到強正相關

如果兩個變數具有相關性,比如說他們的相關係數為0.8,那麼他們之間的相關性是真實的嗎?回答這個問題,也就是回答他們間的相關係數是否具有統計顯著性,而統計中判斷統計顯著性的方法就是求p值。

相關係數的p值:資料越多,p值越小,置信度越高。在統計學中,p值代表隨機樣本具有某種強度相關性(如r=0.8)或者較該強度更強相關性(r>0.8)的可能性。p值越小,置信度越高

如下圖,從左到右,同樣的相關性係數,顯然樣本越多,可信度越高,相對應p值越小。

前面我們提及r越接近±1,直線的**能力就越準確,但是如何量化不同r之間的**準確性呢?如分別對r為0.7和0.5的資料做**,到底0.7的值比0.5值高多少**能力呢?

這個問題很難再用相關係數進行回答,而應該用r2, r2=r x r。

如果r=0.9(顯著),則r2 =0.81,說明兩變數間的關係可以較好的解釋資料的變異(也就是說,x與y的相關性可以解釋81%y的變異)。

如果r=0.7(顯著),則r2 =0.7 x 0.7=0.5,說明x與y的相關性可以解釋50%y變異。

如果r=0.5(顯著),則r2 =0.5 x 0.5=0.25,說明兩變數間的關係不能較好解釋變異,相反還有解釋75%變異的其他因素。

對於前面的問題:如分別對r為0.7和0.5的資料做**,到底0.7的值比0.5值高多少**能力呢?對於r=0.7和r=0.5,前者r2是後者r2的2倍,故r=0.7的**效能是r=0.5**效能的兩倍。

再舉個例子,結合上圖,

如何量化小鼠體積和體重關係解釋的變異呢?這就需要用到r2。具體計算(公式見上方截圖):r2= 擬合直線解釋的變異(var(mean)-var(fit))佔均值變異(var(mean))的百分比此處計算得出r2為81%,代表圍繞擬合直線的變異較圍繞均值變異少81%,表示由小鼠體積和體重關係解釋的變異佔體重總體變異的81%,說明小鼠體重的絕大部分變異可以由小鼠體積與小鼠體重的關係解釋。

反之亦然:

計算小鼠做某件事的時間與小鼠體重關係所解釋小鼠體重變異的百分比,方法同前,r2=6%,圍繞擬合直線的變異較圍繞均值變異少6%,表示由小鼠做某件事時間和體重關係解釋的變異佔體重總體變異的6%,說明小鼠體重的絕大部分變異幾乎不能由小鼠做某件事時間和體重關係所解釋,相反可能存在其他解釋的因素。

總結:需要注意的是,相關係數correlation僅僅只說明x-y的變化趨勢正向或反向,不能說明因果關係(即x的變化導致y的變化,也可能是y導致x,也可能是由於第三者z導致x及y的變化等…)

協方差(covariance)與相關係數(2)

期望 方差 協方差 相關係數

一 期望 在概率論和統計學中,數學期望 或均值,亦簡稱期望 是試驗中每次可能結果的概率乘以其結果的總和。它反映隨機變數平均取值的大小。線性運算 推廣形式 函式期望 設f x 為x的函式,則f x 的期望為 離散函式 連續函式 注意 函式的期望不等於期望的函式 一般情況下,乘積的期望不等於期望的乘積 ...

相關係數矩陣計算 期望 方差 協方差 相關係數

第一部分 理論部分 注 對以上的擴充套件涉及到矩 協方差矩陣 第二部分 實驗部分 編譯器 python 3.6 作 者 寒木雅 計算樣本期望 均值 方差 標準差 協方差 相關係數import numpy as np 生成隨機樣本x,yx np.random.randint 0,10,100 y np...

R中方差,協方差,相關係數

提到方差,乙個命令var 方差定義用來度量隨機變數和其數學期望 即均值 之間的偏離程度。a sample 10 a 1 4 2 9 3 6 10 8 5 7 1 var a 1 9.166667是協方差。協方差定義用於衡量兩個變數的總體誤差,即描述兩個變數之間的相對於各自的期望值的變化趨勢。方差是協...