機器學習 回歸中的相關度和R平方值

2022-08-20 12:06:13 字數 2845 閱讀 9663

1. 皮爾遜相關係數(pearson correlation coefficient)

1.1 衡量兩個值線性相關強度的量

1.2 取值範圍[-1, 1]

正相關:>0, 負相關:<0, 無相關:=0

1.3 要理解pearson相關係數,首先要理解協方差(covariance),協方差是乙個反映兩個隨機變數相關程度的指標,如果乙個變數跟隨著另乙個變數同時變大或者變小,那麼這兩個變數的協方差就是正值,反之相反,公式如下: 

方差:

注意:有了協方差,為什麼還使用皮爾遜相關係數?雖然協方差能反映兩個隨機變數的相關程度(協方差大於0的時候表示兩者正相關,小於0的時候表示兩者負相關),但是協方差值的大小並不能很好地度量兩個隨機變數的關聯程度,例如,現在二維空間中分布著一些資料,我們想知道資料點座標x軸和y軸的相關程度,如果x與y的相關程度較小但是資料分布的比較離散,這樣會導致求出的協方差值較大,用這個值來度量相關程度是不合理的。 

為了更好的度量兩個隨機變數的相關程度,引入了pearson相關係數,其在協方差的基礎上除以了兩個隨機變數的標準.

2. 計算方法舉例:

x      y

1     10

3     12

8     24

7     21

9     34

在excel中計算:

3. 其他例子

4. r平方值

4.1 定義:決定係數,反應因變數的全部變異能通過回歸關係被自變數解釋的比例。

也就是說,對於已經建模的模型,多大程度上可以解釋資料

4.2 描述:如r平方為0.8,則表示回歸關係可以解釋因變數80%的變異。換句話說,如果我們控制自變數不變,則因變數的變異程度會減少80%。

多元線性回歸:

r平方也有侷限性:r平方隨著自變數的增加會變大,r平方和樣本量是有關係的。因此,我們要對r平方進行修正。修正方法:

實際中一般會選擇修正後的r平方值對線性回歸模型對擬合度進行評判

python實現:

# -*- coding:utf-8 -*-

import numpy as np

from astropy.units import ybarn

import math

#相關度

def computecorrelation(x, y):

xbar = np.mean(x)

ybar = np.mean(y)

ssr = 0

varx = 0

vary = 0

for i in range(0, len(x)):

diffxxbar = x[i] - xbar

diffyybar = y[i] - ybar

ssr += (diffxxbar * diffyybar)

varx += diffxxbar**2

vary += diffyybar**2

sst = math.sqrt(varx * vary)

return ssr / sst

#測試testx = [1, 3, 8, 7, 9]

testy = [10, 12, 24, 21, 34]

# print("相關度r:", computecorrelation(testx, testy))

#相關度r: 0.940310076545

#r平方

#簡單線性回歸:

# print("r^2:", str(computecorrelation(testx, testy)**2))

#r^2: 0.884183040052

#多個x自變數時:

def polyfit(x, y, degree): #degree自變數x次數

result = {}

coeffs = np.polyfit(x, y, degree)

result['polynomial'] = coeffs.tolist()

p = np.poly1d(coeffs)

yhat = p(x)

ybar = np.sum(y)/len(y)

ssreg = np.sum((yhat - ybar)**2)

sstot = np.sum((y - ybar)**2)

result['determination'] = ssreg / sstot

return result

#測試print(polyfit(testx, testy, 1)["determination"])

#r^2:0.884183040052

回歸中的相關度和R平方值 學習筆記

1.相關度 相關度又叫 皮爾遜相關係數 pearson correlation coefficient 2.r平方值 模型可以解釋為多大程度是自變數導致因變數的改變 簡單線性回歸 r 2 r r 多元線性回歸 r平方也有其侷限性 r平方隨著自變數的增加會變大,r平方和樣本量是有關係的。因此,我們要到...

回歸中的相關度和R平方值(麥子學院)

皮爾遜相關係數 pearson correlation coefficient 1.1 衡量兩個值線性相關強度的量 1.2 取值範圍 1,1 正向相關 0,負向相關 0,無相關性 0 1.3計算方法舉例 x y 1 10 3 12 8 24 7 21 9 34 其他例子 r平方值 4.1定義 決定係...

線性回歸中的R 2平方值

回歸分析,是對兩個或兩個以上變數之間的因果關係進行定量研究的一種統計分析方法。在做回歸分析或者解決回歸問題時,常會用到r 平方值。定義 應用描述 應用實現 1.定義 決定係數,反應因變數的全部變異能通過回歸關係被自變數解釋的比例,回歸中可解釋離差平方和與總離差平方和之比值,其數值等於相關係數r的平方...