數字特徵 協方差 相關係數

2022-08-29 07:33:12 字數 2482 閱讀 5606

【引入】

對於二維隨機變數 $(x,y)$ ,我們除了討論 $x$ 與 $y$ 的數學期望和方差除外,

還需要討論描述 $x$ 與 $y$ 之間相互關係的數字特徵。

在《數字特徵:方差》方差性質3的證明中,我們已經看到,

如果兩個隨機變數 $x$ 與 $y$ 是相互獨立的,則 $e\ =0$

這意味著當 $e\ \neq 0$ 時, $x$ 與 $y$ 不相互獨立,而是存在一定的關係的。

【定義】

量 $e\$ 稱為隨機變數 $x$ 與 $y$ 的協方差,記為 $cov(x,y)$

即$$cov(x,y)=e\$$

而$$\rho_=\frac\sqrt}$$

稱為隨機變數 $x$ 與 $y$的相關係數

由定義,即知

$$cov(x,y)=cov(y,x),\quad cov(x,x)=d(x)$$

由上述定義及(2.5)式知道,對於任意兩個隨機變數 $x$ 與 $y$ ,下列等式成立

$$d(x+y)=d(x)+d(y)+2cov(x,y)\tag$$

將 $coc(x,y)$ 的定義式展開,易得

$$cov(x,y)=e(xy)-e(x)e(y)\tag$$

我們常常用這一式子計算協方差。

協方差的性質

1. $cov(ax,by)=abcov(x,y),a,b是常數$

2. $cov(x_1+x_2,y)=cov(x_1,y)+cov(x_2,y)$

$\rho_$ 的兩條重要性質

考慮以 $x$ 的線性函式 $a+bx$ 來近似表示 $y$ 。

我們以均方誤差

$$e=e[(y-(a+bx))^2]\qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \quad \ $$

$$=e(y^2)+b^2e(x^2)+a^2-2be(xy)+2abe(x)-2ae(y)\tag$$

來衡量以 $a+bx$ 近似表達 $y$ 的好壞程度。

$e$ 的值越小表示 $a+bx$ 與 $y$ 的近似程度越好。

這樣,我們就取 $a,b$ 使 $e$ 取到最小。

下面就來求最佳近似式 $a+bx$ 中的 $a,b$ 。為此,將 $e$ 分別關於 $a,b$ 求偏導數,並令它們等於零,得

$$\begin\frac=2a+2be(x)-2e(y)=0,\\ \frac=2be(x^2)-2e(xy)+2ae(x)=0\end$$

解得$$b_0=\frac$$

$$a_0=e(y)-b_0e(x)=e(y)-e(x)\frac$$

將 $a_0,b_0$ 帶入(3.3)式得

$$\min_e\=e\=(1-\rho_^)d(y)\tag$$

由(3.4)式容易得到下述定理:

【定理】

1. $|\rho_|\leq 1$

2. $|\rho_|=1$ 的充要條件是,存在常數 $a,b$ 使 $p\=1$

證:(省略,日後再補)

$\rho_$ 的含義 

由(3.4)知,均方誤差 $e$ 是 $|\rho_|$ 的嚴格單調減少函式,這樣 $\rho_$ 的含義就很明顯了。

當 $|\rho_|$ 較大時 $e$ 較小,表明 $x,y$ (就線性關係來說)聯絡較緊密。

特別當 $|\rho_|=1$ 時,由定理中的2,$x,y$ 以概率1存在著線性關係。

於是 $\rho_$ 是乙個可以用來表徵 $x,y$ 之間的線性關係緊密程度的量。

當 $|\rho_|$ 較大時,我們通常說 $x,y$ 線性相關的程度較好;

當 $|\rho_|$ 較小時,我們說,$x,y$ 線性相關的程度較差。

當 $|\rho_|=0$ 時,稱 $x,y$ 不相關。

相關與相互獨立的關係

假設隨機變數 $x,y$ 的相關係數 $\rho_$ 存在。

當 $x$ 和 $y$ 相互獨立時,由數學期望的性質4及(3.2)式知 $cov(x,y)=0$ ,從而 $\rho_=0$ ,即 $x,y$ 不相關。

反之,若 $x,y$ 不相關,$x$ 和 $y$ 卻不一定相互獨立(見【例1】)。

上述情況,從「不相關」和「相互獨立」的含義來看是明顯的,這是因為不相關只是就線性關係來說的,而相互獨立是就一般關係而言的。

不過從【例2】可以看到,當 $(x,y)$ 服從二維正態分佈時,$x$ 和 $y$ 不相關與 $x$ 和 $y$ 相互獨立是等價的。

【例1】

設 $(x,y)$ 的分布律為

y\x-2-21

2$p\$10

1/41/4

01/2

41/400

1/41/2

$p\$

1/41/4

1/41/4

1易知 $e(x)=0,e(y)=5/2,e(xy)=0$ ,於是 $\rho_=0,x,y$不相關。

事實上,$x$ 和 $y$ 具有關係:$y=x^2$ ,$y$ 的值完全可由 $x$ 的值所確定。

【例2】二維正態分佈

期望 方差 協方差 相關係數

一 期望 在概率論和統計學中,數學期望 或均值,亦簡稱期望 是試驗中每次可能結果的概率乘以其結果的總和。它反映隨機變數平均取值的大小。線性運算 推廣形式 函式期望 設f x 為x的函式,則f x 的期望為 離散函式 連續函式 注意 函式的期望不等於期望的函式 一般情況下,乘積的期望不等於期望的乘積 ...

相關係數矩陣計算 期望 方差 協方差 相關係數

第一部分 理論部分 注 對以上的擴充套件涉及到矩 協方差矩陣 第二部分 實驗部分 編譯器 python 3.6 作 者 寒木雅 計算樣本期望 均值 方差 標準差 協方差 相關係數import numpy as np 生成隨機樣本x,yx np.random.randint 0,10,100 y np...

R中方差,協方差,相關係數

提到方差,乙個命令var 方差定義用來度量隨機變數和其數學期望 即均值 之間的偏離程度。a sample 10 a 1 4 2 9 3 6 10 8 5 7 1 var a 1 9.166667是協方差。協方差定義用於衡量兩個變數的總體誤差,即描述兩個變數之間的相對於各自的期望值的變化趨勢。方差是協...