Python玩轉資料分析 相關分析

2021-10-01 06:47:26 字數 1904 閱讀 4049

在引數統計中,常用的相關分析方法是 pearson 相關係數,公式如下:

r (x

,y)=

∑i[(

xi−x

ˉ)(y

i−yˉ

)]∑i

(xi−

xˉ)2

∑i(y

i−yˉ

)2

r(\bm)=\frac_[(x_i-\bar)(y_i-\bar)]} _(x_i-\bar)^2 \sum^{}_(y_i-\bar)^2}}

r(x,y)

=∑i​

(xi​

−xˉ)

2∑i​

(yi​

−yˉ)

2​∑i

​[(x

i​−x

ˉ)(y

i​−y

ˉ)]​

現有乙個容量為 7 的樣本(x,y),x= [ 1, 2, 3, 5, 12, 6, 100 ],y

import scipy.stats as statsx=[

1,2,

3,5,

12,6,

100]y=[

4,3,

2,1,

3,8,

98]stats.pearsonr(x,y)

輸出結果為:(0.993499917707721, 6.519840976305177e-06)

結果顯示 pearson 相關係數為 0.99 ,p值為 6.52e-06 ,表明xy有顯著的強相關關係。

pearson 檢驗有乙個缺陷,即容易受離群點或高槓桿點的影響。比如上面xy兩變數中最後乙個樣本點( 100, 98 ),這乙個樣本點與其他樣本點大大不同,放在乙個分布之下進行分析顯然是不合理的。

spearman 秩相關檢驗將各變數中的值轉換為秩,再計算相關係數,計算公式與pearson 相關係數計算公式相同,只不過把變數值轉換成了秩。因此,spearman 秩相關檢驗能有效避免 pearson 相關檢驗的缺陷。

spearman 秩相關檢驗如下:

stats.spearmanr(x,y)
輸出結果為:spearmanrresult(correlation=0.36037498507822363, pvalue=0.42714880856090626)

可以看到,相關係數變為了0.36,且p值為0.43,表明xy相關關係並不顯著。

kendall τ

\tau

τ 相關檢驗與 spearman 秩相關檢驗類似,不同之處在於kendall τ

\tau

τ 相關檢驗從兩變數 (xi

,yi)

(i=1

,2,.

..,n

)(x_i, y_i)(i=1,2,...,n)

(xi​,y

i​)(

i=1,

2,..

.,n)

是否協同一致的角度出發檢驗兩變數之間是否存在相關性。

kendall τ

\tau

τ

stats.kendalltau(x,y)
輸出結果為:kendalltauresult(correlation=0.19518001458970663, pvalue=0.5434238636256696)

相關係數為0.195,且p值為0.543,依然表明xy相關關係不顯著。

Python玩轉資料分析學習筆記 02語法

二 語法 1.if elif else語句 if expression expr elif expression2 expr2 else expr3 from random importrandint x randint 0,300 0 300 之間隨機產生數 2.range和xrange rang...

《一本書玩轉資料分析》

1.資料分析注意事項 1 分析資料是否完整,有效,真實 2 資料分析目的是否明確 3 是否能有效實行資料分析結論 2.資料分析思維 1 假設 利用假設獲得資料結論 2 對比 利用對比發現資料異常 3 解刨 利用解刨攝入分析因素 4 平衡 利用平衡尋找合適資料 3.資料探勘 又稱資料勘探 1 從資料中...

python筆記29 資料分析之相關分析

coding utf 8 1.概念 相關分析 correlation analysis 是研究兩個或兩個以上隨機變數之間相互依存關係的方向和密切程度的方法。相關分析分為 線性相關 非線性相關 這裡我們主要介紹常用的線性相關,線性相關也稱為直線相關,也就是當乙個連續變數發生變動時,另乙個連續變數相應的...