資料分析高階 相關分析(皮爾遜相關係數)

2021-10-21 23:58:18 字數 1444 閱讀 8603

相關分析是研究兩個或兩個以上處於同等地位的隨機變數間的相關關係的統計分析方法。通過對不同特徵或資料間的關係進行分析,發現其中關鍵影響及驅動因素。在實際的工作應用中,常常用於特徵的發現與選擇。針對不同資料型別的變數,需要選用不同的檢驗方法,具體如下表所示

變數個數

變數型別

檢驗方法

兩個均為連續變數

皮爾遜相關係數、簡單線性回歸

兩個均為有序分類變數

mantel-haenszel 趨勢檢驗、 spearman相關、kendall』s tau-b相關係數

兩個均為無序分類變數

卡方檢驗、fisher精確檢驗

兩個均為二分類變數

相對風險、比值比、卡方檢驗和phi (φ)係數、fisher精確檢驗

皮爾遜相關係數( pearson correlation coefficient),又稱皮爾遜積矩相關係數(pearson product-moment correlation coefficient,簡稱 ppmcc或pccs),是用於度量兩個變數x和y之間的相關(線性相關),其值介於-1與1之間。

1.適用範圍

2.原理

利用兩個變數間的協方差和變數的標準差進行計算而來(分子是協方差,分母是兩個變數標準差的乘積)

3.python實現

import pandas as pd

import numpy as np

# 資料

# 這裡求a\b\c\d與e的相關係數

df = pd.dataframe(np.random.randn(20)

.reshape(4,

5),index =[1

,2,3

,4],

columns=

['a'

,'b'

,'c'

,'d'

,'e',]

)x = df.values

correlation_matrix = np.corrcoef(x.t)

r = correlation_matrix[:,

-1].tolist(

)for i in

range

(len

(r))

:print

(str

(r[i]

))

4.其他補充為什麼輸出會有nan?

由於皮爾遜相關係數是利用兩個變數間的協方差和變數的標準差進行計算而來,若相關係數為nan,說明資料存在問題

計算相關係數之前需不需要標準化?

不需要標準化,因為相關係數本來就是乙個標準化的統計量,從上面的計算公式可見,這就是乙個標準化的過程,即相關係數就是標準化了的協方差。

資料分析相關 20201012

二 關聯匹配 示例 尋找工資12k 20k的下限 left p2,find k p2,1 1 left 文字,擷取到第幾位 返回從左開始擷取的文字 find 查詢的文字,目標文字,開始位置 返回查詢文字所在位置示例 拼接n個字段 concatenate q2,k r2 示例 把 應屆畢業生 替換為 ...

Python玩轉資料分析 相關分析

在引數統計中,常用的相關分析方法是 pearson 相關係數,公式如下 r x y i xi x y i y i xi x 2 i y i y 2 r bm frac x i bar y i bar x i bar 2 sum y i bar 2 r x,y i xi x 2 i yi y 2 i ...

python筆記29 資料分析之相關分析

coding utf 8 1.概念 相關分析 correlation analysis 是研究兩個或兩個以上隨機變數之間相互依存關係的方向和密切程度的方法。相關分析分為 線性相關 非線性相關 這裡我們主要介紹常用的線性相關,線性相關也稱為直線相關,也就是當乙個連續變數發生變動時,另乙個連續變數相應的...