做資料分析為何要學統計學（3）相關性分析

相關性是量化不同因素間變動狀況一致程度的重要指標。在樣本資料降維（通過消元減少降低模型複雜度，提高模型泛化能力）、缺失值估計、異常值修正方面發揮著極其重要的作用，是機器學習樣本資料預處理的核心工具。

樣本因素之間相關程度的量化使用相關係數corr，這是乙個取之在[-1，1]之間的數值型，corr的絕對值越大，不同因素之間的相關程度越高——負值表示負相關（因素的值呈反方向變化），正值表示正相關（因素的值呈同方向變化）。

樣本資料的相關係數計算有多種演算法，最常用的是pearson相關係數，還有spearman相關係數和kendall相關係數。當涉及相關性分析的因素的標準差為0時，pearson相關係數就無法使用了，此時還可以考慮向量夾角余弦來衡量。

相關係數是最早由統計學家卡爾·皮爾遜設計的統計指標，是研究變數之間線性相關程度的量。計算公式如下：

某公司2023年季度耗電量和銷售收入如下：

試分析單位耗電量產生的銷售收入以及耗電量與銷售收入是否相關。

我們使用numpy.corrcoef(）來計算兩組變數的相關係數。

主對角線的值是兩個變數的自相關係數，自然都是1，次對角線的值就是兩組資料的pearson相關係數值。我們可以看出耗電量和銷售收入正相關性還是很高的，用seaborn的回歸圖也能比較直觀的看出兩組資料的相關水平。如下圖：

spearman相關係數又稱秩相關係數，是利用兩變數的秩次大小作相關分析，對原始變數的分布不作要求，也沒有線性要求。

scipy中的spearmanr()函式可以幫助我們計算spearman相關係數。

我們構造兩組樣本資料，它們之間的非線性關係很高。我們來看一下pearson相關係數和spearman相關係數的差異。

可以看出對於非線性相關的資料，spearman相關係數要比pearson相關係數更顯著。

如下例檢視身高和體重的排名是否相關：

以下是上述資料的計算過程

整體上，我們發現體重與身高大多數情況下有較強的相關性

推薦自編課程《零基礎學python資料分析》

推薦自編簡明**分析教程(python版)

做資料分析為何要學統計學（3） 相關性分析