Python資料探勘實戰 相關分析

2021-08-20 02:16:02 字數 1645 閱讀 5385

繼續補以前拉下的債~~~

一、相關性指標的研究意義

1.1相關係數(correlation coefficient):

相關係數是變數間關聯程度的最基本測度之一

1.2相關分析(correlation analysis)

是研究現象之間是否存在某種依存關係,並對具體有依存關係的現象**其相關方向以及相關程度,是研究隨機變數之間的相關關係的一種統計方法。

2.2量級(magnitude):

低度相關:0≤| r | ≤ 0.3

中度相關:0.3≤| r | ≤ 0.8

高度相關:0.8≤| r | ≤ 1

三、相關係數的計算

zx = (每個變數中的值 - 該變數的均值)  除以(標準差)

3.2案例實戰:

四、**案例:

4.1numpy案例:

import numpy

x = [

12.5, 15.3, 23.2, 26.4, 33.5,

34.4, 39.4, 45.2, 55.4, 60.9

]y = [

21.2, 23.9, 32.9, 34.1, 42.5,

43.2, 49.0, 52.8, 59.4, 63.5

]#均值

xmean = numpy.mean(x);

ymean = numpy.mean(y);

#標準差

xsd = numpy.std(x);

ysd = numpy.std(y);

#z分數

zx = (x-xmean)/xsd;

zy = (y-ymean)/ysd;

#相關係數

r = numpy.sum(zx*zy)/(len(x));

#直接呼叫python的內建的相關係數的計算方法

numpy.corrcoef(x, y)

4.2pandas案例

import pandas;

x = [

12.5, 15.3, 23.2, 26.4, 33.5,

34.4, 39.4, 45.2, 55.4, 60.9

]y = [

21.2, 23.9, 32.9, 34.1, 42.5,

43.2, 49.0, 52.8, 59.4, 63.5

]data = pandas.dataframe()

data.corr()

?檢視安斯庫姆四重奏

python資料分析與挖掘實戰 資料探勘基礎

從大量資料 包括文字 中挖掘出隱含的 未知的 對決策有潛在價值的關係 模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提高 性決策支援的方法 工具和過程,就是資料探勘 它是利用各種分析工具在大量資料中尋找其規律和發現模型與資料之間關係的過程,是統計學 資料庫技術和人工智慧技術的綜合。1.定義挖...

Python資料分析與挖掘實戰 挖掘建模

常用的分類與 演算法 1回歸模型分類 1線性回歸 自變數因變數線性關係,最小二乘法求解 2非線性回歸 自變數因變數非線性關係,函式變換為線性關係,或非線性最小二乘方法求解 3logistic回歸 因變數一般有1和0兩種取值,將因變數的取值範圍控制再0 1範圍內 4嶺回歸 自變數之間具有多重共線性 5...

4天快速入門Python資料探勘實戰

課程內容 day1 01 環境搭建 02 jupyternotebook介紹 03 快速上手jupyternotebook 04 matplotlib介紹 05 快速上手matplotib 06 matplotlib三層結構 07 完善折線圖 畫布層 08 修改x y軸刻度 09 中文問題解決 10...