pandas資料處理基礎之變數相關性分析

import seaborn as sns
corrmat = data_train.corr() ##corrmat是相關性矩陣
f, ax = plt.subplots(figsize=(20, 9))##繪製畫布
sns.heatmap(corrmat, vmax=0.8, square=true) ##得到各特徵圖的熱力圖
上面的矩陣只是數值型的，像neighborhood這種離散型資料則沒有參與計算，所以下面嘗試著使用sklearn來對這些特徵進行處理。
from sklearn import preprocessing
import matplotlib.pyplot as plt
import seaborn as sns
f_names = ['centralair', 'neighborhood'] #'centralair', 'neighborhood'這兩列資料都不是數值型資料
##進行數值化之後進行處理
for x in f_names:
label = preprocessing.labelencoder()
data_train[x] = label.fit_transform(data_train[x])
corrmat = data_train.corr()
f, ax = plt.subplots(figsize=(20, 9)) ##繪製畫布
sns.heatmap(corrmat, vmax=0.8, square=true)##繪製相關矩陣的熱力圖
k = 10 # 關係矩陣中將顯示10個特徵
cols = corrmat.nlargest(k, 'saleprice')['saleprice'].index ##顯示和saleprice相近的十個關係變數矩陣
pandas 資料處理
pandas中資料可以分為series，dataframe，panel分別表示一維至三維資料。其中在構造時，index表示行名，columns表示列名 構造方式 s pd.series data index index s pd series np random randn 5 index a b ...
pandas資料處理
dataframe.duplicated subset none,keep first 判斷dataframe中的資料是否有重複 必須一行中所有資料都重複才算重複，只能判斷行，不能判斷列 返回series dataframe.drop duplicates subset none,keep firs...
Pandas資料處理
資料處理 pandas from sklearn.preprocessing import minmaxscaler data 1,2 0.5,6 0.10 1,18 將 numpy 轉換成 pd 表 pd.dataframe data 歸一化 0，1 之間 scaler minmaxscaler ...
pandas資料處理基礎之變數相關性分析

pandas 資料處理

pandas資料處理

Pandas資料處理

相關推薦