資料標準化 歸一化

2021-10-08 23:39:20 字數 2808 閱讀 3316

公式:

x′=

x−μσ

x'=\frac

x′=σx−

μ​

公式:

x′=

x−xm

inxm

ax−x

mi

nx' = \frac}-x_}

x′=xma

x​−x

min​

x−xm

in​​

公式:

x′=

x∣xm

ax

∣x'=\frac|}

x′=∣xm

ax​∣

x​注:該方法用於稀疏資料。

公式:

x′=

x−xm

edia

niqr

x'=\frac}

x′=iqr

x−xm

edia

n​​其中,iqr

iqriq

r為四分位數間距:是上四分位數qu和下四分衛數ql之差,之間包含了全部觀察值的一半。

i qr

=q3−

q1

iqr = q_3 − q_1

iqr=q3

​−q1

​注:該方法用於去除異常點(離群點)

percentile = np.percentile(df[

'length'

],[0,25,50,75,100]

)iqr = percentile[3] - percentile[1]

uplimit = percentile[3]+ageiqr*1.5

downlimit = percentile[1]-ageiqr*1.5

import numpy as np

from sklearn import preprocessing

import matplotlib.pyplot as plt

data = np.loadtxt(

'data6.txt', delimiter=

'\t'

)# 讀取資料

# z-score標準化

zscore_scaler = preprocessing.standardscaler(

)# 建立standardscaler物件

data_scale_1 = zscore_scaler.fit_transform(data)

# standardscaler標準化處理

# max-min標準化

minmax_scaler = preprocessing.minmaxscaler(

)# 建立minmaxscaler模型物件

data_scale_2 = minmax_scaler.fit_transform(data)

# minmaxscaler標準化處理

# maxabsscaler標準化

maxabsscaler_scaler = preprocessing.maxabsscaler(

)# 建立maxabsscaler物件

data_scale_3 = maxabsscaler_scaler.fit_transform(data)

# maxabsscaler標準化

處理# robustscaler標準化

robustscalerr_scaler = preprocessing.robustscaler(

)# 建立robustscaler標準化

物件data_scale_4 = robustscalerr_scaler.fit_transform(data)

# robustscaler標準

化標準化處理

# 展示多網格結果

data_list =

[data, data_scale_1, data_scale_2, data_scale_3, data_scale_4]

# 建立資料集列表

scalar_list =

[15, 10, 15, 10, 15, 10]

# 建立點尺寸列表

color_list =

['black', 'green', 'blue', 'yellow', 'red'

]# 建立顏色列表

merker_list =

['o', ',', '+', 's', 'p'

]# 建立樣式列表

title_list =

['source data', 'zscore_scaler', 'minmax_scaler', 'maxabsscaler_scaler', 'ro

建標題列表

for i, data_single in enumerate(data_list): # 迴圈得到索引和每個數值

plt.subplot(2, 3, i + 1)

# 確定子網格

plt.scatter(data_single[:, :-1], data_single[:, -1], s=scalar_list[i], marker= merker_

網格展示散點圖

plt.title(title_list[i]

)# 設定自網格標題

plt.suptitle(

"raw data and standardized data"

)# 設定總標題

plt.show(

)# 展示圖形

資料標準化(歸一化)

資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...

資料標準化 歸一化

資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...

資料標準化 歸一化normalization

常見的資料歸一化方法 def z score x axis x np.array x astype float xr np.rollaxis x axis axis xr np.mean x axis axis xr np.std x axis axis print x return x原因是使用第...