資料探勘資料變換

資料變換：

1、資料變換在資料分析中的角色：

讓不同渠道的資料統一到乙個目標資料庫中；

2、資料變換所處環節：

3、資料變換的方法：

其中最常用的是資料規範化，包括最小—最大規範化、z—score 規範化、按小數定標規範化等；

1、min-max 規範化

min-max 規範化方法是將原始資料變換到[0,1]的空間中。

公式表示就是：新數值 =（原數值 - 極小值）/（極大值 - 極小值）。

#min-max規範化 
#coding:utf-8
from sklearn import preprocessing
import numpy as np
#初始化資料，每一行表示乙個樣本，每一列表示乙個特徵
x=np.array([[
0.,-
3.,1
.],[
3.,1
.,2.
],[0
.,1.
,-1.
]])#將資料進行[0,1]規範化
min_max_scaler=preprocessing.minmaxscaler(
)minmax_x=min_max_scaler.fit_transform(x)
print
(minmax_x)
輸出：[[0
.0.0.66666667][
1.1.
1.][
0.1.
0.]]

應用：

#例如將收入進行規範化
from sklearn import preprocessing
import numpy as np
x=np.array([[
5000.]
,[16000.]
,[58000.]
])min_max_scaler=preprocessing.minmaxscaler(
)minmax_x=min_max_scaler.fit_transform(x)
print
(minmax_x)
輸出：[[0
.][0.20754717][
1.]]

2、 z-score 規範化

假設 a 與 b 的考試成績都為 80 分，a 的考卷滿分是 100 分（及格 60 分），b 的考卷滿分是 500 分（及格 300 分）。雖然兩個人都考了 80 分，但是 a 的 80 分與 b 的 80 分代表完全不同的含義。

那麼如何用相同的標準來比較 a 與 b 的成績呢？z-score 就是用來可以解決這一問題的。

我們定義：新數值 =（原數值 - 均值）/ 標準差。將資料規範到均值，1方差的標準正態分佈中

#z-score規範化
from sklearn import preprocessing
import numpy as np
#初始化資料
x=np.array([[
0.,-
3.,1
.],[
3.,1
.,2.
],[0
.,1.
,-1.
]])#將資料進行z-score規範化
scaled_x=preprocessing.scale(x)
print
(scaled_x)
輸出：[[-
0.70710678
-1.41421356
0.26726124][
1.41421356
0.70710678
1.06904497][
-0.70710678
0.70710678
-1.33630621
]]

3、小數定標規範化

小數定標規範化就是通過移動小數點的位置來進行規範化。將資料轉化到【-1,1】小數點移動多少位取決於屬性 a 的取值中的最大絕對值。舉個例子，比如屬性 a 的取值範圍是 -999 到 88，那麼最大絕對值為 999，小數點就會移動 3 位，即新數值 = 原數值 /1000。那麼 a 的取值範圍就被規範化為 -0.999 到 0.088。

#小數定標規範化
from sklearn import preprocessing
import numpy as np
#初始化資料
x=np.array([[
0.,-
3.,1
.],[
3.,1
.,2.
],[0
.,1.
,-1.
]])#小數定標規範化
j=np.ceil(np.log10(np.
max(
abs(x)))
)scaled_x=x/(10
**j)
print
(scaled_x)
輸出：[[0
.-0.30.1][
0.30.1
0.2][0
.0.1
-0.1
]]

資料探勘資料變換

資料探勘資料預處理之資料整合與變換

資料探勘資料

SPSS Modeler資料探勘資料探勘概述

資料探勘 資料變換

資料探勘 資料預處理之資料整合與變換

資料探勘 資料

SPSS Modeler資料探勘 資料探勘概述

相關推薦

資料探勘資料變換

資料探勘資料預處理之資料整合與變換

資料探勘資料

SPSS Modeler資料探勘資料探勘概述