資料的預處理之資料規範化

一、什麼是資料規範化

資料規範化是資料探勘中資料變換的一種方式，資料變換將資料轉換或統一成適合於挖掘的形式。而資料規範化是指將被挖掘物件的屬性資料按比例縮放，使其落入乙個小的特定區間（如[-1, 1]或[0,1]）。

二、資料規範化的作用

對屬性值進行規範化常用於涉及神經網路或距離度量的分類演算法和聚類演算法中。比如使用神經網路向後傳播演算法進行分類挖掘時，對訓練元組中度量每個屬性的輸入值進行規範化有助於加快學習階段的速度。對於基於距離度量相異度的方法，資料規範化可以讓所有的屬性具有相同的權重。

三、資料規範化的三種方法

資料規範化的常用方法有三種：按小數定標規範化、最小-最大值規範化和z-score規範化。

1、按小數定標規範化

通過移動屬性值的小數點位置進行規範化，通俗的說就是將屬性值除以10的j次冪。公式為：

其中，j 是使得max(|

j=3。

-986

規範化後為

-0.986

，而917

被規範化為

0.917

。達到了將屬性值縮到小的特定區間

[-1,1]

的目標。

優點：直觀簡單。

缺點：並沒有消除屬性間的權重差異。

2、最小-最大值規範化

最小-最大值規範化對原始資料進行了線性變化。假設

的最小值和最大值。則最小

-最大值規範化計算公式為：

公式中，

的原屬性值，

a屬性的所有值規範化後落入的區間。

舉例應用：假設公司中員工工資income

的最小和最大值分別

12000

美元和98000

美元，現在要把

income

對映到區間

[0,1]

中。對income

值為73600

美元進行最小

-最大值規範化後的結果。

根據描述，

優點：可靈活指定規範化後的取值區間，可以消除不同屬性之間的權重差異。

缺點：需要預先知道該屬性的最大值與最小值；另一方面，該方法保持原始資料值之間的聯絡，如果今後的輸入落在原始資料值域之外，該方法將發生「越界」錯誤。對離群點敏感。（離群點是只偏離中心水平的哪些極大值和極小值）

3、z-score規範化

這種方法是基於屬性的均值和標準差進行規範化。計算公式為：

其中的原屬性值，

舉例應用：假設屬性income的均值和標準差分別為54000美元和16000美元。使用z-score規範化，值73600美元轉換為：

對於離群點進行規範化時，可以用均值絕對偏差代替標準差進行規範化獲得更好的魯棒性。均值絕對偏差計算公式為：

優點：不需要知道資料集的最大值和最小值，對離群點規範化效果好；

缺點：計算複雜度高。

資料的預處理之資料規範化

Python資料預處理之資料規範化（歸一化）示例

資料規範化

資料規範化

相關推薦