資料預處理歸一化（Normalization）

知乎相關問題：標準化和歸一化什麼區別？

資料歸一化是為了將不同表徵的資料規約到相同的尺度內，常見的尺度範圍有[-1, 1]，[0, 1]。對於神經網路、支援向量機（svm），在資料預處理中使用歸一化是必不可少的。當然，對於一些模型，歸一化也不是必需的，例如決策樹。

f(x) = (x - min) / (max - min)

其中，min 和 max 分別代表 x 所屬區間的最小值和最大值。

特點：資料被均勻地歸一到 0~1 之間；

需求：目標值的上界和下界是明確知曉的，例如上圖中，我們假設了目標值的最小值為 0，最大值為 1。

這種歸一化方式是我們最常見的，在大多數問題中都可以使用，例如在影象識別中，將影象的灰度值 0~255 歸整到 0~1 內。

f(x) = 1 / (1 + exp(-ax+b))

假設 a=0.1，b=5，其影象為

這種歸一化方式，當我們對資料分布的中間地帶需要著重分析，而對兩端資料並不是很敏感時，可以使用，具體的 a 和 b 根據問題去調整，其中 a 影響的是上圖中藍色曲線的陡峭程度，b 影響的是曲線的平移。

假設我們需要**人們幸福感的高低，選擇的影響因素有年齡、學歷、收入高低等。資料樣本中，絕大多數分布在年收入 5w-40w，但是也有極端的在 0.5w 的極低收入和 1000w 的極高收入，並且我們還發現，在 7w-15w 這個區間內，人們的幸福感對收入的高低非常敏感。當然在一些簡單處理中，可以設定乙個區間範圍，例如 [1w, 100w]，然後將小於 1w 的當作 1w，將高於 100w 的當作 100w，但是這種處理是相對簡單粗暴的，為了不消除極端資料的效果，以及充分考慮中間敏感區間，我們可以使用 sigmod 歸一化方式，能夠有效地擴大中間資料的差異性。

與該思想類似的還有反正切函式歸一化：

f(x) = atan(ax-b) / pi

其中，pi 為圓周率3.14159…

特點：資料按「敏感性的平均化」被歸一到 0~1 之間；

需求：目標值的上界和下界不需要明確知曉，並且對兩端資料值不敏感，而對中間部分的資料值敏感。

f(x) = (x - q) / s

其中，q 是原始資料 x 的均值，s 是原始資料的標準差。歸一化的資料符合正態分佈，並且其均值為 0，標準為 1。

z-score 表示原始資料偏離均值的距離長短，而該距離度量的標準是標準方差。該種歸一化方式要求原始資料的分布可以近似為高斯分布，否則歸一化的效果並不好。z-score 的資料分布如下圖所示：

對於較大數量的資料而言，將會有 68.26% 的資料歸一化到 [-1, 1] 之間，95.44% 的資料歸一化到 [-2., 2] 之間，99% 的資料歸一到 [-3, 3] 之間。

特點：根據資料值的分布情況來進行分布概率的歸一化。

需求：原始資料至少近似呈現正態分佈。

資料預處理 歸一化（Normalization）

資料預處理 歸一化

資料預處理 歸一化

資料預處理 歸一化

相關推薦

資料預處理歸一化（Normalization）

資料預處理歸一化

資料預處理歸一化

資料預處理歸一化