資料預處理 歸一化(Normalization)

2021-08-11 15:13:01 字數 1573 閱讀 4758

知乎相關問題:標準化和歸一化什麼區別?

資料歸一化是為了將不同表徵的資料規約到相同的尺度內,常見的尺度範圍有[-1, 1],[0, 1]。對於神經網路、支援向量機(svm),在資料預處理中使用歸一化是必不可少的。當然,對於一些模型,歸一化也不是必需的,例如決策樹。

f(x) = (x - min) / (max - min)

其中,min 和 max 分別代表 x 所屬區間的最小值和最大值。

特點:資料被均勻地歸一到 0~1 之間;

需求:目標值的上界和下界是明確知曉的,例如上圖中,我們假設了目標值的最小值為 0,最大值為 1。

這種歸一化方式是我們最常見的,在大多數問題中都可以使用,例如在影象識別中,將影象的灰度值 0~255 歸整到 0~1 內。

f(x) = 1 / (1 + exp(-ax+b))

假設 a=0.1,b=5,其影象為

這種歸一化方式,當我們對資料分布的中間地帶需要著重分析,而對兩端資料並不是很敏感時,可以使用,具體的 a 和 b 根據問題去調整,其中 a 影響的是上圖中藍色曲線的陡峭程度,b 影響的是曲線的平移。

假設我們需要**人們幸福感的高低,選擇的影響因素有年齡、學歷、收入高低等。資料樣本中,絕大多數分布在年收入 5w-40w,但是也有極端的在 0.5w 的極低收入和 1000w 的極高收入,並且我們還發現,在 7w-15w 這個區間內,人們的幸福感對收入的高低非常敏感。當然在一些簡單處理中,可以設定乙個區間範圍,例如 [1w, 100w],然後將小於 1w 的當作 1w,將高於 100w 的當作 100w,但是這種處理是相對簡單粗暴的,為了不消除極端資料的效果,以及充分考慮中間敏感區間,我們可以使用 sigmod 歸一化方式,能夠有效地擴大中間資料的差異性。

與該思想類似的還有反正切函式歸一化:

f(x) = atan(ax-b) / pi

其中,pi 為圓周率3.14159…

特點:資料按「敏感性的平均化」被歸一到 0~1 之間;

需求:目標值的上界和下界不需要明確知曉,並且對兩端資料值不敏感,而對中間部分的資料值敏感。

f(x) = (x - q) / s

其中,q 是原始資料 x 的均值,s 是原始資料的標準差。歸一化的資料符合正態分佈,並且其均值為 0,標準為 1。

z-score 表示原始資料偏離均值的距離長短,而該距離度量的標準是標準方差。該種歸一化方式要求原始資料的分布可以近似為高斯分布,否則歸一化的效果並不好。z-score 的資料分布如下圖所示:

對於較大數量的資料而言,將會有 68.26% 的資料歸一化到 [-1, 1] 之間,95.44% 的資料歸一化到 [-2., 2] 之間,99% 的資料歸一到 [-3, 3] 之間。

特點:根據資料值的分布情況來進行分布概率的歸一化。

需求:原始資料至少近似呈現正態分佈。

資料預處理 歸一化

歸一化是一種資料預處理方法,就是要把你需要處理的資料經過處理後 通過某種演算法 限制在你需要的一定範圍內,為了後面資料處理的方便,其次是保正程式執行時 收斂加快 歸一化的三種方法 1 線性函式轉換 表示式如下 y x minvalue maxvalue minvalue 說明 x y分別為轉換前 後...

資料預處理 歸一化

由於進行分類器或模型的建立與訓練時,輸入的資料範圍可能比較大,同時樣本中各資料可能量綱不一致,這樣的資料容易對模型訓練或分類器的構建結果產生影響,因此需要對其進行歸一化處理。那就是將該樣本 樣本集中第i行資料 歸一到範圍 0,1 之間。一種簡單而快速的標準歸一化處理演算法是線性轉換演算法,最為常見的...

資料預處理 歸一化

1 公式 x numpy array格式的資料 n samples,n features n samples 樣本數 n features 特徵數 列 返回值 形狀相同的array 3 缺點 由於歸一化使用最大值最小值進行計算,若最大值 最小值缺失或錯誤,歸一化結果的準確性就會大大降低,為此可採用標...