python歸一化增大差異歸一化標準化

1、歸一化是將數值放縮到[0, 1]或者[-1, 1]

常用於機器學習計算多個不同量綱的特徵對映到[0, 1]或者[-1, 1]，所以該值受有最大值和最小值決定

2、z-score

由於z-score的資料分布滿足「正態分佈」(n(0,1))，而「正態分佈」又被稱為「z-分布」，所以該方法被稱為「z-score」

z-score是用於做資料規範化處理的一種方法

z-score物理意義

z-score表示原始資料偏離均值的距離長短，而該距離度量的標準是標準方差。

z-score大於零表示該資料大於均值。

z-score小於零表示該資料小於均值。

z-score等於零表示該資料等於均值。

z-score等於「1」表示該資料比均值大乙個標準方差。

z-score等於「-1」表示該資料比均值小乙個標準方差

3、標準化是通過求z-score方法，將列特徵轉化為標準正太分布，和整體樣本分佈相關，每個樣本點都能對標準化產生影響。

歸一化和標準化共同點：都能取消由於量綱不同引起的誤差；都是一種線性變換，都是對向量x按照比例壓縮再進行平移。

除了歸一化和標準化之外，還有中心化，也就是將資料的mean變成0.

一般來說，工程上優先使用標準化，然後再歸一化。

4、什麼時候用歸一化，標準化(參考：

涉及或隱含距離計算的演算法，比如k-means、knn、pca、svm等，一般需要feature scaling

1、zero-mean一般可以增加樣本間余弦距離或者內積結果的差異，區分力更強，假設資料集集中分布在第一象限遙遠的右上角，將其平移到原點處，可以想象樣本間余弦距離的差異被放大了。在模版匹配中，zero-mean可以明顯提高響應結果的區分度。

2、就歐式距離而言，增大某個特徵的尺度，相當於增加了其在距離計算中的權重，如果有明確的先驗知識表明某個特徵很重要，那麼適當增加其權重可能有正向效果，但如果沒有這樣的先驗，或者目的就是想知道哪些特徵更重要，那麼就需要先feature scaling，對各維特徵等而視之。

3、增大尺度的同時也增大了該特徵維度上的方差，pca演算法傾向於關注方差較大的特徵所在的座標軸方向，其他特徵可能會被忽視，因此，在pca前做standardization效果可能更好，如下圖所示，來自scikit learn-importance of feature scaling，

等等5、什麼時候不用歸一化，標準化

與距離計算無關的概率模型，不需要feature scaling，比如***** bayes；

與距離計算無關的基於樹的模型，不需要feature scaling，比如決策樹、隨機森林等，樹中節點的選擇只關注當前特徵在**切分對分類更好，即只在意特徵內部的相對大小，而與特徵間的相對大小無關。

python歸一化 增大差異 歸一化 標準化