Normalization 標準化 的一些記錄

2022-09-21 04:06:12 字數 1477 閱讀 6320

第一種normalization是對於將資料進行預處理時進行的操作,是對於資料集的各個特徵分別進行處理,主要包括min-max normalization、z-score normalization、 log函式轉換和atan函式轉換等。第二種normalization對於每個樣本縮放到單位範數(每個樣本的範數為1),主要有l1-normalization(l1範數)、l2-normalization(l2範數)等。

資料的標準化(normalization)是將資料按比例縮放,使之落入乙個小的特定區間。

去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。其中最典型的就是資料的標準化處理,即將資料統一對映到[0,1]區間上。標準化在0-1之間是統計的概率分布,標準化在某個區間上是統計的座標分布。

不同的標準化方法,對系統的評價結果會產生不同的影響,然而不幸的是,在資料標準化方法的選擇上,還沒有通用的法則可以遵循。

資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。

資料同趨化處理主要解決不同性質資料問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標資料性質,使所有指針對測評方案的作用力同趨化,再加總才能得出正確結果。

資料無量綱化處理主要解決資料的可比性。經過上述標準化處理,原始資料均轉換為無量綱化指標測評值,即各指標值都處於同乙個數量級別上,可以進行綜合測評分析。

也就說標準化(normalization)的目的是:

把特徵的各個維度標準化到特定的區間

把有量綱表示式變為無量綱表示式

1. 加快基於梯度下降法或隨機梯度下降法模型的收斂速度

如果特徵的各個維度的取值範圍不同,那麼目標函式的等線很可能是一組橢圓,梯度的方向為垂直等高線的方向而走之字形路線,這樣會使迭代很慢。

2. 提公升模型的精度

就會突出數值較高的指標在綜合分析中的作用,相對削弱數值水平較低指標的作用。

標準化的方法:

1. min-max normalization

2. z-score normalization

也叫標準差標準化

3. log函式轉換normalization主要思想是對每個樣本計算其p-範數,然後對該樣本中每個元素除以該範數,這樣處理的結果是使得每個處理後樣本的p-範數(比如l1-norm,l2-norm)等於1。

「p-範數:即向量元素絕對值的p次方和的1/p次冪,2範數就是p範數的特例」

該方法主要應用於文字分類和聚類中。例如,對於兩個tf-idf向量的l2-norm進行點積,就可以得到這兩個向量的余弦相似性。xn

orma

liza

tion

=x−x

minx

max−

xmin

'>xno

rmal

izat

ion=

x−xm

inxm

ax−x

min'>

《normalization(標準化)的原理和實現詳解》

資料標準化 Normalization

資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上,常見的資料歸...

資料標準化 Normalization

資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上,常見的資料歸...

normalization問題分析

從得到的另一文字儲存的結果 x 1 1 1 17837.8 120910 2 9072.4 96042.5 3 5.79773 8.93843 4 0.000159379 0.00488674 5 0.113665 0.338039 6 47.6554 885.154 7 5.89921 9.045...