資料的標準化和標準化方法

2021-09-26 09:08:44 字數 905 閱讀 8680

資料的標準化(normalization)是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量綱的指標能夠進行比較和加權。

其中最典型的就是資料的歸一化處理,即將資料統一對映到[0, 1]區間上,常見的資料歸一化的方法有:

1、min-max標準化(min-max normalization)

min-max標準化也叫離差標準化,是對原始資料的線性變換,使結果落到[0,1]區間,轉換函式如下:

其中,max為樣本資料的最大值,min為樣本資料的最小值。這種方法有乙個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新計算定義。

2、log函式轉換

通過以10為底的log函式轉換的方法同樣可以實現歸一化,具體方法如下:

看了下網上很多介紹都是x*= log10 (x),其實是有問題的,這個結果並非一定落在[0,1]區間上,應該還要除以log10 (max),max為樣本資料最大值,並且所有的資料都要大於等於1.

3、atan函式轉換

用反正切函式也可以實現資料的歸一化:

使用這個方法需要注意的是如果想對映到區間為[0,1],則資料都應該大於等於0,小於0的資料將被對映到[-1, 0]區間上。

而並非所有資料標準化的結果都對映到[0,1]區間上,其中最長久的標準化方法就是z標準化,也是spss中最為常用的標準化方法。

4、z-score標準化(zero-mean normalization)

也叫標準差標準化,經過處理的資料符合標準正態分佈,即均值為0,標準差為1,其轉化函式為:

其中μ為所有樣本資料的均值,σ為所有樣本資料的標準差。

資料的標準化和標準化方法

資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量綱的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上,常見的資料歸...

資料標準化

從廣義上來講,資料標準化的過程可以看作是業務系統內部或業務系統之間,乃至整個資料治理系統中的乙個 語言 統一的過程。只有語言統一,才能讓同一業務系統或者不同業務系統之間有了對話 呼叫 通訊的可能,從而保證使用的都是特定的某乙個方言。同樣,資料標準化的過程反映程式及系統設計或架構級別時,就可以看作連線...

資料標準化

特徵縮放 feature scaling 1 也稱為資料的標準化 normalization 是將資料按比例縮放,使之落入乙個特定區間。不同資料往往具有不同的量綱,會影響到資料分析的結果,為了消除資料之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各...