資料歸一化的方法總結

資料的標準化（normalization）是將資料按比例縮放，使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到，去除資料的單位限制，將其轉化為無量綱的純數值，便於不同單位或量級的指標能夠進行比較和加權。

其中最典型的就是資料的歸一化處理，即將資料統一對映到[0,1]區間上，常見的資料歸一化的方法有：

這種方法也叫離差標準化, 對原始資料進行線性變化, 使資料落在[0

,1] 之間, 具體的轉化函式為:x∗

=x−m

inma

x−mi

n 其中max為當前樣本資料中, 該屬性的最大值, min為最小值.

這種方法處理速度快, 但是, 當有新的資料加入時, max和min發生變化, 需要重新歸一化.

通過以10為底的log函式轉化的方法同樣可以實現歸一化, 具體公式如下:x∗

=log

10(x)

log10

(max

) 使用反正切函式也可以實現資料的歸一化:x∗

=ata

n(x)

∗2π

這種方法將所有的資料對映到[−

1,1]

上, 小於0的資料將對映到[−

1,0]

上.這種方法也叫標準差標準化, 經過處理的資料符合標準正態分佈, 即均值為0, 標準差為1, 轉換函式為:x∗

=x−μ

σ 其中,

μ 為樣品的均值,

σ 為樣品的標準差.

z-score 轉化函式中的均值和標準差受離群點影響較大, 因此需要對原有的公式進行改進.

首先使用中位數代替均值, 使用絕對標準差代替標準差.

絕對標準差的計算公式:σa

=∑i=

1m|x

i−μ|

其中,

μ 為樣品的均值或者中位數.

資料歸一化總結

近來，在網上搜了很多關於資料歸一化的帖子，看了太多，很雜，這裡整理總結一下歸一化是一種資料預處理方法，就是要把你需要處理的資料經過處理後通過某種演算法限制在你需要的一定範圍內，為了後面資料處理的方便，其次是保正程式執行時收斂加快比如說，對於奇異樣本資料所謂奇異樣本資料資料指的是相對於其他...

資料歸一化方法

本文主要介紹兩種基本的資料歸一化方法。歸一化方法有兩種形式，一種是把數變為 0，1 之間的小數，一種是把有量綱表示式變為無量綱表示式。資料標準化歸一化處理是資料探勘的一項基礎工作，不同評價指標往往具有不同的量綱和量綱單位，這樣的情況會影響到資料分析的結果，為了消除指標之間的量綱影響，需要進行資料...

資料歸一化方法

1 min max標準化也叫做離差標準化，是一種對原始資料樣本的線性變換處理，讓樣本從原本的值通過對映轉化為0 1之間的值。norsample sample min max min 其中，min為樣本中的最小值，max為樣本中的最大值。優點是簡單易行，容易理解實現缺點是資料樣本不能頻繁的變...

資料歸一化的方法總結

資料歸一化總結

資料歸一化方法

資料歸一化方法

相關推薦