資料歸一化的方法總結

2021-07-11 05:31:30 字數 919 閱讀 8880

資料的標準化(normalization)是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。

其中最典型的就是資料的歸一化處理,即將資料統一對映到[0,1]區間上,常見的資料歸一化的方法有:

這種方法也叫離差標準化, 對原始資料進行線性變化, 使資料落在[0

,1] 之間, 具體的轉化函式為:x∗

=x−m

inma

x−mi

n 其中max為當前樣本資料中, 該屬性的最大值, min為最小值.

這種方法處理速度快, 但是, 當有新的資料加入時, max和min發生變化, 需要重新歸一化.

通過以10為底的log函式轉化的方法同樣可以實現歸一化, 具體公式如下:x∗

=log

10(x)

log10

(max

) 使用反正切函式也可以實現資料的歸一化:x∗

=ata

n(x)

∗2π

這種方法將所有的資料對映到[−

1,1]

上, 小於0的資料將對映到[−

1,0]

上.這種方法也叫標準差標準化, 經過處理的資料符合標準正態分佈, 即均值為0, 標準差為1, 轉換函式為:x∗

=x−μ

σ 其中,

μ 為樣品的均值,

σ 為樣品的標準差.

z-score 轉化函式中的均值和標準差受離群點影響較大, 因此需要對原有的公式進行改進.

首先使用中位數代替均值, 使用絕對標準差代替標準差.

絕對標準差的計算公式:σa

=∑i=

1m|x

i−μ|

其中,

μ 為樣品的均值或者中位數.

資料歸一化總結

近來,在網上搜了很多關於資料歸一化的帖子,看了太多,很雜,這裡整理總結一下 歸一化是一種資料預處理方法,就是要把你需要處理的資料經過處理後 通過某種演算法 限制在你需要的一定範圍內,為了後面資料處理的方便,其次是保正程式執行時 收斂加快 比如說,對於奇異樣本資料 所謂奇異樣本資料資料指的是相對於其他...

資料歸一化方法

本文主要介紹兩種基本的資料歸一化方法。歸一化方法有兩種形式,一種是把數變為 0,1 之間的小數,一種是把有量綱表示式變為無量綱表示式。資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料...

資料歸一化方法

1 min max標準化 也叫做離差標準化,是一種對原始資料樣本的 線性變換處理,讓樣本從原本的值通過對映轉化為0 1之間的值。norsample sample min max min 其中,min為樣本中的最小值,max為樣本中的最大值。優點是 簡單易行,容易理解實現 缺點是 資料樣本不能頻繁的變...