資料標準化處理

2021-08-14 14:24:46 字數 1022 閱讀 3484

資料的標準化(normalization),也就是將資料按照比例縮放,使之落入特定區間內。因為不同的指標往往具有不同的量綱和單位,這樣的資料會影響分析結果,為了消除指標之間的這種影響,需要進行資料標準化處理,使個指標處於同一量級,讓指標有可比性。常用的歸一化有兩種方法:

一、min-max標準化(min-max normalization)

這是最典型的標準化方法,此法也稱為離差標準化,是對原始資料的線性變換,使結果對映到[0-1]之間,轉換函式如下:s=

s−sm

insm

ax−s

min

其中max表示樣本資料最大值,min表示樣本資料最小值,此類方法的缺陷是有新的資料加入時,可能導致min和max的變化,需要重新定義。

二、log函式變換

通過以10為底的log轉換函式來實現歸一化,轉換函式如下:s=

logx

10logma

x10

網上有方法是s=

logx

10 ,這樣其實是有問題的,這個結果不能保證落在區間[0-1]之間,所以還需要除以

logmax

10 ,max為樣本資料的最大值,並且所有樣本資料都是大於等於1的。

三、atan函式轉換

用反正切函式來實現資料的歸一化,如下:s=

atan

(x)∗

使用這個方法需要注意的是如果想對映的區間為[0,1],則資料都應該大於等於0,小於0的資料將被對映到[-1,0]區間上。

四、z-score標準化方法(zero-mean normalization)

這種方法根據原始資料的均值(mean)和標準差(standard deviation)進行資料的標準化。經過處理的資料符合標準正態分佈,也就是均值為0,標準差為1,轉換函式如下所示:s=

s−μσ

其中μ為所有樣本資料的均值,σ為所有樣本資料的標準差。

python資料標準化處理 資料標準化處理

正態分佈跟標準分數之間的關係 python版本 3.5 標準分數 標準分數 standard score,又稱z score z分數或標準化值 是將集合中的單個數與集合的均值相減的結果除以集合的標準差得到標準化的結果,該方法類似於正態分佈的標準化轉換,轉換函式為 式中x為需要被標準化的原始值,為均值...

資料標準化處理

python資料分析與資料化運營 宋天龍 著 資料標準化是乙個常用的資料預處理操作,目的是處理不同規模和量綱的資料,使其縮放到相同的資料區間和範圍,以減少規模 特徵 分布差異等對模型的影響。除了用作模型計算,標準化後的資料還具有了直接計算並生成復合指標的意義,是加權指標的必要步驟。z score標準...

資料標準化處理方法

在資料分析之前,我們通常需要先將資料標準化 normalization 利用標準化後的資料進行資料分析。資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。資料同趨化處理主要解決不同性質資料問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考...