大資料 資料標準化

2021-09-08 13:46:21 字數 949 閱讀 4756

z-score 標準化(zero-mean normalization)

最常見的標準化方法就是z標準化,也是spss中最為常用的標準化方法,spss預設的標準化方法就是z-score標準化。

也叫標準差標準化,這種方法給予原始資料的均值(mean)和標準差(standard deviation)進行資料的標準化。

經過處理的資料符合標準正態分佈,即均值為0,標準差為1,其轉化函式為:

x∗=x−μσ

其中μ為所有樣本資料的均值,σ為所有樣本資料的標準差。

z-score標準化方法適用於屬性a的最大值和最小值未知的情況,或有超出取值範圍的離群資料的情況。

標準化的公式很簡單,步驟如下

1.求出各變數(指標)的算術平均值(數學期望)xi和標準差si ;

2.進行標準化處理:

zij=(xij-xi)/si

其中:zij為標準化後的變數值;xij為實際變數值。

3.將逆指標前的正負號對調。

標準化後的變數值圍繞0上下波動,大於0說明高於平均水平,小於0說明低於平均水平。

def z_score(x, axis):

x = np.array(x).astype(float)

xr = np.rollaxis(x, axis=axis)

xr -= np.mean(x, axis=axis)

xr /= np.std(x, axis=axis)

# print(x)

return x

為什麼z-score 標準化後的資料標準差為1?x-μ只改變均值,標準差不變,所以均值變為0

(x-μ)/σ只會使標準差除以σ倍,所以標準差變為1

資料標準化

從廣義上來講,資料標準化的過程可以看作是業務系統內部或業務系統之間,乃至整個資料治理系統中的乙個 語言 統一的過程。只有語言統一,才能讓同一業務系統或者不同業務系統之間有了對話 呼叫 通訊的可能,從而保證使用的都是特定的某乙個方言。同樣,資料標準化的過程反映程式及系統設計或架構級別時,就可以看作連線...

資料標準化

特徵縮放 feature scaling 1 也稱為資料的標準化 normalization 是將資料按比例縮放,使之落入乙個特定區間。不同資料往往具有不同的量綱,會影響到資料分析的結果,為了消除資料之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各...

資料標準化

從廣義上來講,資料標準化的過程可以看作是業務系統內部或業務系統之間,乃至整個資料治理系統中的乙個 語言 統一的過程。只有語言統一,才能讓同一業務系統或者不同業務系統之間有了對話 呼叫 通訊的可能,從而保證使用的都是特定的某乙個方言。同樣,資料標準化的過程反映程式及系統設計或架構級別時,就可以看作連線...