資料的歸一化和標準化處理

2021-09-17 01:57:47 字數 713 閱讀 4594

我們為什麼要進行歸一化處理

當我們在採集樣本與使用樣本進行演算法**時,是否發現得到的模型存在過擬合或者欠擬合,這時我們要分析我們的資料是否需要預處理操作,我們通常使用下面兩種方法來解決:

1.歸一化正是使用減少引數的重要性的方式,來增強模型的泛化能力,並且可以保證特徵數量保持不變。

2.手動選擇保留哪些特徵值或者使用一些選擇特徵演算法來解決

歸一化處理

歸一化有可能提高精度(歸一化是讓不同維度之間的特徵在數值上有一定的比較性)。

一些分類器需要計算樣本之間的距離(如歐式距離),例如knn。如果乙個特徵值域範圍非常大,那麼距離計算就主要取決於這個特徵,從而與實際情況不符。(比如,這時實際情況是值域範圍小的特徵更重要)。

將資料對映到(0,1)區間上,實現歸一化。

歸一化的計算過程為: 真實值-最小值/最大值-最小值

資料的標準化處理

資料標準化的數學計算過程為 x-(mean)/std

這裡要注意歸一化後的數字都是在(0,1)區間上的,而標準化則可能出現負數。

資料的歸一化處理和標準化處理

值的歸一化處理 1 資料為什麼做歸一化處理 解析 假設乙個神經元有兩個輸入分別是x1和x2,權重分別是w1和w2,那麼該神經元的訊號加權求和為x1w1 x2w2。再假設x1屬於 0 1 x2屬於 100 1000 那麼x2遠遠大於x1,那麼x1w1就可以忽略不計,整個加權求和就只由x2w2來決定,小...

python資料標準化處理 資料標準化處理

正態分佈跟標準分數之間的關係 python版本 3.5 標準分數 標準分數 standard score,又稱z score z分數或標準化值 是將集合中的單個數與集合的均值相減的結果除以集合的標準差得到標準化的結果,該方法類似於正態分佈的標準化轉換,轉換函式為 式中x為需要被標準化的原始值,為均值...

資料標準化處理

資料的標準化 normalization 也就是將資料按照比例縮放,使之落入特定區間內。因為不同的指標往往具有不同的量綱和單位,這樣的資料會影響分析結果,為了消除指標之間的這種影響,需要進行資料標準化處理,使個指標處於同一量級,讓指標有可比性。常用的歸一化有兩種方法 一 min max標準化 min...