歸一化（資料預處理）

一、資料標準化（歸一化）

首先，資料標準化處理主要包括資料同趨化處理（中心化處理）和無量綱化處理。

同趨化處理主要解決不同性質資料問題，對不同性質指標直接加總不能正確反映不同作用力的綜合結果，須先考慮改變逆指標資料性質，使所有指針對測評方案的作用力同趨化，再加總才能得出正確結果。

無量綱化處理主要為了消除不同指標量綱的影響，解決資料的可比性，防止原始特徵中量綱差異影響距離運算（比如歐氏距離的運算）。它是縮放單個樣本以具有單位範數的過程，這與標準化有著明顯的不同。簡單來說，標準化是針對特徵矩陣的列資料進行無量綱化處理，而歸一化是針對資料集的行記錄進行處理，使得一行樣本所有的特徵資料具有統一的標準，是一種單位化的過程。

即標準化會改變資料的分布情況，歸一化不會，標準化的主要作用是提高迭代速度，降低不同維度之間影響權重不一致的問題。

資料標準化（歸一化）的方法有很多種，常用的有"最小-最大標準化"、"z-score標準化"和"按小數定標標準化"等等。經過標準化處理後，原始資料均轉換為無量綱化指標測評值，即各指標值都處於同乙個數量級別上，可以進行綜合測評分析。

把原始資料對映到0到1的區間內，預設

# -*- encoding: utf- 8 -*-
# 匯入模組
import pandas as pd
from sklearn.preprocessing import minmaxscaler

data = pd.read_table(
"datingtestset2.txt"
)data

milage

liters

consumtime

target

040920

8.326976

0.95395231

14488

7.153469

1.67390422

26052

1.441871

0.80512413

75136

13.147394

0.42896414

38344

1.669788

0.134296

1...

......

99511145

3.410627

0.631838

2996

68846

9.974715

0.669787

1997

26575

10.650102

0.866627

3998

48111

9.134528

0.728045

3999

43757

7.882601

1.3324463

1000 rows × 4 columns

data = data[
['milage'
,'liters'
,'consumtime']]
data

milage

liters

consumtime

040920

8.326976

0.953952

114488

7.153469

1.673904

226052

1.441871

0.805124

375136

13.147394

0.428964

438344

1.669788

0.134296

......

99511145

3.410627

0.631838

99668846

9.974715

0.669787

99726575

10.650102

0.866627

99848111

9.134528

0.728045

99943757

7.882601

1.332446

1000 rows × 3 columns

transfer = minmaxscaler(
)data_new = transfer.fit_transform(data)
print
(data_new)

[[0.44832535 0.39805139 0.56233353]
[0.15873259 0.34195467 0.98724416]
[0.28542943 0.06892523 0.47449629]
...[0.29115949 0.50910294 0.51079493]
[0.52711097 0.43665451 0.4290048 ]
[0.47940793 0.3768091 0.78571804]]

歸一化（資料預處理）

資料預處理歸一化

資料預處理歸一化

資料預處理歸一化

歸一化（資料預處理）

資料預處理 歸一化

資料預處理 歸一化

資料預處理 歸一化

相關推薦

資料預處理歸一化

資料預處理歸一化

資料預處理歸一化