機器學習之資料預處理詳解

2021-10-07 04:23:30 字數 1172 閱讀 7008

資料處理

機器學習

業務運維

1. 資料收集 (資料檢索、資料探勘、爬蟲)2. 資料清洗3. 特徵工程

1. 選擇模型 (演算法)2. 訓練模型 (演算法)3. 評估模型 (工具、框架、演算法知識)4. 測試模型

1. 應用模型2. 維護模型

import sklearn.preprocessing as sp

# 均值移除可以讓樣本矩陣中的每一列的平均值為0,標準差為1。

a = sp.scale(array)

# 建立minmax縮放器

mms = sp.minmaxscaler(feature_range=(0

,1))

# 呼叫mms物件的方法執行縮放操作, 返回縮放過後的結果

result = mms.fit_transform(原始樣本矩陣)

# array 原始樣本矩陣

# norm 範數

# l1範數,元素絕對值之和。l1可以實現稀疏化。

# l2範數,元素平方之和。l2避免過擬合

sp.normalize(array, norm=

'l1'

)

# 給出閾值, 獲取二值化器

bin= sp.binarizer(threshold=閾值)

# 呼叫transform方法對原始樣本矩陣進行二值化預處理操作

result =

bin.transform(原始樣本矩陣)

ohe = sp.onehotencoder(sparse=是否採用緊縮格式, dtype=資料型別)

# 對原始樣本矩陣進行處理,返回獨熱編碼後的樣本矩陣。

result = ohe.fit_transform(原始樣本矩陣)

lbe = sp.labelencoder(

)# 呼叫標籤編碼器的fit_transform方法訓練並且為原始樣本矩陣進行標籤編碼

result = lbe.fit_transform(原始樣本陣列)

# 根據標籤編碼的結果矩陣反查字典 得到原始資料矩陣

samples = lbe.inverse_transform(result)

機器學習之資料預處理

1.為什麼需要資料預處理?原始資料來自於現實場景,常常有以下幾個特徵 髒 亂 差 缺。髒體現在原始資料裡混雜許多雜訊資料,亂體現在原始資料各維度量綱不同一。差體現在資料錯誤 出現不尋常不一致,這和髒相似。缺體現在原始資料的某些資料段值的缺失。2.資料預處理的方法。歸一化 標準化和中心化是資料預處理中...

機器學習之資料預處理

from sklearn.preprocessing import standardscaler x scaler standardscaler y scaler standardscaler x train x scaler.fit transform x train y train y scal...

機器學習之資料預處理

資料預處理方法 均值移除 範圍縮放 二值化歸一化 獨熱編碼 標籤編碼 直接呼叫api介面進行處理 輸入 輸出 0.5 5.0 0.6 5.5 0.8 6.0 1.1 6.8 1.4 7.0 y f x 函式 y w0 w1x x 輸入 y 輸出 w0和w1 模型引數 所謂模型訓練,就是根據已知的x和...