機器學習之資料預處理詳解

資料處理

機器學習

業務運維

1. 資料收集（資料檢索、資料探勘、爬蟲）2. 資料清洗3. 特徵工程

1. 選擇模型（演算法）2. 訓練模型（演算法）3. 評估模型（工具、框架、演算法知識）4. 測試模型

1. 應用模型2. 維護模型

import sklearn.preprocessing as sp
# 均值移除可以讓樣本矩陣中的每一列的平均值為0，標準差為1。
a = sp.scale(array)

# 建立minmax縮放器
mms = sp.minmaxscaler(feature_range=(0
,1))
# 呼叫mms物件的方法執行縮放操作, 返回縮放過後的結果
result = mms.fit_transform(原始樣本矩陣)

# array 原始樣本矩陣 # norm 範數 # l1範數，元素絕對值之和。l1可以實現稀疏化。 # l2範數，元素平方之和。l2避免過擬合 sp.normalize(array, norm= 'l1'

)

# 給出閾值, 獲取二值化器
bin= sp.binarizer(threshold=閾值)
# 呼叫transform方法對原始樣本矩陣進行二值化預處理操作
result =
bin.transform(原始樣本矩陣)

ohe = sp.onehotencoder(sparse=是否採用緊縮格式, dtype=資料型別)
# 對原始樣本矩陣進行處理，返回獨熱編碼後的樣本矩陣。
result = ohe.fit_transform(原始樣本矩陣)

lbe = sp.labelencoder(
)# 呼叫標籤編碼器的fit_transform方法訓練並且為原始樣本矩陣進行標籤編碼
result = lbe.fit_transform(原始樣本陣列)
# 根據標籤編碼的結果矩陣反查字典 得到原始資料矩陣
samples = lbe.inverse_transform(result)

機器學習之資料預處理

1.為什麼需要資料預處理？原始資料來自於現實場景，常常有以下幾個特徵髒亂差缺。髒體現在原始資料裡混雜許多雜訊資料，亂體現在原始資料各維度量綱不同一。差體現在資料錯誤出現不尋常不一致，這和髒相似。缺體現在原始資料的某些資料段值的缺失。2.資料預處理的方法。歸一化標準化和中心化是資料預處理中...

機器學習之資料預處理

from sklearn.preprocessing import standardscaler x scaler standardscaler y scaler standardscaler x train x scaler.fit transform x train y train y scal...

機器學習之資料預處理

資料預處理方法均值移除範圍縮放二值化歸一化獨熱編碼標籤編碼直接呼叫api介面進行處理輸入輸出 0.5 5.0 0.6 5.5 0.8 6.0 1.1 6.8 1.4 7.0 y f x 函式 y w0 w1x x 輸入 y 輸出 w0和w1 模型引數所謂模型訓練，就是根據已知的x和...

機器學習之資料預處理詳解

機器學習之資料預處理

機器學習之資料預處理

機器學習之資料預處理

相關推薦