大話機器學習之資料預處理與資料篩選

大話機器學習之資料預處理與資料篩選

資料探勘

和機器學習這事，其實大部分時間不是在做演算法，而是在弄資料，畢竟演算法往往是現成的，改變的餘地很小。

資料預處理的目的就是把資料組織成乙個標準的形式。

1.歸一化

歸一化通常採用兩種方法。

a.最簡單的歸一化，最大最小值對映法

p_new=(p-mi)/（ma-mi）

p是原始資料，mi是這一屬性中的最小值，ma是這一屬性中的最大值。這樣處理之後，所有的值都會限定在0-1之間。

b.標準差標準化

p_new=（p-**g(p)）/sd(p)

其中**g（p）為變數均值，sd(p)為標準差.

這個方法還有乙個好處，就是當你發現如此處理之後，有的數字很離奇，就可以認為是異常值，直接剔除。

2、離散化

如果你的數值是連續的，有時候不是那麼好處理，比如年齡。往往把數字離散成小孩，少年，青年等等更加有意義。

3、缺失值問題

這個首先要考慮缺失值的多少，如果過多，不如直接刪除屬性；如果在可接受範圍內，則利用平均值、最大值或者別的適合的方案來補充。

當然還有一種方法，先用方法1對不缺失的記錄建模，然後用該方法**缺失值；然後用方法2最終建模。當然，這裡存在許多問題，比如方法一的準確度、方法1和方法2使用同一種方法的時候產生的資訊冗餘。

4、異常資料點

實際的資料集有很多是異常資料，可能是由於錄入錯誤或者採集中受到干擾等因素產生的錯誤資料。通常剔除異常資料的方法最常用的有如下兩種。

尋找附近的點，當最近的點的距離大於某乙個閾值的時候，就認為是異常點。當然也可以在限定距離內，包含的資料點少於某個數目的時候認為是異常點。

前者是基於距離，後者是基於密度。當然，還可以把兩者結合，指定距離的同時也指定數目，這叫做cof。

5、資料的篩選

我們在預處理好資料之後，有時候資料的維度是很大的，出於經濟性考慮，當然，需要降維或者特徵選擇。有時候降為和特徵選擇也會增加準確度。

降維通常使用pca，主成分分析。直觀上，就是把幾個變數做線性組合，變成乙個變數；特徵選擇則比較簡單，就是選擇相關性強的特徵。

當然，pca其實設計到矩陣的奇異值分解，具體的數學原理就不展開了。

機器學習之資料預處理

1.為什麼需要資料預處理？原始資料來自於現實場景，常常有以下幾個特徵髒亂差缺。髒體現在原始資料裡混雜許多雜訊資料，亂體現在原始資料各維度量綱不同一。差體現在資料錯誤出現不尋常不一致，這和髒相似。缺體現在原始資料的某些資料段值的缺失。2.資料預處理的方法。歸一化標準化和中心化是資料預處理中...

機器學習之資料預處理

from sklearn.preprocessing import standardscaler x scaler standardscaler y scaler standardscaler x train x scaler.fit transform x train y train y scal...

機器學習之資料預處理

資料預處理方法均值移除範圍縮放二值化歸一化獨熱編碼標籤編碼直接呼叫api介面進行處理輸入輸出 0.5 5.0 0.6 5.5 0.8 6.0 1.1 6.8 1.4 7.0 y f x 函式 y w0 w1x x 輸入 y 輸出 w0和w1 模型引數所謂模型訓練，就是根據已知的x和...

大話機器學習之資料預處理與資料篩選

機器學習之資料預處理

機器學習之資料預處理

機器學習之資料預處理

相關推薦