大話機器學習之資料預處理與資料篩選

2022-09-18 16:24:12 字數 1109 閱讀 4351

大話機器學習之資料預處理與資料篩選

資料探勘

和機器學習這事,其實大部分時間不是在做演算法,而是在弄資料,畢竟演算法往往是現成的,改變的餘地很小。

資料預處理的目的就是把資料組織成乙個標準的形式。

1.歸一化

歸一化通常採用兩種方法。

a.最簡單的歸一化,最大最小值對映法

p_new=(p-mi)/(ma-mi)

p是原始資料,mi是這一屬性中的最小值,ma是這一屬性中的最大值。這樣處理之後,所有的值都會限定在0-1之間。

b.標準差標準化

p_new=(p-**g(p))/sd(p)

其中**g(p)為變數均值,sd(p)為標準差.

這個方法還有乙個好處,就是當你發現如此處理之後,有的數字很離奇,就可以認為是異常值,直接剔除。

2、離散化

如果你的數值是連續的,有時候不是那麼好處理,比如年齡。往往把數字離散成小孩,少年,青年等等更加有意義。

3、缺失值問題

這個首先要考慮缺失值的多少,如果過多,不如直接刪除屬性;如果在可接受範圍內,則利用平均值、最大值或者別的適合的方案來補充。

當然還有一種方法,先用方法1對不缺失的記錄建模,然後用該方法**缺失值;然後用方法2最終建模。當然,這裡存在許多問題,比如方法一的準確度、方法1和方法2使用同一種方法的時候產生的資訊冗餘。

4、異常資料點

實際的資料集有很多是異常資料,可能是由於錄入錯誤或者採集中受到干擾等因素產生的錯誤資料。通常剔除異常資料的方法最常用的有如下兩種。

尋找附近的點,當最近的點的距離大於某乙個閾值的時候,就認為是異常點。當然也可以在限定距離內,包含的資料點少於某個數目的時候認為是異常點。

前者是基於距離,後者是基於密度。當然,還可以把兩者結合,指定距離的同時也指定數目,這叫做cof。

5、資料的篩選

我們在預處理好資料之後,有時候資料的維度是很大的,出於經濟性考慮,當然,需要降維或者特徵選擇。有時候降為和特徵選擇也會增加準確度。

降維通常使用pca,主成分分析。直觀上,就是把幾個變數做線性組合,變成乙個變數;特徵選擇則比較簡單,就是選擇相關性強的特徵。

當然,pca其實設計到矩陣的奇異值分解,具體的數學原理就不展開了。

機器學習之資料預處理

1.為什麼需要資料預處理?原始資料來自於現實場景,常常有以下幾個特徵 髒 亂 差 缺。髒體現在原始資料裡混雜許多雜訊資料,亂體現在原始資料各維度量綱不同一。差體現在資料錯誤 出現不尋常不一致,這和髒相似。缺體現在原始資料的某些資料段值的缺失。2.資料預處理的方法。歸一化 標準化和中心化是資料預處理中...

機器學習之資料預處理

from sklearn.preprocessing import standardscaler x scaler standardscaler y scaler standardscaler x train x scaler.fit transform x train y train y scal...

機器學習之資料預處理

資料預處理方法 均值移除 範圍縮放 二值化歸一化 獨熱編碼 標籤編碼 直接呼叫api介面進行處理 輸入 輸出 0.5 5.0 0.6 5.5 0.8 6.0 1.1 6.8 1.4 7.0 y f x 函式 y w0 w1x x 輸入 y 輸出 w0和w1 模型引數 所謂模型訓練,就是根據已知的x和...