資料預處理的步驟

2021-10-01 13:41:21 字數 880 閱讀 3353

資料清理–>資料整合 —>資料歸約–>資料變換

1.資料清理

就是處理髒資料,包括填寫缺失值、清除雜訊資料(降噪)、糾正不一致資料、識別或刪除離群點等。常用工具例如:etl工具

2.資料整合(data integration)

整合多個資料庫資料。將資料由多個資料來源合併成乙個一致資料儲存,如:資料倉儲。

【注意】不同資料庫相同字段可能具有不同的名字,導致不一致和冗餘,所以在為數倉做準備資料時,資料清理和整合將作為預處理步驟進行,還可以再次進行資料清理。

3.資料歸約(data reduction)

可以通過如聚集、刪除冗餘特徵或聚類來降低資料規模,提高執行速度,但不影響挖掘結果。資料歸約有兩種方法

(1)方法一:維歸約

維歸約(降維)-使用資料編碼方案,以便得到原始資料的簡化或者「壓縮」表示。包括資料壓縮技術(例如:小波變換和主成分分析)、屬性子集選擇(例如:去掉不相關的屬性)和屬性構造(例如,從原來的屬性集匯出更有用的小屬性集)

(2)方法二:數值歸約

數值歸約是採用引數模型(例如:回歸和對數線性模型)和非引數模型(例如:直方圖、聚類、抽樣或資料聚集),用較小的表示取代數 。

【注意】

上面的分類不是互斥的,例如:冗餘資料的刪除既是一種資料清理形式也是一種資料歸約。

4.資料變換

(例如:規範化)可以用來把資料壓縮到較小的區間,如0.0到1.0.這可以提高涉及距離度量的挖掘演算法的準確率和效率。

總之,現實世界的資料一般是髒資料、不完整的和不一致的資料。資料處理技術可以改進資料的質量,從而有助於提高其後面的挖掘過程的準確率和效率。

spss資料預處理步驟 Spss的資料預處理

spss 的資料預處理 資料預處理的目的 在資料檔案建立好後,通常還要對待分析的資料進行必要的預加工處 理,這是資料分析過程中不可缺少的乙個關鍵環節。資料的預加工處理是服 務與資料分析和建模的,需要解決的問題如下 缺失值和異常資料的處理。資料的轉換處理。資料的轉換處理是在原有資料的基礎上,計算產生 ...

資料的預處理

機器學習演算法無法理解原始資料,所以需對原始資料進行預處理,常用預處理如下 預處理主要使用了preprocessing包,所以需對該包進行匯入 import numpy as np from sklearn import preprocessing data np.array 3,1.5,2,5.4...

資料預處理

現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...