資料探勘學習筆記資料預處理

資料預處理的任務

一、資料規範化

最小 - 最**（min-max normalization）

零均值規範化（z-score）

二、資料離散化

無監督離散化方法

※有監督離散化方法

三、資料清洗

處理資料的缺失

噪音資料的處理

四、特徵提取和特徵選擇

特徵提取

特徵選擇

q：為什麼要進行資料預處理？

a：原因：

資料規範化又稱標準化（standardization），通過將屬性的取值範圍進行統一，避免不同的屬性在資料分析的過程中具有不平等的地位。

常用方法：

具體計算步驟可以看資料標準化的方法

離散化分箱方法：等距離分箱法、等頻率分箱法

舉例：

基於熵的離散化方法（自頂向下的**方法）

chimerge方法（自底向上的合併方法）

資料清洗：處理資料的缺失、噪音資料的處理以及資料不一致的識別和處理

如果資料集含有分類屬性，一種簡單的填補缺失值的方法為，將屬於同一類的物件的該屬性值的均值賦予此缺失值；對於離散屬性或定性屬性，用眾數代替均值。

更複雜的方法，可以將其轉換為分類問題或數值**問題

識別出噪音將其去除 -- 比如孤立點的識別

利用其它非噪音資料降低噪音的影響，起到平滑（smoothing）的作用 -- 分箱（binning）方法可以用於平滑噪音。例如，將年收入的缺失值填補之後，將其取值利用分箱法平滑噪音。

是指描述物件的屬性不一定反映潛在的規律或模式，對屬性進行重新組合，獲得一組反映事物本質的少量的新的屬性的過程。

主成分分析（pca）:通過對原有變數（屬性、特徵）進行線性變換，提取反映事物本質的新變數，同時去除冗餘、降低噪音，達到降維的目的。 -- 協方差

是指從屬性集合中選擇那些重要的、與分析任務相關的子集的過程。

選擇屬性子集的方法

選擇屬性子集的方法一般採用啟發式方法，只檢驗部分可能性比較大的子集，這樣可以快速完成屬性的選擇。

常用方法：

衡量子集的相關性

通常選用兩種方法:

提取碼 m69u 主要內容資料清洗資料整合資料變換資料規約資料清洗物件無關資料，重複資料，平滑雜訊資料，篩選掉與挖掘主題無關的資料，處理缺失值，異常值等。方法刪除記錄，資料插補和不處理。常見的插補法拉格朗日插值法牛頓插值法用拉格朗日插值法對缺失值進行插補的python程式。資料...

現實資料是骯髒的沒有高質量資料,就沒有高質量的挖掘結果資料清理填寫空缺的值，平滑雜訊資料，識別，刪除孤立點，解決不一致性資料整合整合多個資料庫，資料立方體或檔案資料變換規範化和聚集資料規約得到資料集的壓縮表示,它小得多,但可以相同或相近的結果資料離散化資料規約的一部分，通過概...

處理資料中的髒資料，處理無關資料等。缺失值處理相關方法刪除記錄將缺失值的那條記錄刪除。資料插補將缺失值進行補全，方法包括均值中位數眾數插補，使用固定值，最近臨插補，回歸方法，插值法。相關利弊在原文中有介紹。不處理就是字面意思。插值法的介紹拉格朗日插值法和牛頓插值法在原文重點介紹了推...

資料探勘學習筆記 資料預處理