資料預處理方法

2021-08-25 11:36:35 字數 2085 閱讀 9186

原文:

資料預處理有四個任務,資料清洗、資料整合、資料 變換和資料規約。

一、資料清洗

1.缺失值處理

處理缺失值分為三類:刪除記錄、資料補差和不處理。

資料補插方法:

1. 補插均值/中位數/眾數

2. 使用固定值

3. 最近鄰補插

4. 回歸方法

5. 插值法

插值法介紹:

(1)拉格朗日插值法

(2)牛頓插值法 (需要另寫,具有承襲性和易於變動節點的特點)

(3)hermite插值

(4)分段插值

(5)樣條插值

2.異常值處理

(1)刪除有異常值的記錄

(2)視為缺失值

(3)平均值修正

(4)不處理

要分析異常值的原因,再決定取捨。

二、資料整合

將多個資料來源放在乙個統一的資料倉儲中。

1.實體識別

同名異義

異名同義

單位不統一

2.冗餘屬性識別

同一屬性多次出現

同一屬性命名不一致

三、資料變換

對資料進行規範化處理

1.簡單函式變換

原始資料進行數學函式變換,平方、開方、取對數、差分運算。用來將不具有正太分布的資料變換成具有正太性的資料。

時間序列分析中,對數變換或者差分運算可以將非平穩序列轉換為平穩序列。

2.規範化

消除指標間量綱影響

(1)最小-最大規範化

(2)零-均值規範化

(3)小數定標規範化

3.連續屬性離散化

將連續屬性變為分類屬性,即連續屬性離散化。資料離散化本質上通過斷點集合將連續的屬性空間劃分為若干區,最後用不同的符號或者整數值代表落在每個子區間中的資料。離散化涉及兩個子任務:確定分類以及如何將連續屬性值對映到這些分類值。

(1)等寬法

(2)等頻法

(3)基於聚類分析的方法

4.屬性構造

利用已有的屬性構造新的屬性,並加到現有的屬性中。

5.小波變換

非平穩序列的分析手段。

基於小波變換的特徵提取方法:

(1)基於小波變換的多尺度空間能量分布特徵提取法

(2)基於小波變換的多尺度空間的模極大特徵值提取法

(3)基於小波變換的特徵提取方法

(4)基於適應性小波神經網路的特徵提取方法

四、資料規約

降低無效,錯誤資料對建模的影響,提高建模的準確性。

少量且代表性的資料將大幅縮減資料探勘所需時間。

降低儲存資料成本。

1.屬性規約

(1)合併屬性

(2)逐步向前選擇

(3)逐步向後刪除

(4)決策樹歸納

(5)主成分分析

2.數值規約

通過選擇替代的、較小的資料來減少資料量,包含有引數方法和無引數方法兩類;有引數方法使用模型評估資料,不需要存放真實資料,只需要存放引數,例如回歸、對數線性模型。無引數需要資料,例如直方圖、聚類、抽樣。

資料預處理方法

一.資料清理 1.填出缺失值 無記錄值資料 1 忽略元祖 缺少類標號時使用,適用於多個屬性值缺失 2 人工填寫缺失值 3 用屬性的均值填充缺失值 4 用全域性常量填充 unknow 5 用同樣本的屬性均值填充缺失值 6 使用最可能的值填充缺失值 可由回歸 貝葉斯形式化的基於推理的工具或決策樹歸納確定...

資料預處理方法

資料匯入 初步看變數間的關係 視覺化,facetgrid 仔細看 看因變數與各變數的關係 a numerical用scatter b categorical用boxplot 看各變數之間的關係,是否存在多重共線性,相關性高的列可以刪除乙個 刪除對 沒用的列 看outlier 1 通過standard...

資料預處理基本方法

1 聚集 聚集可能丟失細節,聚集是統計學的表現 被聚集的單個物件 按平均值 總數 按天 周 月等聚集量 2 抽樣 選擇資料子集進行分析的方法。抽樣方法 a 隨機取樣 無放回取樣 放回取樣 b 分層取樣 當總體有不同型別的物件組成,每種型別的物件差別很大時,隨機取樣不能充分的代表不太頻繁出現的物件型別...