資料預處理基本方法

2021-09-20 21:38:37 字數 1385 閱讀 4499

1、聚集

聚集可能丟失細節,聚集是統計學的表現:被聚集的單個物件(按平均值、總數、按天/周/月等聚集量)

2、抽樣

選擇資料子集進行分析的方法。

抽樣方法:

a)隨機取樣:無放回取樣、放回取樣

b)分層取樣:當總體有不同型別的物件組成,每種型別的物件差別很大時,隨機取樣不能充分的代表不太頻繁出現的物件型別。分層取樣從預先指定的組開始抽樣。

注意:抽樣的資訊損失、確定適當的樣本容量

c)漸進抽樣:合適的樣本容量難以確定,可以採取自適應或漸進抽樣的方法

3、維歸約

優點:維數降低、可以刪除不相關的特徵、降低雜訊、解決維災難、更易視覺化

a)維災難:維度越高,資料在它所在的空間越來越稀疏,導致演算法質量下降。

b)維歸約的線性代數技術:pca、奇異值分解

4、特徵子集選擇

問題:冗餘資料、不相關特徵

特徵選擇方法:

a)嵌入:決策樹

b)過濾:低方差(大多數樣本值差別不大)、高偏差(離群)、相關係數(皮爾遜係數等)

c)包裝:(演算法自動選擇特徵)決策樹:資訊熵、資訊增益;正則化:l1、l2;深度學習:卷積

特徵選擇體系結構:

過濾+包裝放到乙個體繫結構中,將特徵選擇看做:自己評估度量、控制新的特徵子集產生的搜尋策略、停止搜尋判斷、驗證過程

停止搜尋判斷:可以是迭代次數、子集評估非度量值是否最優或超過給定的閾值、

驗證過程:在全部目標資料下驗證;或者使用不同的演算法選擇特徵子集,比較在哥哥自己上的結果

特徵加權:

保留或刪除特徵的辦法。分類演算法(支援向量機等)、計算余弦相似度物件規範化

特徵建立:

a)特徵提取:由原始資料建立新的特徵集(影象處理常用)

b)對映資料到新的空間:傅利葉變換、小波變換

c)特徵構造:原始資料的形式不適合演算法,由乙個或多個資料構造新的特徵

5、離散化、二元化

關聯模式的演算法可能要求資料是二元屬性,此時要求將連續屬性變換成分類屬性,並且連續和離散屬性可能都需要變換成乙個或多個二元屬性

a)連續值離散化:

非監督離散化:等寬(易受離群值影響)、等頻率、等深、k均值等聚類方法

監督離散化:基於熵的離散化是自由前途的離散化方法之一

b)具有過多值的分類屬性:

分類屬性是序數屬性:連續值處理類似方法處理,減少分類值的個數

分類屬性是標稱屬性:關聯分析

6、變數變換

a)簡單函式:對數、指數、平方根、倒數、余弦、絕對值等

注:對數、倒數、平方根通常將不具有高斯分布的資料變換成具有高斯分布的資料

b)規範化、標準化

目的:使資料集整個值的集合具有特定的性質

改進:均值和標準差受離群影響大,用中位數取代均值,用絕對標準差取代標準差

資料預處理方法

一.資料清理 1.填出缺失值 無記錄值資料 1 忽略元祖 缺少類標號時使用,適用於多個屬性值缺失 2 人工填寫缺失值 3 用屬性的均值填充缺失值 4 用全域性常量填充 unknow 5 用同樣本的屬性均值填充缺失值 6 使用最可能的值填充缺失值 可由回歸 貝葉斯形式化的基於推理的工具或決策樹歸納確定...

資料預處理方法

原文 資料預處理有四個任務,資料清洗 資料整合 資料 變換和資料規約。一 資料清洗 1.缺失值處理 處理缺失值分為三類 刪除記錄 資料補差和不處理。資料補插方法 1.補插均值 中位數 眾數 2.使用固定值 3.最近鄰補插 4.回歸方法 5.插值法 插值法介紹 1 拉格朗日插值法 2 牛頓插值法 需要...

資料預處理方法

資料匯入 初步看變數間的關係 視覺化,facetgrid 仔細看 看因變數與各變數的關係 a numerical用scatter b categorical用boxplot 看各變數之間的關係,是否存在多重共線性,相關性高的列可以刪除乙個 刪除對 沒用的列 看outlier 1 通過standard...