資料預處理基本方法

1、聚集

聚集可能丟失細節，聚集是統計學的表現：被聚集的單個物件（按平均值、總數、按天/周/月等聚集量）

2、抽樣

選擇資料子集進行分析的方法。

抽樣方法：

a）隨機取樣：無放回取樣、放回取樣

b）分層取樣：當總體有不同型別的物件組成，每種型別的物件差別很大時，隨機取樣不能充分的代表不太頻繁出現的物件型別。分層取樣從預先指定的組開始抽樣。

注意：抽樣的資訊損失、確定適當的樣本容量

c）漸進抽樣：合適的樣本容量難以確定，可以採取自適應或漸進抽樣的方法

3、維歸約

優點：維數降低、可以刪除不相關的特徵、降低雜訊、解決維災難、更易視覺化

a）維災難：維度越高，資料在它所在的空間越來越稀疏，導致演算法質量下降。

b）維歸約的線性代數技術：pca、奇異值分解

4、特徵子集選擇

問題：冗餘資料、不相關特徵

特徵選擇方法：

a）嵌入：決策樹

b）過濾：低方差（大多數樣本值差別不大）、高偏差（離群）、相關係數（皮爾遜係數等）

c）包裝：（演算法自動選擇特徵）決策樹：資訊熵、資訊增益；正則化：l1、l2；深度學習：卷積

特徵選擇體系結構：

過濾+包裝放到乙個體繫結構中，將特徵選擇看做：自己評估度量、控制新的特徵子集產生的搜尋策略、停止搜尋判斷、驗證過程

停止搜尋判斷：可以是迭代次數、子集評估非度量值是否最優或超過給定的閾值、

驗證過程：在全部目標資料下驗證；或者使用不同的演算法選擇特徵子集，比較在哥哥自己上的結果

特徵加權：

保留或刪除特徵的辦法。分類演算法（支援向量機等）、計算余弦相似度物件規範化

特徵建立：

a）特徵提取：由原始資料建立新的特徵集（影象處理常用）

b）對映資料到新的空間：傅利葉變換、小波變換

c）特徵構造：原始資料的形式不適合演算法，由乙個或多個資料構造新的特徵

5、離散化、二元化

關聯模式的演算法可能要求資料是二元屬性，此時要求將連續屬性變換成分類屬性，並且連續和離散屬性可能都需要變換成乙個或多個二元屬性

a）連續值離散化：

非監督離散化：等寬（易受離群值影響）、等頻率、等深、k均值等聚類方法

監督離散化：基於熵的離散化是自由前途的離散化方法之一

b）具有過多值的分類屬性：

分類屬性是序數屬性：連續值處理類似方法處理，減少分類值的個數

分類屬性是標稱屬性：關聯分析

6、變數變換

a）簡單函式：對數、指數、平方根、倒數、余弦、絕對值等

注：對數、倒數、平方根通常將不具有高斯分布的資料變換成具有高斯分布的資料

b）規範化、標準化

目的：使資料集整個值的集合具有特定的性質

改進：均值和標準差受離群影響大，用中位數取代均值，用絕對標準差取代標準差

資料預處理方法

一.資料清理 1.填出缺失值無記錄值資料 1 忽略元祖缺少類標號時使用，適用於多個屬性值缺失 2 人工填寫缺失值 3 用屬性的均值填充缺失值 4 用全域性常量填充 unknow 5 用同樣本的屬性均值填充缺失值 6 使用最可能的值填充缺失值可由回歸貝葉斯形式化的基於推理的工具或決策樹歸納確定...

資料預處理方法

原文資料預處理有四個任務，資料清洗資料整合資料變換和資料規約。一資料清洗 1.缺失值處理處理缺失值分為三類刪除記錄資料補差和不處理。資料補插方法 1.補插均值中位數眾數 2.使用固定值 3.最近鄰補插 4.回歸方法 5.插值法插值法介紹 1 拉格朗日插值法 2 牛頓插值法需要...

資料預處理方法

資料匯入初步看變數間的關係視覺化，facetgrid 仔細看看因變數與各變數的關係 a numerical用scatter b categorical用boxplot 看各變數之間的關係，是否存在多重共線性，相關性高的列可以刪除乙個刪除對沒用的列看outlier 1 通過standard...

資料預處理基本方法

資料預處理方法

資料預處理方法

資料預處理方法

相關推薦