資料預處理方法

2021-07-22 14:36:52 字數 2307 閱讀 5725

一.資料清理

1.填出缺失值:無記錄值資料

(1)忽略元祖:缺少類標號時使用,適用於多個屬性值缺失;

(2)人工填寫缺失值;

(3)用屬性的均值填充缺失值;

(4)用全域性常量填充(unknow);

(5)用同樣本的屬性均值填充缺失值;

(6)使用最可能的值填充缺失值(可由回歸、貝葉斯形式化的基於推理的工具或決策樹歸納確定)。

2.光滑雜訊資料:被測量變數的隨機誤差或方差。

(1)分箱:考察資料的近鄰(周圍的值)來光滑有序資料的值,有序值分布到「桶」或箱中;

(2)回歸:用乙個函式(回歸函式)進行資料擬合來達到光滑資料的目的。

(3)聚類:通過聚類檢測離群點,將類似的值組織成群或「簇」,落在簇集合之外的值視為離群點。

資料清理過程:

(1)偏差檢測:發現雜訊、離群點和需要考察的不尋常的值。

a)考察每個屬性的定義域和資料型別、每個屬性可接受的值、值的長度範圍;

b)  考察是否所有的值都落在期望的值域內、屬性之間是否存在已知的依賴;把握資料趨勢和識別異常;

c)源編碼使用的不一致問題和資料表示的不一致問題(2009/9/4和4/9/2009)

d)字段過載,考察資料的唯一性規則、連續性規則和空值規則

(2)偏差糾正:一旦發現偏差需要定義並使用一系列變換糾正。

二.資料整合

資料整合:合併多個資料來源中的資料,存放在乙個一致的資料儲存(如資料倉儲)中。這些資料來源包括:多個資料庫、資料立方體、一般檔案。

資料整合存在的問題:

(1)模式整合和物件匹配問題。來自多個資訊源的現實世界的等價實體的匹配設計涉及實體識別問題。

(2)冗餘問題:乙個屬性如果能由另乙個或一組屬性匯出,那麼該屬性就是冗餘的。(通過計算屬性a和b之間的相關係數估計兩個屬性的相關度進行刪除)

三.資料變換

目的:將資料轉換或統一成適合挖掘的形式。涉及以下內容:

(1)光滑:去掉資料中的雜訊,技術包括:分箱、回歸、聚類

(2)聚集:對資料彙總和聚集(聚集日銷售資料,計算月和年銷售量)

(3)資料泛化:使用概念分層,用高層概念替換底層或「原始資料」

(4)規範化:將屬性資料按比例縮放,使之落入乙個小的特定區間,如:-1.0~1.0或0.0~1.0。規範化可以消除數值數值屬性因大小不一而造成的挖掘結果偏差。(涉及神經網路如最臨近分類、聚類的距離量度分類演算法特別有用)

規範化方法:

a)最小-最大規範化:假定ma和ma分別為屬性a的最小值和最大值。最小-最大的規範化通過式計算

b)z-score規範化(零均值規範化):把屬性a的值v基於a的均值和標準差規範化為v』『

c)小數定標規範化:通過移動屬性a的小數點位置進行規範化。小數點的移動位數依賴於的最大絕對值。a的值v規範化為v』『

d)屬性構造:由已有的屬性構造和新增新的屬性(height+width -> area)

四.資料規約

資料規約:用來得到資料集的規約表示,它比原來資料小的多,但仍接近保持原資料的完整性。

方法:(1)資料立方聚集:構造資料立方,資料立方體儲存多維聚集資訊。

(2)維規約:減少不相關的屬性(或維)來達到減少資料集規模的目的。通常使用屬性子集選擇方法來找出最小屬性集。使資料類的概率分布盡量低接近原始屬性集的概率分布。

維規約方法:

a)逐步向前選擇;

b)逐步向後刪除;

c)向前選擇和向後刪除的結合。

d)決策樹歸納

(3)資料壓縮:使用編碼或變換以便將原始資料集合壓縮成乙個較小的資料集合。(無失真壓縮和有失真壓縮)

無失真壓縮方法:

a)小波變換

b)主成分析

(4)數值規約:選擇替代的、較小的資料表示形式來減少資料量。

技術方法:

a)回歸和對數線性模型

b)直方圖

c)聚類

d)抽樣

(5)資料離散化與概念分層:將屬性值域劃分區間,資料離散化技術可以用來減少給定連續屬性值的個數。區間的標記可以替代實際的數值。用少數區間標記替換連續屬性的數值,從而減少和簡化了原來的資料。

a)數值資料的離散化和概念分層產生

技術方法:

a)分箱

b)直方圖分析

c)基於熵的離散化

d)基於卡方分析的區間合併

b)分類資料的概念分層的產生

a)由使用者或專家在模式級顯示地說明屬性的偏序

b)通過顯示資料分組說明分層結構的一部分

c)說明屬性集但不說明他們的偏序

d)只說明部分屬性集

資料預處理方法

原文 資料預處理有四個任務,資料清洗 資料整合 資料 變換和資料規約。一 資料清洗 1.缺失值處理 處理缺失值分為三類 刪除記錄 資料補差和不處理。資料補插方法 1.補插均值 中位數 眾數 2.使用固定值 3.最近鄰補插 4.回歸方法 5.插值法 插值法介紹 1 拉格朗日插值法 2 牛頓插值法 需要...

資料預處理方法

資料匯入 初步看變數間的關係 視覺化,facetgrid 仔細看 看因變數與各變數的關係 a numerical用scatter b categorical用boxplot 看各變數之間的關係,是否存在多重共線性,相關性高的列可以刪除乙個 刪除對 沒用的列 看outlier 1 通過standard...

資料預處理基本方法

1 聚集 聚集可能丟失細節,聚集是統計學的表現 被聚集的單個物件 按平均值 總數 按天 周 月等聚集量 2 抽樣 選擇資料子集進行分析的方法。抽樣方法 a 隨機取樣 無放回取樣 放回取樣 b 分層取樣 當總體有不同型別的物件組成,每種型別的物件差別很大時,隨機取樣不能充分的代表不太頻繁出現的物件型別...