資料預處理框架總結篇

現實中的資料

現實中的資料庫資料很龐大，而且資料**於「不同複雜各異」的資料來源。資料庫受雜訊、缺失值、不一致資料的影響，使得資料低質量，導致低挖掘結果。

為提高資料質量，和挖掘結果的質量，對資料預處理是必要的。

1.資料預處理的技術2.資料質量：為什麼要對資料預處理？2.1資料質量依賴於資料的應用。也即對於同一資料庫，不同需求的分析人員對其資料評價不同。（資料質量沒有絕對的好壞，只要能滿足分析人員的應用要求，那麼它就是高質量的。）

影響資料質量的因素：準確性、完整性、一致性、時效性、可信性、可解釋性。

假設你是銷售經理，公司要求你分析部門的銷售資料，想知道每種銷售商品是否做了降價銷售廣告，你需要分析某些屬性或維。但是你希望用資料探勘技術分析的資料是：

不完整的（缺少屬性值或某些感興趣的屬性）；

不正確的或含雜訊的（包含錯誤的或偏離期望的值）；

不一致的（如，用於商品分類的部門編碼存在差異）。

以上是資料質量的三要素，是大型資料庫的共同特點。而導致三要素出現的原因有多種：

時效性（有的資料在資料庫中需要實時更新，再資料探勘分析之前未更新的資料將會嚴重影響資料質量）

可信性（反映有多少資料是使用者信賴的）

可解釋性（反映資料是否容易理解，有些資料用編碼形式儲存，分析人員難以理解，會把它看成低質量的資料）

2.2 資料預處理的主要任務

資料預處理的主要步驟：資料清理、資料整合、資料歸約、資料變換。

如下圖為資料預處理的形式：

3.資料清理

3.1 缺失值

假設你需要分析顧客資料，許多元組的一些屬性（如，顧客的income）沒有記錄值。如何填寫缺失值呢？

3.1 雜訊資料

什麼是雜訊呢？雜訊是被測量的變數的隨機誤差或方差。

如何表示呢？使用統計描述技術（如，盒圖、散點圖）和資料視覺化方法來識別代表雜訊的離群點。

給定乙個數值屬性，如price，如何「光滑」資料、去掉雜訊？

分箱：通過考察資料的「近鄰」（周圍值）來光滑有序資料值。將這些有序的值分布到一些「桶」或箱中。由於分箱方法考察近鄰值，因此進行的是區域性光滑。

如下圖是資料光滑的分箱方法：

回歸：也可用乙個函式擬合資料來光滑資料。稱為回歸。線性回歸是找出擬合兩個屬性的「最佳」直線，使得乙個屬性可以用來**另乙個。多元線性回歸，涉及多個屬性將資料擬合到乙個曲面。

離群點分析：可通過聚類來檢測離群點。直觀的，落在簇外的值被視為離群點。

4.資料整合

資料探勘經常需要資料整合——合併來自多個資料儲存的資料。合理有效的整合有助於減少結果資料集的冗餘和不一致。

由於資料語義和結構的多樣性，對資料整合提出了巨大挑戰。如何匹配多個資料來源的模式和物件，這實際上是實體識別問題。

4.1 實體識別問題

4.2 冗餘和相關分析

4.3 元組重複

除了檢測屬性間的冗餘外，還應當在元組間檢測重複（例如，對於給定的唯一資料實體，存在兩個或多個相同的元組）。

4.4 資料值衝突的檢測與處理

5. 資料歸約

資料歸約技術可以用來得到資料集的歸約表示，它很小，但任然保持了原始資料的完整性。也即在歸約後的資料集上挖掘更有效，任然產生相同的分析結果。

5.1 資料歸約的策略概述

資料歸約策略包括維歸約、數量歸約、資料壓縮

6. 資料變換與資料離散化

在資料預處理階段，資料被變換或統一，使得挖掘過程更有效，挖掘的模式可能更容易理解。

6.1 資料變換策略概述

在資料變換中，資料被變換或統一成適合於挖掘的形式。資料變換策略包括如下幾種：

資料預處理總結1

使資料服從標準正態分佈，均值為0，方差為1。做資料探勘，pandas和numpy庫肯定是要引入的，這裡就省略了。from sklearn.preprocessing import standardscaler import warnings warnings.filterwarnings ignor...

資料預處理方法總結

資料是什麼？資料就是一組物件及其屬性的集合，其中屬性定義為物件的特徵或性質。真實資料在應用前基本都有經過預處理，以便在機器學習演算法中使用。本次資料預處理方法的總結是基於推薦系統設計進行展開的，其中包括相似度的度量方法抽樣以及降維技術這三個尤為重要的問題。d x y k 1 n xk yk 2 x...

資料預處理方法總結

資料是機器學習的原料，機器學習是通過對資料的訓練才得到某種特性的。因此正確的預處理資料對模型結果的輸出尤為重要。一資料可能存在的問題資料一開始可能有資料重複，資料缺失，資料存在異常值等情況。二資料預處理的步驟資料處理主要包括資料的清洗，資料的轉化.資料描述，特徵選擇和特徵抽取這幾個步驟。1 ...

資料預處理 框架總結篇

資料預處理總結1

資料預處理方法總結

資料預處理方法總結

相關推薦

資料預處理框架總結篇