讀書筆記 資料探勘概念與技術 資料預處理

2021-09-09 01:23:09 字數 392 閱讀 8280

資料預處理的目的:提高資料質量,資料質量的三要素:準確性、完整性、一致性。

資料預處理的任務:

資料清理——填充缺失的值、光滑雜訊、識別離群點、糾正資料中的不一致

忽略元組

人工填寫缺失值

使用乙個全域性常量

使用屬性的中心度量

使用與給定元組屬同一類的所有樣本的屬性均值或中位數

使用最可能的值(最流行)

分箱 回歸 離群點分析

資料整合——合併來自多個資料儲存的資料

資料規約——得到資料集的規約表示,但仍接近於保持原始資料的完整性

維歸約

數量規約

資料壓縮

資料變換與資料離散化——資料被變換或統一成適合於挖掘的形式,更容易理解

讀書筆記 資料探勘概念與技術 資料預處理

資料預處理的目的 提高資料質量,資料質量的三要素 準確性 完整性 一致性。資料預處理的任務 資料清理 填充缺失的值 光滑雜訊 識別離群點 糾正資料中的不一致 忽略元組 人工填寫缺失值 使用乙個全域性常量 使用屬性的中心度量 使用與給定元組屬同一類的所有樣本的屬性均值或中位數 使用最可能的值 最流行 ...

資料探勘概念與技術 讀書筆記(1)

原書第三版 jiawei han micheline kamber jian pei 著 解決 資料豐富,但資訊貧乏 的問題。資料的 式增長,廣泛可用,巨大數量 資料時代 需要功能強大和通用的工具,從海量資料中發現有價值的資訊。從資料中挖掘知識。資料倉儲 事務資料 其他型別的資料 類 概念描述 特徵...

資料探勘概念與技術 讀書筆記(2)

原書第三版 jiawei han micheline kamber jian pei 著 在進行資料探勘之前,首先需要準備好資料,熟悉資料。乙個資料物件代表乙個實體,又稱樣本 例項 資料點或物件。屬性是乙個資料字段,表示資料物件的乙個特徵,又稱維 特徵和變數。二元屬性 一種標稱屬性 又稱布林屬性 序...