資料探勘概念與技術

2022-09-13 18:51:07 字數 1172 閱讀 6619

在現實社會中的資料往往存在雜訊資料、缺失值和不一致資料的問題。為了提高資料探勘工作的效率和準確性,需要使用資料清理、資料整合、資料歸約和資料變換等方法對資料進行預處理操作。

資料質量的三個要素是:準確性、完整性和一致性

資料清理試圖填充缺失值、光滑雜訊並識別離群點、糾正資料中的不一致。

忽略元組。(該方法比較暴力,在缺失幾個欄位時,直接摒棄這行資料記錄)

人工填寫缺失值。

使用乙個全域性常量填充缺失值。(例如,統一替換缺失的值為null)

利用屬性的中心度量(平均值/中位數)填充缺失值。 (例如,某位雇員的年收入字段缺失,利用所有雇員的年收入平均值後者中位數填充)

使用與給定元組同一類的所有樣本的屬性均值或者中位數填充。(相比4更加合理,例如雇員的職位是基礎工程師,那麼拿所有基礎工程師的年收入均值或者中位數填充)

使用最可能的值填充。(獲得最可能的值的方法,包括使用回歸、貝葉斯形式化的方法基於推理工具或者決策樹歸納)

雜訊資料是被測量的變數的隨機誤差或方差。下面列舉了一些「資料光滑」的技術。

1.分箱方法:

分箱方法通過考察資料的周圍的值來光滑有序資料值。下邊圖表示了「用箱均值」 和 「用箱邊界」 兩種光滑手段,將有序的9個數字排序後放入3個箱子內。

2.回歸:

用乙個函式擬合資料來光滑資料。例如,線性回歸是指找到擬合兩個屬性的最佳直線。

3.離群點分析:

通過聚類來檢測離群點,一般認為,落在簇之外的點就是離群點。

資料清理過程的第一步是偏差檢測。如果進行偏差檢測呢? 首先應該了解元資料資訊。例如,了解某個資料屬性的均值、中位數、標準差等。第2步就是資料變換(糾正偏差)了,可以使用專門的工具,或者etl來完成轉換步驟。

資料整合式合併來自多個資料來源的資料,有效的資料整合可以減少資料集的冗餘和不一致問題。

1. 實體識別問題:來自多個源的的等價實體如何才能夠匹配上 ?

2. 資料冗餘問題:

資料探勘概念與技術 文字挖掘

1 文字檢索的基本度量 color red 準確率和召回率 color url 2 文字檢索方法 color red 向量空間模型 color url 3 文字索引技術 color red 1 倒排索引 color 一種索引結構,維持兩個雜湊索引表document table 文件表 和term t...

資料探勘概念與技術筆記

1.什麼是資料探勘?資料探勘是從大量資料中提取或 挖掘 知識,很多人也把資料探勘視作 資料庫中的知識發現 kdd 資料探勘的步驟包括 2.什麼是資料倉儲?資料倉儲是乙個從多個資料來源收集的資訊儲存,存放在乙個一致的模式下,並通常駐留在單個站點。通俗講,資料倉儲是通過資料清理 資料變換 資料整合 資料...

《資料探勘概念與技術》書記 1

有感知識點 資料探勘又稱資料中的知識發現 kdd 知識發現過程主要由以下步驟的迭代序列組成 資料清理 消除雜訊和刪除不一致資料等 資料整合 多種資料來源可以組合在一起 資料選擇 從資料庫中提取與分析任務相關的資料 資料變化 通過彙總或聚集操作,把資料變換和統一成適合挖掘的形式 資料探勘 基本步驟,使...