資料探勘概念與技術 學習筆記3 資料預處理

2021-06-19 01:45:11 字數 721 閱讀 3993

有大量的資料預處理技術:資料清理可以用來清除資料中的雜訊,糾正不一致。資料整合由多個資料來源合併成乙個一致的資料儲存,如資料倉儲。資料歸約可以通過如聚集刪除冗餘特徵或聚類來降低資料規模。資料變換可以用來把資料壓縮到較小區間。

資料清理:通過填寫缺失的值,光滑雜訊資料,識別或刪除離群點,解決不一致性來清理資料。

光滑雜訊資料方法(許多光滑資料的方法也用於資料離散化和資料歸約;有些分類方法如神經網路有內建的資料光滑機制):

離群點分析:

資料整合時可能產生冗餘資訊。資料整合時可再次進行資料清理,檢測和刪去可能由整合導致的冗餘。

冗餘和相關分析:乙個屬性可能其另乙個或幾個屬性匯出,則這個屬性可能是冗餘的。有些冗餘可被相關分析檢測到,這種分析可以根據可用的資料,度量乙個屬效能在多大程度上蘊涵另乙個。對於標稱資料,使用x2(卡方)檢驗;對於數值屬性,我們使用相關係數和協方差。

元組重複:除檢測屬性的冗餘外還應當在元組檢測重複。

資料值衝突的檢測與處理:如對於現實世界的同一實體,來自不同資料來源的屬性值可能不同,這可能是因為表示、尺度或編碼不同;屬性也可能在不同的抽象層,如乙個是省級,乙個是市級。

資料歸約:用來得到資料集的歸約表示,它小得多,但仍接近於保持原始資料的完整性。

資料變換:規範化(按比例對映到乙個較小區間,以使各屬性權重相近)、資料離散化和概念分層(屬性原始值被區間或較高層的概念取代,如原始年齡用青年、中年、老年代替)。

資料預處理的主要任務之間存在許多重疊

資料探勘概念與技術筆記

1.什麼是資料探勘?資料探勘是從大量資料中提取或 挖掘 知識,很多人也把資料探勘視作 資料庫中的知識發現 kdd 資料探勘的步驟包括 2.什麼是資料倉儲?資料倉儲是乙個從多個資料來源收集的資訊儲存,存放在乙個一致的模式下,並通常駐留在單個站點。通俗講,資料倉儲是通過資料清理 資料變換 資料整合 資料...

《資料探勘概念與技術》書記 3

歡迎來到現實世界!資料預處理技術 這些技術不是互相排斥的,可以一起使用。資料清理可能涉及糾正錯誤資料的變換。資料質量包括準確性 完整性 一致性 時效性 可信性和可解釋性。現實是你希望使用資料探勘技術分析的資料時不完整的 缺少屬性值或某些感興趣的屬性,或僅包含聚集資料 不正確的或含雜訊的 包含錯誤或存...

《資料探勘 概念與技術(第3版)》筆記(一)

內容包括 第一章 引論 四 並不是所有的模式都是有趣的 五 資料探勘演算法的完全性 六 資料探勘演算法的優化 七 使用的技術 八 面向應用的型別 九 資料探勘的主要問題 1.資料清洗 2.資料整合 3.資料選擇 4.資料變換 5.資料探勘 6.模式評估 7.知識表現 1.資料庫資料 2.資料倉儲 3...