《資料探勘概念與技術》書記 3

2021-09-04 11:51:05 字數 1798 閱讀 8532

歡迎來到現實世界!

資料預處理技術:

這些技術不是互相排斥的,可以一起使用。資料清理可能涉及糾正錯誤資料的變換。

資料質量包括準確性、完整性、一致性、時效性、可信性和可解釋性

現實是你希望使用資料探勘技術分析的資料時不完整的(缺少屬性值或某些感興趣的屬性,或僅包含聚集資料)、不正確的或含雜訊的(包含錯誤或存在偏離期望的值),並且是不一致的(用於商品分類的部分編碼存在差異)。

welcome to true world!

接下來分析一下原因,從而找到解決方法:

資料特性

原因描述

非準確性

收集資料的裝置出故障;當使用者不想提交個人資訊時,可能故意向強制輸入字段輸入不正確的值(生日1月1日);由於命名約定或輸入字段格式不一致;

具有不正確的屬性值

非完整性

輸入時被忽略;相關資料沒有記錄,可能是裝置故障;歷史或修改的資料可能被忽略;

存在缺失值

非一致性

屬性定義不同;例如市場評估標準不同;同一數值屬性名不同;

存在冗餘

非時效性

資料未能及時更新;月底資料未能及時更新影響評估效果;

不能及時更新

非可信性

資料被人為更改,導致結果;

反映有多少資料是使用者信賴的

非可解釋性

部門之間的資料具有個性;例如,資料使用了會計編碼,但銷售部門無法理解;

反映資料是否容易理解

資料清理

通過填寫缺失值,光滑雜訊資料,識別或刪除離群點,並解決不一致性來「清理」資料。致力於避免被建模的函式過分擬合資料。

資料整合

代表同一概念的屬性在不同的資料庫中可能具有不同的名字,導致不一致性和冗餘。通常,在為資料倉儲準備資料時,資料清理和整合作為預處理步驟進行。還可以再次進行資料清理,檢測和刪去可能由整合導致的冗餘。

資料規約

面對資料量巨大的資料,如果降低資料集的規模,而又不損害資料探勘的結果呢?

資料變換

總之,現實世界的資料一般是髒的、不完整的和不一致的。資料預處理技術可以改進資料的質量,從而有助於提高其後的挖掘過程的準確率和效率。由於高質量的決策必然依賴於高質量的資料,因此資料預處理是知識發現過程的重要步驟。檢測資料異常,盡早地調整資料,並規約待分析的資料,將為決策帶來高回報。

缺失值

忽略元組

人工填寫缺失值

使用乙個全域性常亮填充缺失值:unknown

使用屬性的中心度量(均值或中位數)填充缺失值:是否傾斜

使用與給定元組屬同一類的所有樣本的屬性均值或中位數

使用最有可能的值填充:使用回歸、貝葉斯、決策樹**。(最科學)

雜訊資料

雜訊:被測量的變數的隨機誤差或方差。

實體識別問題

當乙個資料庫的屬性與另乙個資料庫的屬性匹配時,必須特別注意資料的結構。旨在確保源系統中的函式依賴和參照約束與目標系統中的匹配。

在乙個系統中,discount可能用於訂單,但在另外乙個系統中,它用於訂單中的商品。

冗餘和相關分析

冗餘:乙個屬性如果能由另乙個或另一組屬性「匯出」,則該屬性冗餘。

標稱資料的卡方檢驗

數值資料的相關係數

數值資料的協方差

《資料探勘概念與技術》書記 1

有感知識點 資料探勘又稱資料中的知識發現 kdd 知識發現過程主要由以下步驟的迭代序列組成 資料清理 消除雜訊和刪除不一致資料等 資料整合 多種資料來源可以組合在一起 資料選擇 從資料庫中提取與分析任務相關的資料 資料變化 通過彙總或聚集操作,把資料變換和統一成適合挖掘的形式 資料探勘 基本步驟,使...

資料探勘概念與技術

在現實社會中的資料往往存在雜訊資料 缺失值和不一致資料的問題。為了提高資料探勘工作的效率和準確性,需要使用資料清理 資料整合 資料歸約和資料變換等方法對資料進行預處理操作。資料質量的三個要素是 準確性 完整性和一致性。資料清理試圖填充缺失值 光滑雜訊並識別離群點 糾正資料中的不一致。忽略元組。該方法...

資料探勘概念與技術 文字挖掘

1 文字檢索的基本度量 color red 準確率和召回率 color url 2 文字檢索方法 color red 向量空間模型 color url 3 文字索引技術 color red 1 倒排索引 color 一種索引結構,維持兩個雜湊索引表document table 文件表 和term t...