資料探勘概念與技術 讀書筆記(1)

2021-07-24 20:04:05 字數 1052 閱讀 9215

原書第三版

jiawei han     micheline kamber     jian pei  著

解決「資料豐富,但資訊貧乏」的問題。

資料的**式增長,廣泛可用,巨大數量  ——>資料時代——>   需要功能強大和通用的工具,從海量資料中發現有價值的資訊。

從資料中挖掘知識。

資料倉儲

事務資料

其他型別的資料

類/概念描述:特徵化與區分

資料特徵化:目標類資料的一般特性或特徵的彙總

資料區分:將目標類,與乙個或多個可比較類進行比較。

例如:定期購買電腦產品的客戶和不購買電腦產品的客戶進行比較。

挖掘頻繁模式、關聯和相關性

頻繁模式:在資料中頻繁出現的模式。

關聯分析(例如分析,哪些商品總是一起被購買)

相關性(相關聯的屬性-值對之間的統計相關性)

用於**分析的分類和回歸

相關分析可能需要在分類和回歸之前進行,它試圖識別與分類和回歸過程顯著相關的屬性。

聚類分析

聚類分析:分析資料物件,而不考慮類標號。可以使用聚類產生資料組群的類標號。

—>「最大化類內相似性,最小化類間相似性」

離群點分析

異常挖掘。有時看做雜訊而丟棄,但是在比如欺詐檢測等應用中,罕見事件的出現,更令人感興趣。

所有模式都是有趣的嗎?

客觀度量:支援度,置信度。

商務智慧型、web搜尋、生物資訊學、衛生保健資訊學、金融、數字圖書館……

使用者互動

有效性與可伸縮性

處理多種多樣的資料型別

資料探勘與社會

自己加油加油 笨鳥後飛也要飛呀飛

資料探勘概念與技術 讀書筆記(2)

原書第三版 jiawei han micheline kamber jian pei 著 在進行資料探勘之前,首先需要準備好資料,熟悉資料。乙個資料物件代表乙個實體,又稱樣本 例項 資料點或物件。屬性是乙個資料字段,表示資料物件的乙個特徵,又稱維 特徵和變數。二元屬性 一種標稱屬性 又稱布林屬性 序...

資料探勘概念與技術讀書筆記 二 認識資料

2.1 資料物件與屬性型別 2.1.1 什麼是屬性 2.1.2 標稱屬性 其值是一些符號或事物的名稱。每個值代表某種類別 編碼或狀態,因此標稱屬性又被看作是分類的。標稱屬性不是定量的,找出它的均值或中位數沒有意義,有意義的是找到眾數,是一種中心趨勢度量。2.1.3 二元屬性 是一種標稱屬性,只有兩個...

讀書筆記 資料探勘概念與技術 資料預處理

資料預處理的目的 提高資料質量,資料質量的三要素 準確性 完整性 一致性。資料預處理的任務 資料清理 填充缺失的值 光滑雜訊 識別離群點 糾正資料中的不一致 忽略元組 人工填寫缺失值 使用乙個全域性常量 使用屬性的中心度量 使用與給定元組屬同一類的所有樣本的屬性均值或中位數 使用最可能的值 最流行 ...