資料探勘概念與技術 讀書筆記(2)

2021-07-25 01:27:34 字數 1200 閱讀 6679

原書第三版

jiawei han   micheline kamber   jian pei 著

在進行資料探勘之前,首先需要準備好資料,熟悉資料。

乙個資料物件代表乙個實體,又稱樣本、例項、資料點或物件。

屬性是乙個資料字段,表示資料物件的乙個特徵,又稱維、特徵和變數。

二元屬性:一種標稱屬性(又稱布林屬性)

序數屬性:可能的值之間具有有意義的序。相繼值之間的差未知。

以上三種屬性都是定性的,即它們描述物件的特徵,而不給出實際大小或數量

比率標度屬性

離散屬性與連續屬性

把握資料的全貌

中位數(median):有序資料值的中間值

眾數(mode):集合中出現最頻繁的值

中列數(midrange):資料集中最大和最小值的平均值。

度量資料散布:極差、四分位數、方差、標準差和四分位數極差

盒圖:體現了五數概括

方差和標準差:指出資料分布的散步程度

資料的基本統計描述的圖形顯示

分位數-分位數圖(又稱q-q圖)

直方圖散點圖

通過圖形清晰有效地表達資料

幾何投影視覺化技術

理解多維空間的資料分布

基於圖符的視覺化技術

人物線條畫:把多維資料對映到5段人物線條畫上。每個畫都有四肢和乙個軀體。兩個維被對映到顯示軸,其餘維被對映到四肢角度和(或)長度。

層次視覺化技術:把所有維劃分成子空間,這些子空間按層次視覺化。

視覺化複雜物件和關係

相似性和相異性都稱為鄰近性

數值屬性的相異性

在某些情況下,計算距離之前資料應該規範化,試圖給所有屬性相同的權重

序數屬性的鄰近性度量

混合型別屬性的相異性

可能包含上面列舉了所有屬性型別

余弦相似性

自己加油加油 笨鳥後飛也要飛呀飛

資料探勘概念與技術 讀書筆記(1)

原書第三版 jiawei han micheline kamber jian pei 著 解決 資料豐富,但資訊貧乏 的問題。資料的 式增長,廣泛可用,巨大數量 資料時代 需要功能強大和通用的工具,從海量資料中發現有價值的資訊。從資料中挖掘知識。資料倉儲 事務資料 其他型別的資料 類 概念描述 特徵...

資料探勘概念與技術讀書筆記 二 認識資料

2.1 資料物件與屬性型別 2.1.1 什麼是屬性 2.1.2 標稱屬性 其值是一些符號或事物的名稱。每個值代表某種類別 編碼或狀態,因此標稱屬性又被看作是分類的。標稱屬性不是定量的,找出它的均值或中位數沒有意義,有意義的是找到眾數,是一種中心趨勢度量。2.1.3 二元屬性 是一種標稱屬性,只有兩個...

讀書筆記 資料探勘概念與技術 資料預處理

資料預處理的目的 提高資料質量,資料質量的三要素 準確性 完整性 一致性。資料預處理的任務 資料清理 填充缺失的值 光滑雜訊 識別離群點 糾正資料中的不一致 忽略元組 人工填寫缺失值 使用乙個全域性常量 使用屬性的中心度量 使用與給定元組屬同一類的所有樣本的屬性均值或中位數 使用最可能的值 最流行 ...