資料探勘概念與技術讀書筆記 二 認識資料

2022-05-07 16:03:18 字數 3380 閱讀 1279

2.1 資料物件與屬性型別

2.1.1 什麼是屬性

2.1.2 標稱屬性:其值是一些符號或事物的名稱。每個值代表某種類別、編碼或狀態,因此標稱屬性又被看作是分類的。

標稱屬性不是定量的,找出它的均值或中位數沒有意義,有意義的是找到眾數,是一種中心趨勢度量。

2.1.3 二元屬性:是一種標稱屬性,只有兩個類別或狀態:0或1,也稱布林屬性。

二元屬性可以是對稱的:關於哪個結果應該用0或1並無偏好。

二元屬性可以是非對稱的:其狀態結果不是同樣重要的,如陽性或陰性。為方便計,將用1對重要的結果編碼,另乙個用0編碼。

2.1.4 序數屬性:其可能的值之間具有有意義的序或秩評定,但是相繼值之間的差是未知的。比如,大、中、小;優、良、中、及格;很不滿意、不太滿意、中性、滿意、很滿意。

序數屬性的中心趨勢可以用它的眾數和中位數表示,但不能定義均值。

2.1.5 數值屬性:可以是區間標度或比率標度

1.區間標度屬性:用相等的單位尺度度量。區間屬性的值有序,可以為正、0或負。可以計算中位數和眾數,還可以計算均值。

2.比率標度屬性:是具有固有零點的數值屬性。可以計算差、均值、中位數和眾數。

2.1.6 離散屬性與連續屬性

2.2 資料的基本統計描述

2.2.1 中心趨勢度量:均值、中位數和眾數

均值:對極端值過於敏感

加權算術均值或加權平均:

截尾均值:丟棄高低極端值後的均值。

中位數:有序資料值的中間值。

眾數:中列數:最大和最小值的平均值

正傾斜:眾數出現在小於中位數的值上。

負傾斜:眾數出現在大於中位數的值上。

2.2.2 度量資料散布:極差、四分位數、方差、標準差和四分位數極差

1.極差、四分位數和四分位數極差

極差:最大值與最小值之差

分位數:把資料劃分成基本大小相等的連貫集合。

四分位數:分成4部分。

百分位數:分成100個大小相等的連貫集。

第乙個四分位數:q1,第25個百分位數

第三個四分位數:q3,第75個百分位數

四分位數極差iqr:q3-q1

2.五數概括、盒圖與離群點

識別可疑離群點的通常規則:挑選落在第3個四分位數之上或第1個四分位數之下1.5*iqr處的值。

五數概括:中位數,q1,q2,最小和最大值。

3.方差和標準差

低標準差意義資料觀測趨向於非常靠近的均值,而高標準差表示資料散布在乙個大的值域中。

標準差方差

2.2.3 資料的基本統計描述的圖形顯示

1.分位數圖

2.分位數-分位數圖

3.直方圖:

4.散點圖:確定兩個數值變數之間看上去是否存在聯絡、模式或趨勢的最有效圖形方法之一。

2.3 資料視覺化

2.4 度量資料的相似性和相異性

2.4.1 資料矩陣與相異性矩陣

2.4.2 標稱屬性的鄰近性度量

不匹配率:d(i,j)=(p-m)/p  p是刻畫物件的屬性總數,m是匹配的數目

相似性:sim(i,j)=1-d(i,j)=m/p

2.4.3 二元屬性的鄰近性度量

r:i中取1,j中取0的屬性數

s:i中取0,j中取1的屬性數

q:i,j中都取1的屬性數

t:i,j中都取0的屬性數

對稱的二元相異性:d(i,j)=(r+s)/(q+r+s+t)

非對稱的二元相異性:d(i,j)=(r+s)/(q+r+s)

非對稱的二元相似性:sim(i,j)=q/(q+r+s)=1-d(i,j),也稱為jaccard係數

2.4.4 數值屬性的相異性:閔可夫斯基距離

歐幾里得距離:

加權的歐幾里得距離:

曼哈頓距離:

它們具有如下數學性質:

非負性:

同一性:物件到自身的距離是0

對稱性:距離是乙個對稱函式

三角不等式:從物件i到物件j的直接距離不會大於途徑任何其他物件k的距離。

閔可夫斯基距離:

2.4.5 序數屬性的鄰近性度量

2.4.6 混合型別屬性的相異性

2.4.7 余弦相似性

上確界距離(切比雪夫距離)

習題:r語言版

2.2 假設所分析的資料報括屬性age,它在資料元組中的值為13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70

a)均值?中位數?

b)眾數?

c)中列數?

d)q1,q3?

e)五數?

f)盒圖?

#出迴圈後i+1為中位數區間所在下標,即20~50

20+((sum(data)/2+sum)/data[i+1])*30

2.4

age

)fat

)mean(age)

median(age)

sd(age)

mean(fat)

median(fat)

sd(fat)

barplot(table(age))

barplot(table(fat))

plot(age,fat)

qqplot(age,fat)

2.6

v1

)sqrt(sum((v1-v2)^2

)) #歐幾里德

sum(abs(v1-v2)) #曼哈頓距離

(sum(abs(v1-v2)^3))^(1/3

) #閔可夫斯基

max(abs(v1-v2)) #上確界距離

2.8a)

a1

)dataxm

ucofor(i in

1:nrow(data))

rank(e)

rank(m)

rank(u)

rank(co)

資料探勘概念與技術 讀書筆記(1)

原書第三版 jiawei han micheline kamber jian pei 著 解決 資料豐富,但資訊貧乏 的問題。資料的 式增長,廣泛可用,巨大數量 資料時代 需要功能強大和通用的工具,從海量資料中發現有價值的資訊。從資料中挖掘知識。資料倉儲 事務資料 其他型別的資料 類 概念描述 特徵...

資料探勘概念與技術 讀書筆記(2)

原書第三版 jiawei han micheline kamber jian pei 著 在進行資料探勘之前,首先需要準備好資料,熟悉資料。乙個資料物件代表乙個實體,又稱樣本 例項 資料點或物件。屬性是乙個資料字段,表示資料物件的乙個特徵,又稱維 特徵和變數。二元屬性 一種標稱屬性 又稱布林屬性 序...

讀書筆記 資料探勘概念與技術 資料預處理

資料預處理的目的 提高資料質量,資料質量的三要素 準確性 完整性 一致性。資料預處理的任務 資料清理 填充缺失的值 光滑雜訊 識別離群點 糾正資料中的不一致 忽略元組 人工填寫缺失值 使用乙個全域性常量 使用屬性的中心度量 使用與給定元組屬同一類的所有樣本的屬性均值或中位數 使用最可能的值 最流行 ...