資料探勘概念與技術讀書筆記二認識資料

2.1 資料物件與屬性型別

2.1.1 什麼是屬性

2.1.2 標稱屬性：其值是一些符號或事物的名稱。每個值代表某種類別、編碼或狀態，因此標稱屬性又被看作是分類的。

標稱屬性不是定量的，找出它的均值或中位數沒有意義，有意義的是找到眾數，是一種中心趨勢度量。

2.1.3 二元屬性：是一種標稱屬性，只有兩個類別或狀態：0或1，也稱布林屬性。

二元屬性可以是對稱的：關於哪個結果應該用0或1並無偏好。

二元屬性可以是非對稱的：其狀態結果不是同樣重要的，如陽性或陰性。為方便計，將用1對重要的結果編碼，另乙個用0編碼。

2.1.4 序數屬性：其可能的值之間具有有意義的序或秩評定，但是相繼值之間的差是未知的。比如，大、中、小；優、良、中、及格；很不滿意、不太滿意、中性、滿意、很滿意。

序數屬性的中心趨勢可以用它的眾數和中位數表示，但不能定義均值。

2.1.5 數值屬性：可以是區間標度或比率標度

1.區間標度屬性：用相等的單位尺度度量。區間屬性的值有序，可以為正、0或負。可以計算中位數和眾數，還可以計算均值。

2.比率標度屬性：是具有固有零點的數值屬性。可以計算差、均值、中位數和眾數。

2.1.6 離散屬性與連續屬性

2.2 資料的基本統計描述

2.2.1 中心趨勢度量：均值、中位數和眾數

均值：對極端值過於敏感

加權算術均值或加權平均：

截尾均值：丟棄高低極端值後的均值。

中位數：有序資料值的中間值。

眾數：中列數：最大和最小值的平均值

正傾斜：眾數出現在小於中位數的值上。

負傾斜：眾數出現在大於中位數的值上。

2.2.2 度量資料散布：極差、四分位數、方差、標準差和四分位數極差

1.極差、四分位數和四分位數極差

極差：最大值與最小值之差

分位數：把資料劃分成基本大小相等的連貫集合。

四分位數：分成4部分。

百分位數：分成100個大小相等的連貫集。

第乙個四分位數：q1，第25個百分位數

第三個四分位數：q3，第75個百分位數

四分位數極差iqr：q3-q1

2.五數概括、盒圖與離群點

識別可疑離群點的通常規則：挑選落在第3個四分位數之上或第1個四分位數之下1.5*iqr處的值。

五數概括：中位數，q1，q2，最小和最大值。

3.方差和標準差

低標準差意義資料觀測趨向於非常靠近的均值，而高標準差表示資料散布在乙個大的值域中。

標準差方差

2.2.3 資料的基本統計描述的圖形顯示

1.分位數圖

2.分位數-分位數圖

3.直方圖：

4.散點圖：確定兩個數值變數之間看上去是否存在聯絡、模式或趨勢的最有效圖形方法之一。

2.3 資料視覺化

2.4 度量資料的相似性和相異性

2.4.1 資料矩陣與相異性矩陣

2.4.2 標稱屬性的鄰近性度量

不匹配率：d(i,j)=(p-m)/p　　p是刻畫物件的屬性總數，m是匹配的數目

相似性：sim(i,j)=1-d(i,j)=m/p

2.4.3 二元屬性的鄰近性度量

r：i中取1，j中取0的屬性數

s：i中取0，j中取1的屬性數

q：i,j中都取1的屬性數

t：i,j中都取0的屬性數

對稱的二元相異性：d(i,j)=(r+s)/(q+r+s+t)

非對稱的二元相異性：d(i,j)=(r+s)/(q+r+s)

非對稱的二元相似性：sim(i,j)=q/(q+r+s)=1-d(i,j)，也稱為jaccard係數

2.4.4 數值屬性的相異性：閔可夫斯基距離

歐幾里得距離：

加權的歐幾里得距離：

曼哈頓距離：

它們具有如下數學性質：

非負性：

同一性：物件到自身的距離是0

對稱性：距離是乙個對稱函式

三角不等式：從物件i到物件j的直接距離不會大於途徑任何其他物件k的距離。

閔可夫斯基距離：

2.4.5 序數屬性的鄰近性度量

2.4.6 混合型別屬性的相異性

2.4.7 余弦相似性

上確界距離（切比雪夫距離）

習題：r語言版

2.2 假設所分析的資料報括屬性age，它在資料元組中的值為13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70

a)均值？中位數？

b)眾數？

c)中列數？

d)q1,q3？

e)五數？

f)盒圖？

#出迴圈後i+1為中位數區間所在下標，即20~50

20+((sum(data)/2+sum)/data[i+1])*30

2.4

age
)fat
)mean(age)
median(age)
sd(age)
mean(fat)
median(fat)
sd(fat)
barplot(table(age))
barplot(table(fat))
plot(age,fat)
qqplot(age,fat)

2.6

v1
)sqrt(sum((v1-v2)^2
)) #歐幾里德
sum(abs(v1-v2)) #曼哈頓距離
(sum(abs(v1-v2)^3))^(1/3
) #閔可夫斯基
max(abs(v1-v2)) #上確界距離

2.8a)

a1
)dataxm
ucofor(i in
1:nrow(data))
rank(e)
rank(m)
rank(u)
rank(co)

資料探勘概念與技術讀書筆記（1）

原書第三版 jiawei han micheline kamber jian pei 著解決資料豐富，但資訊貧乏的問題。資料的式增長，廣泛可用，巨大數量資料時代需要功能強大和通用的工具，從海量資料中發現有價值的資訊。從資料中挖掘知識。資料倉儲事務資料其他型別的資料類概念描述特徵...

資料探勘概念與技術讀書筆記（2）

原書第三版 jiawei han micheline kamber jian pei 著在進行資料探勘之前，首先需要準備好資料，熟悉資料。乙個資料物件代表乙個實體，又稱樣本例項資料點或物件。屬性是乙個資料字段，表示資料物件的乙個特徵，又稱維特徵和變數。二元屬性一種標稱屬性又稱布林屬性序...

讀書筆記資料探勘概念與技術資料預處理

資料預處理的目的提高資料質量，資料質量的三要素準確性完整性一致性。資料預處理的任務資料清理填充缺失的值光滑雜訊識別離群點糾正資料中的不一致忽略元組人工填寫缺失值使用乙個全域性常量使用屬性的中心度量使用與給定元組屬同一類的所有樣本的屬性均值或中位數使用最可能的值最流行 ...

資料探勘概念與技術讀書筆記 二 認識資料

資料探勘概念與技術 讀書筆記（1）

資料探勘概念與技術 讀書筆記（2）

讀書筆記 資料探勘概念與技術 資料預處理

相關推薦

資料探勘概念與技術讀書筆記二認識資料

資料探勘概念與技術讀書筆記（1）

資料探勘概念與技術讀書筆記（2）

讀書筆記資料探勘概念與技術資料預處理