資料科學之機器學習10 聚類分析1

note：聚類的劃分：

根據分類物件的不同，可以分為：q型聚類分析和r型聚類分析。q型是指對樣品物件進行聚類；而r型則是對變數(屬性)進行聚類。

一、相似性的度量

除了使用有序尺度變數（將屬性劃分為一級、二級等等的有次序關係的量來表示）和名義尺度變數（使用既沒有等級關係，又不存在數量關係的量來表示。比如男女）之外，一般採用的測量尺度的方式就是間隔尺度變數。

間隔尺度變數即是使用連續的量來表示測量尺度，一般都是連續型的，比如歐式距離、重量等等。一般來講，在應對q型聚類時會使用距離去度量；而對r型聚類來說，則會使用相似係數這種方式去度量。下面來分別看一看：

a. 距離

首先，距離必須是非負的。即：dij

⩾0,∀

i,j ;

對於相同取值的樣品，之間的距離必須為0。即：dij

=0，當且僅當，第i個樣品與第j個樣品的各變數值相同；

i樣品到j樣品的距離與j樣品到i樣品的距離相等。即：dij

=dji

,∀i,

j ；

滿足：dij

⩽dik

+dkj

,∀i,

j,k 。

下面就來看看常用的距離定義，首先看看最常用的minkowski距離：

(1). minkowski距離di

j(q)

=[∑k

=1p∣

xik−

xjk∣

q]1/

觀察這個距離可以看到，當q=

2 時，上面定義的距離就是常用的歐氏距離。另外：

minkowski距離存在乙個問題，就是當變數的單位不同或者測量值範圍相差很大時，直接使用minkowski距離效果不佳。這個時候，應該先對資料進行標準化（就是減去均值除上標準差）之後再計算距離(這個後面還會說到)。

(2). lance距離(lance and williams)當x

ji>

0 時，定義第i個樣品到第j個樣品的距離為：di

j=∑k

=1p∣

xik−

xjk∣

xik+

xjk

從公式就可以看出來，這個距離與變數之間的單位沒有什麼關係；而且其對異常值也不敏感，因而適用於一些高度偏斜的資料。

(3). mahalanobis距離(馬氏距離)

上面的兩種距離都沒有考慮變數之間的相關性問題，馬氏距離就可以考慮到這個問題。但是由於馬氏距離定義的問題，在聚類分析中使用馬氏距離並不合適。但是這裡也還是給出馬氏距離的定義：di

j=(x

i−xj

)ts−

1(xi

−xj)

−−−−

−−√

其中xi=

(xi1

,…,x

ip)t

，xj=

(xj1

,…,x

jp)t

，s為樣本協方差陣。

注：為什麼說馬氏距離不適用與聚類分析呢？

聚類分析是無監督演算法中的一種，無監督演算法是什麼？無監督演算法是沒有先驗資訊的，所有的資料拿過來是沒有什麼目標資訊啊什麼的。沒有不同類之間的先驗資訊，那麼協方差陣s

就無法計算。因而，在實際聚類分析中，馬氏距離並不適用。

(4). 斜交空間距離di

j=[1

p2∑k

=1p∑

l=1p

(xik

−xjk

)(xi

l−xj

l)rk

l]1/

其中rkl

是變數x

k 與變數x

l 的相關係數。學過高等代數的應該可以很容易看明白這個定義。此外，當變數之間互不相關的時候，這裡的dij

=[di

j(2)

/p]m

inko

wski

，也就是退化到了歐氏距離（相差乙個常數倍）。

b. 相似係數

對變數進行聚類時，通常使用相似係數來考量其間的相似度。那麼相似係數的定義有需要滿足哪些條件呢？

完全相關。即：ci

j=±1

，當且僅當xi

=axj

+b;a

(≠0)

,b是常數；∣c

ij∣⩽1

,∀i,

j ；ci

j=cj

i,∀i,j。

下面看看常用的兩種相似係數：

(1). 夾角余弦變數x

i 和xj

的夾角余弦的定義為：ci

j=∑n

k=1x

kixk

j[(∑

nk=1

x2ki

)(∑n

k=1x

2kj)

]1/2

學過解析幾何應該很容易看出這個定義的含義所在，其實cij

=cosθi

j 。

(2). 相關係數ci

j=∑n

k=1(

xki−

xi¯¯

¯)(x

kj−x

j¯¯¯

)1/2

這裡的相關係數其實就是統計裡面通常所說的相關係數。其實，如果變數都是標準化了的，那麼夾角余弦就是相關係數，看出來了嗎？

小節**：

資料科學之機器學習10 聚類分析1

機器學習之聚類分析

機器學習 K means聚類分析

資料探勘之聚類分析學習筆記 2

資料科學之機器學習10 聚類分析1

機器學習之聚類分析

機器學習 K means聚類分析

資料探勘之聚類分析學習筆記 2

相關推薦