cluster 聚類分析

聚類分析被稱之為unsupervised分析，乙個跟它相似的概念是分類(classification)模型，不同的是，分類模型預先知道一共有幾個類別，每個類別的定義是什麼，所以叫做supervised。聚類分析預先不知道目標分成哪幾類。往往在實際中，先用cluster分成一些類，然後有了這些類之後，可以再可以做classification分析，就是所謂的two steps analytisis.

聚類分析的演算法主要基於「距離」的計算。聚類之後的結果要盡量保證每個segment內部的物件之間距離要短， segment之間的距離要長。這篇部落格的內容總結自han jiawei的書，這本書可以在這篇部落格裡找到：分享讀書筆記data mining concepts and techniques

關於距離：

如果有n個物件，每個物件有p個屬性，那麼可以得到這樣乙個矩陣：

距離通常是用另乙個變形後的矩陣來做的：

其中d(2,1)表示第二個物件第乙個屬性和第乙個物件第乙個屬性之間的距離。

對於連續型變數(interval)的，通常要對資料預先做標準化「standardiz」，方式如下：

1. 算mean absolute deviation.

2. 得出標準度量(不知道怎麼翻譯，standardized measurement)

3.最後結果：

對於二值型(binary)的, 有兩種，一種是均衡型的（symmetric），另一種是非均衡型的(asymmetric),均衡指的是yes or no兩種狀態權重一樣。比如如果你沒有性別歧視的話，性別是均衡的二值變數。如果通過一系列症狀診斷乙個人是否生病了，yes比no的權重要大的多。

兩種形式都通過下面這個2x2的表來算距離：

對於均衡型的，

對於非均衡型的

對於類別型（categorical）的變數，比較簡單

where m is the number of matches (i.e., the number of variables for which i and j are

in the same state), and p is the total number of variables.

對於順序型（ordinal）的變數，要先把順序map成[0.0，1.0]之間的數，然後按interval的方式來算。直接上截圖，因為太多數學符號了

書上對每種計算基本都有例子。

關於聚類方法：

有partitioning, hierarchical, density-based, grid-based, model-based, clustering high-dimensional, constraint-based.

partitioning方法：

代表方法是k-means:

它的大致演算法是，選定k值（最後要分成多少組）後，任選k個object作為cluster的中心，然後對每個其他的物件計算離哪個中心最近，就歸到哪個cluster裡，最後從每個cluster中找到新的中心，然後這樣重複計算，直到聚類沒有變化為止。

hierarchical方法：

分 agglomerative和divisive兩種，前者是自底向上的，就是乙個乙個object merge出乙個segment,後者相反，自頂向下的。上面說的k-means方法有時候和hierarchical聯在一起用，因為k-means需要k作為引數，這個引數還挺重要的，極大影響了聚類的結果，可以先用hierarchical看看大致分幾類合理，然後再用k-means。

density-based方法：

基於距離的演算法segment都是類球形的，density-based克服了這個問題。他的理念基本上是，乙個物件為中心畫個圓，看看圈近來的物件過沒過threshold.

grid-based:

它是從上往下分層，底層grid粒度更細。它的特點是是scalability比較好。沒細看理論，但是看圖能感覺個大概。

constraint-based:

cluster 聚類分析

聚類分析（一）什麼是聚類分析

聚類分析（一）什麼是聚類分析

聚類分析筆記

cluster 聚類分析

聚類分析（一） 什麼是聚類分析

聚類分析（一） 什麼是聚類分析

聚類分析筆記

相關推薦

聚類分析（一）什麼是聚類分析

聚類分析（一）什麼是聚類分析