201119西瓜書系列部落格 9 聚類任務

9.1、聚類任務；9.2、效能度量；9.3、距離計算

9.4、原型聚類：以原型方式聚類

9.5、密度聚類：以密度方式聚類

9.6、層次聚類：以層次方式聚類聚類試圖將資料集中的【樣本劃分為若干個通常是不相交的子集】，每個子集稱為乙個簇(cluster)。但需注意的是，聚類過程僅能自動形成簇結構，簇所對應的概念語義需由使用者來把握和命名。

聚類【既能作為乙個單獨的過程】，用於尋找資料內在的分布結構，【也可作為分類等其他學習任務的前驅過程】。聚類效能度量也稱【聚類有效性指標(validity index)】，與監督學習中的【效能度量】作用類似。

對於聚類，一般通用的度量標準為「物以類聚」，即：【簇內相似度高且簇間相似度低】。【有序屬性】：如，「小」與「中」較近，與「大」較遠。顯然，閔可夫斯基距離可用於有序屬性。

【無序屬性】：如這樣的離散屬性則不能直接在屬性上直接計算距離，稱為無序屬性。

【混合屬性（有序+無序：閔可夫斯基距離和vdm結合）】原型：【樣本空間中具有代表性的點】

原型聚類也稱基於原型的聚類(prototype-based clustering)，【此類演算法假設聚類結構能通過一組原型刻畫】。採用不同的原型表示、不同的求解方式，將產生不同的演算法。學習向量量化（learning vector quantization,lvq）同k-means聚類類似，也是試圖【找到一組原型向量來刻畫聚類結構】。

不同的是，lvq針對於【帶有類別標記的資料樣本】，學習過程利用【樣本的監督資訊】（類別標記）來輔助聚類。與k-means、lvq用原型向量來刻畫聚類結構不同，高斯混合聚類採用【概率模型】來表達聚類原型。密度聚類也稱【基於密度的聚類】，此類演算法假設聚類結構能通過【樣本分佈的緊密程度確定】（原型聚類是假設聚類結構能夠通過一組【原型刻畫】）。

通常情況下，密度聚類演算法【從樣本密度角度】來考察樣本間的【可連線性】（密度直達，密度可達，密度相連），並基於可連線樣本來不斷拓展聚類簇。層次聚類試圖在【不同層次】對資料集進行劃分，從而形成【樹形的聚類結構】。

對於資料集的劃分，層次聚類通常有兩種策略：【自底向上的聚合策略】、【自上而下的分拆策略】**或參考：

201119西瓜書系列部落格 9 聚類任務

201119西瓜書系列部落格 1 緒論

201119西瓜書系列部落格 5 神經網路

201119西瓜書系列部落格 13 半監督學習

201119西瓜書系列部落格 9 聚類任務

201119西瓜書系列部落格 1 緒論

201119西瓜書系列部落格 5 神經網路

201119西瓜書系列部落格 13 半監督學習

相關推薦