201119西瓜書系列部落格 9 聚類任務

2022-02-24 08:05:59 字數 1018 閱讀 4973

9.1、聚類任務;9.2、效能度量;9.3、距離計算

9.4、原型聚類:以原型方式聚類

9.5、密度聚類:以密度方式聚類

9.6、層次聚類:以層次方式聚類聚類試圖將資料集中的【樣本劃分為若干個通常是不相交的子集】,每個子集稱為乙個簇(cluster)。但需注意的是,聚類過程僅能自動形成簇結構,簇所對應的概念語義需由使用者來把握和命名。

聚類【既能作為乙個單獨的過程】,用於尋找資料內在的分布結構,【也可作為分類等其他學習任務的前驅過程】。聚類效能度量也稱【聚類有效性指標(validity index)】,與監督學習中的【效能度量】作用類似。

對於聚類,一般通用的度量標準為「物以類聚」,即:【簇內相似度高且簇間相似度低】。【有序屬性】:如,「小」與「中」較近,與「大」較遠。顯然,閔可夫斯基距離可用於有序屬性。

【無序屬性】:如這樣的離散屬性則不能直接在屬性上直接計算距離,稱為無序屬性。

【混合屬性(有序+無序:閔可夫斯基距離和vdm結合)】原型:【樣本空間中具有代表性的點】

原型聚類也稱基於原型的聚類(prototype-based clustering),【此類演算法假設聚類結構能通過一組原型刻畫】。採用不同的原型表示、不同的求解方式,將產生不同的演算法。學習向量量化(learning vector quantization,lvq)同k-means聚類類似,也是試圖【找到一組原型向量來刻畫聚類結構】。

不同的是,lvq針對於【帶有類別標記的資料樣本】,學習過程利用【樣本的監督資訊】(類別標記)來輔助聚類。與k-means、lvq用原型向量來刻畫聚類結構不同,高斯混合聚類採用【概率模型】來表達聚類原型。密度聚類也稱【基於密度的聚類】,此類演算法假設聚類結構能通過【樣本分佈的緊密程度確定】(原型聚類是假設聚類結構能夠通過一組【原型刻畫】)。

通常情況下,密度聚類演算法【從樣本密度角度】來考察樣本間的【可連線性】(密度直達,密度可達,密度相連),並基於可連線樣本來不斷拓展聚類簇。層次聚類試圖在【不同層次】對資料集進行劃分,從而形成【樹形的聚類結構】。

對於資料集的劃分,層次聚類通常有兩種策略:【自底向上的聚合策略】、【自上而下的分拆策略】**或參考:

201119西瓜書系列部落格 1 緒論

要善於憑藉,這樣萬利無害通常假設樣本空間中全體樣本服從某個未知分布,我們獲得的每個樣本都是獨立地從這個分布上取樣獲得的 即 獨立同分布 一般而言 訓練樣本越多 得到關於該未知分布的資訊越多 越可能獲得具有強泛化能力的模型 歸納 特殊 一般的 泛化 generalization 過程 從具體事實歸結出...

201119西瓜書系列部落格 5 神經網路

5.2 感知機與多層網路 5.3 誤差逆傳播演算法 5.4 全域性最小與區域性極小 5.5 深度學習 operatorname x left end right.階躍函式具有 不連續不光滑等 不太好的性質,因此實際常用sigmoid函式作為啟用函式。感知機 perceptron 由 兩層神經元 組成...

201119西瓜書系列部落格 13 半監督學習

主動學習仍需互動 顯然,主動學習需要與外界進行互動 查詢 打標,其本質上仍然屬於一種監督學習。無標記資料其實大有裨益 事實上,無標記樣本雖未包含標記資訊,但它們與有標記樣本一樣都是 從總體中獨立同分布取樣得到 因此它們所包含的資料分布資訊對學習器的訓練大有裨益。自動利用未標記樣本便是半監督學習 讓學...