機器學習之聚類學習筆記

聚類試圖將資料集中的樣本劃分為若干個通常是不相交的子集，每個子集稱為乙個"簇" (cluster)。

通過這樣的劃分，每個簇可能對應於一些潛在的概念(類別) ，如"淺色瓜" 「深色瓜」，「有籽瓜」「無籽瓜」，甚至"本地瓜""外地瓜"等。

這些概念對聚類演算法而言事先是未知的，聚類過程僅能自動形成簇結構，簇所對應的概念語義需由使用者來把握和命名。

聚類效能度量大致有兩類：

不同的距離量度會對距離的結果產生影響，常見的距離量度如下所示：

選擇k個點作為初始質心 repeat 將每個點指派到最近的質心，形成k個簇重新計算每個簇的質心 until 簇不發生變化或達到最大迭代次數

這裡的重新計算每個簇的質心，如何計算的是根據目標函式得來的，因此在開始時我們要考慮距離度量和目標函式。

考慮歐幾里得距離的資料，使用誤差平方和（sum of the squared error, sse）作為聚類的目標函式，兩次執行k均值產生的兩個不同的簇集，選擇sse最小的那個。

k表示k個聚類中心，ci表示第幾個中心，dist表示的是歐幾里得距離。

dbscan 是一種著名的密度聚類演算法，它基於一組"鄰域" (neigh- borhood) 引數 (e，minpts) 來刻畫樣本分佈的緊密程度。

dbscan 的原理是識別特徵空間的「擁擠」區域中的點，在這些區域中許多資料點靠近在一起，這些區域被稱為特徵空間中的密集(dense)區域。

**dbscan 有兩個引數:min_samples 和 eps。**如果在距乙個給定資料點 eps 的距離內至少有 min_ samples 個資料點，那麼這個資料點就是核心樣本。dbscan 將彼此距離小於 eps 的核心樣本放到同乙個簇中。

演算法流程：

演算法思想

最後，一共有三種型別的點:核心點、與核心點的距離在 eps 之內的點(叫作邊界點， boundary point)和雜訊。

層次聚類可以分為凝聚(agglomerative)層次聚類和**(divsive)層次聚類。

linkage :
, optional (default=」ward」)

優點缺點優點缺點

優點

缺點

機器學習筆記之K means聚類

k means聚類是聚類分析中比較基礎的演算法，屬於典型的非監督學習演算法。其定義為對未知標記的資料集，按照資料內部存在的資料特徵將資料集劃分為多個不同的類別，使類別內的資料盡可能接近，類別間的資料相似度比較大。用於衡量距離的方法主要有曼哈頓距離歐氏距離切比雪夫距離，其中歐氏距離較為常用。演算法...

機器學習之聚類

1.概念無監督學習無監督學習是機器學習的一種方法，沒有給定事先標記過的訓練示例，自動對輸入的資料進行分類或分群。無監督學習的主要運用包含聚類分析關係規則維度縮減。它是監督式學習和強化學習等策略之外的一種選擇。乙個常見的無監督學習是資料聚類。在人工神經網路中，生成對抗網路自組織對映和適應性...

機器學習筆記 kMeans聚類

優點容易實現。缺點可能收斂到區域性最小值，在大規模資料集上收斂較慢。適用資料型別數值型資料 k 均值演算法先隨機確定k個初始點作為質心，然後將資料集中的每個點分配到乙個簇中，具體來講為每個點找距其最近的質心，並將其分配給該質心所對應的簇。再每個簇更新質心為該簇所有點的平均值。import n...

機器學習之 聚類學習筆記

機器學習筆記之K means聚類

機器學習之聚類

機器學習筆記 kMeans聚類

相關推薦

機器學習之聚類學習筆記