《西瓜書》筆記09 聚類

無監督學習：訓練樣本的標記資訊是未知的。目標是通過對無標記樣本的學習揭示資料內在性質，為進一步數學分析提供基礎。

此類學習任務中研究最多，應用廣泛的是聚類。

聚類：試圖將資料集中的樣本劃分為若干個通常互不相交的子集。每個子集稱為乙個簇（cluster）。

每個簇可能對應於一些潛在概念。這些概念對於聚類演算法而言事先未知。聚類過程僅能自動形成簇結構。簇所對應的概念語義需有使用者把握。

聚類可作為乙個單獨過程，也可作為分類等其他任務的先驅。比如商戶定義使用者型別不太容易，可先聚類根據結果將每個簇定義乙個類，再基於這些類訓練分類模型，用於判別新使用者。

聚類效能：評估聚類好壞。

直觀的：簇內相似度高，簇間相似度低。

大致分為兩類：

對資料集d，假定聚類給出的簇為c1

,c2,

...,

ck。參考模型給出乙個簇劃分c∗

。將樣本兩兩配對，我們定義四個集合：

匯出一些常用的聚類效能外部指標：

對於聚類結果的簇劃分，可有：

由上述推導出常用的聚類效能內部指標：

兩個向量i和j，最常用的是閔可夫斯基距離，即（i-j）的lp範數。

p = 1，曼哈頓距離

p = 2，歐氏距離

連續屬性，即數值屬性，可直接用距離計算。

離散屬性，即列名屬性，無序屬性，不能直接用閔可夫斯基距離計算。採用vdm（value difference metric），某屬性上取不同值時的所佔比例的差的lp範數。

基於原型的聚類。假設聚類結構能通過一組原型刻畫，所謂原型，指的是樣本空間具有代表性的點。

通常，此類聚類演算法先對原型初始化，然後對原型進行迭代更新求解。採用不同的原型表示，不同的求解方式，產生不同的演算法。

最小化平方誤差：e=

∑i=1

k∑x∈

ci||

x−x^

||22

下標2表示l2範數，根號下的平方和。右上角2表示去掉根號，則是平方和。

e刻畫了簇內樣本間的圍繞簇均值向量的緊密程度，e值越小簇內樣本值相似度越高。

最小化e是個np難問題。k均值演算法採用貪心策略，迭代優化來近似求解。

k-means演算法

輸入：樣本集d，聚類簇數k

輸出：簇劃分

過程：（1）從d中選擇k個樣本作為初始均值向量

（2）while（當前均值向量不更新時）

（2-1）遍歷各樣本，計算樣本與k個均值向量的距離。距離最小的均值向量確定樣本的簇標記。將樣本劃分至對應簇。

（2-2）遍歷k個簇。計算每個簇新的均值向量。如果不等於之前的則更新，否則保持不變。

直至各均值向量不再更新。或者達到最大執行輪數，或者最小調整閾值內。

lvq假設資料樣本帶有類別標記。學習時利用樣本的這些監督資訊來輔助聚類。

與k均值，lvq用原型向量來刻畫聚類結構不同，高斯混合聚類採用概率模型來表達聚類原型。

常採用em演算法進行迭代優化求解。

基於密度的聚類（density-based clustering）

假設聚類結構能通過樣本分佈的緊密程度（距離度量）確定。通常，密度聚類演算法從樣本密度的角度來考察樣本之間的可連線性，並基於可連線樣本不斷靠站聚類簇以獲得最終結果。

其基於一組鄰域引數，刻畫樣本分佈的緊密程度。

如上圖，虛線表示鄰域。令minpts=3，則x1是核心物件（鄰域至少包含min個樣本），鄰域內的點為密度直達點(x2)。通過密度直達的非相鄰點(x3)為密度可達點。若兩個點之間存在乙個點x1，分別可以密度可達這兩個點，則這兩點成為密度相連（x3,x4）。

dbscan將簇定義為：由密度可達關係匯出的最大的密度相連樣本集合。

即該簇內，任意兩點為密度相連。且能密度可達的點都包含進來了。

dbscan演算法：

輸入：樣本集d，鄰域引數（距離，minpts）

輸出：簇劃分

過程：（1）初始化核心物件集為空

（2）對樣本集物件遍歷。對每乙個點，確定其領域內的點個數，若大於min則加進核心物件。

（3）初始化簇數k=0，未訪問樣本集合d。

while（未訪問樣本集合為空）

隨機選擇乙個核心物件為種子，找出由他可密度可達的所有樣本，這就構成了第乙個聚類簇。然後將該聚類簇中的物件，從核心物件中去除。再從核心物件更新集中選擇種子生成下乙個聚類簇。

不斷重複，直至核心物件集為空，while結束。

可以想象，當簇比較緊密時，則演算法傾向於將其作為乙個簇，越緊密，好像密度越大，估計這就是名稱的來歷。簇若比較散，則除了鄰域，不會合併。

hierarchical clustering。不同層次上對資料集進行劃分，從而形成樹形的聚類結構。劃分可採用自底向上的聚合策略。也可採用自頂向下的分拆策略。

agnes（agglomerative nesting，成團的巢狀），自底向上聚合

先將每個樣本看做乙個初始聚類簇，然後演算法執行的每一步中找出距離最近的兩個聚類簇進行合併，不斷重複，直至達到預設的聚類簇個數。

如何計算兩個聚類簇之間的距離？每個簇是樣本集合，採用關於集合的某種距離即可。

兩個簇的最小距離：紅線

兩個簇的最大距離：黑線

兩個簇的平均距離：兩邊全連線[4*4]後算平均（sum_dist/[4*4]）

三種距離下，agnes分別稱為單鏈結，全鏈結，均鏈結演算法。

聚類的新演算法出現最多，最快。其不存在客觀標準。

西瓜書筆記3

續上一章的模型和模型評估後，這個線性模型是乙個具體模型。它的優點在於簡單易建，能夠作為非線性非線性模型的基礎。而它的本質就是應用函式進行資料的結果關於線性回歸，是對樣例特徵做線性加權，輸出結果，盡量使得結果和真實輸出值之間的均方誤差最小化。這裡涉及到乙個特徵屬性的量化問題，有些屬性可以直接量化...

西瓜書閱讀筆記1

根據已有的知識經驗，形成模型。並根據模型來感知未知的新事物的過程。身高體重膚色18070黃 17562 白18580黑樣本上面中，每一行就是乙個樣本。乙個樣本包含了一種事物的完整屬性，這些屬性不重複。資料集所有的樣本的總和，稱為資料集。特徵例如，身高就是一種特徵，膚色也是一種特徵。也可以...

西瓜書AdaBoost演算法筆記

adaboost 演算法有多種推導方式，比較容易理解的是基於加性模型 additive model 即基學習器的線性組合即每乙個個體學習器會有乙個用於累加的權值,該權值是根據個體學習器的準確性來確定的,通過最小化個體學習器的加權損失得來後面會推導演算法流程的推導過程 1 指數損失函式的可行...

《西瓜書》筆記09 聚類

西瓜書筆記3

西瓜書閱讀筆記1

西瓜書AdaBoost演算法筆記

相關推薦