ML讀書筆記（非監督學習）

a. kmeans

kmeans的損失函式，是假設每個簇符合方差相等的球星高斯分布，然後極大化似然概率，最小化負對數；

正因為各個簇的方差相同，所以預處理必須將資料各個維度歸一化，否則方差最大的維度對聚類結果會有絕對影響。

以最小化損失函式l為目的：聚類中心不動，找每個樣本最近的那個中心做他的類別，是為了最小化l; 所有樣本的類別確定了，找最優的聚類中心，也是為了最小化l;

受初值和離群點影響大：初值，可以用kmeans++這樣，後面的每個聚類中心都按離前面已定了的聚類中心的距離和，越大則選中概率越小；離群點：預處理過濾，或者用中位數做聚類中心（相當於把損失函式裡的l2距離變成了l1距離）；

易收斂到區域性最優解（一般情況下，區域性最優也夠用了）

k（聚類個數）的選擇：elbow法，橫軸是k，縱軸是聚類誤差，誤差下降變平緩那點，可選做k;

自動選k: 同樣是k個類個樣本，隨機生成的n個樣本聚類損失，減去真實的n個樣本的聚類損失，得到的"k-損失delta"曲線，在最高點處的k，可選做k;

收斂性證明，和em演算法乙個套路，先寫出極大似然的式子，然後找它的下限函式，找到乙個q分布讓原式子等於下限函式，然後最優化下限函式，依次迭代；

q等於p時，下限函式等於原函式；kmeans上此時q只有1個維度為1，其餘為0；把q帶入下限函式式子，化簡；

b. 高斯混合模型(gmm)

每個樣本是由1個mixture生成的；

p(x|引數) = 所有類別z之和_ = 所有類別z之和_;所謂mixutre的「權重」嚴格意義上是該mixture的先驗概率p(z|引數)

em演算法可以得到樣本屬於每一類的概率是多少（可用於分類，gesture分類器專案用的就是這個！）

c. 評估

kmeans聚類：聚類為球形分布，適合誤差平方和做評估；密度聚類：聚類不規則或球形纏繞，誤差平方和會失效；

先確定k，再評估質量

輪廓係數：點p到自己cluster其他點的平均距離越小，越好；點p到其他cluster所有點平均距離裡最小的乙個cluster的平均距離越大，越好；

均方根標準偏差(rmsstd): 所有樣本到自己cluster中心的l2平方和，除以樣本個數，除以維度數，開方；越小越好；

r方：所有樣本到自己cluster中心的誤差平方和越小越好，把所有樣本看成乙個cluster時的誤差平方和（也就是方差）越大越好；

人工構造不同種類的資料集，考察聚類演算法的應對好壞：

1. 觀察聚類誤差是否隨聚類類別數量的變化而單調製化；

2. 觀察離群點對聚類結果的影響；

3. 觀察近鄰資料團會不會被分到不同的cluster裡；

4. 觀察大團和小團差異明顯時，聚類效果；

5. 觀察樣本團裡的樣本數量具有較大差異時，聚類效果；