第五章非監督學習

0 寫在前面

前兩天多看了兩章一直都沒更新，今天寫的時候發現有些忘了，剛好撿起來回顧一下，近來也沒什麼事，興趣來了就在圖書館泡一天看看自己喜歡的。再次重複下，這是第一遍，加之基礎不好，明年才有可能出去實習，現在主要看看大概的知識框架，後續還會回頭細看。扯遠啦，步入正題。

相比於監督學習，非監督學習的輸入資料沒有標籤資訊，需要通過演算法模型來挖掘資料內在的結構和模式。非監督學習主要包括兩大類學習方法：資料聚類和特徵變數關聯。

1 k均值聚類

分類問題屬於監督學習範疇，而聚類則是非監督學習。k-mean演算法屬於最基礎和最常用的聚類演算法。基本思想是，通過迭代方式尋找k個簇的一種劃分方案，使得聚類結果對應的代價函式最小。

q1：簡述k-means演算法的具體步驟

a1：詳見p93

q2：k-means演算法的優缺點是什麼？如何對其進行調優？

a2：k-means演算法有一些缺點，例如受初值和離群點的影響每次的結果不穩定、結果通常不是全域性最優而是區域性最優解、無法很好地解決資料簇分布差別比較大的情況，不太適用於離散分類等。

k-means演算法的調優一般可以從以下幾個角度出發。

（1）資料歸一化處理和離群點處理

（2）合理選擇k值

（3）採用核函式

詳見p95-97

q3：針對k-means演算法的缺點，有哪些改進的模型？

a3：k-means主要的缺點如下：

（1）需要人工宇軒確定初始k值，且該值和真實的資料分布未必吻合。

（2）k-means只能收斂到區域性最優，效果收到初始值很大

（3）易受到噪點的影響

（4）樣本點只能被劃分到單一的類中。

改進的模型有：

k-means++：主要是對k-means的初始值的改進

isodata演算法：isodata的全稱是迭代自組織資料分析法。對高緯度、海量的資料集問題，進行改進。詳見p98

q4：證明k-means演算法的收斂性（較難）

a4：證明過程需要用到em演算法，詳見p99-101

2 高斯混合模型

高斯混合模型也是一種常見的聚類演算法，與k-means演算法類似。高斯混合模型假設每個簇的資料都是符合高斯分布的，當前資料呈現的分布就是各個簇的高斯分布疊在一起的結果。

q1：高斯混合模型的核心思想是什麼？它是如何迭代計算的？

a1：高斯混合模型的核心思想是，假設資料可以看作從多個高斯分布中生成出來的。

高斯混合模型與k-means演算法的相同點是，它們都是可用於聚類的演算法；都需要指定k值；都是使用em演算法來求解；都往往只能收斂於區域性最優。而它相比於k-means演算法的優點是，可以給出乙個樣本屬於某類的概率是多少；不僅僅可以用於聚類，還可以用於概率密度的估計；並且可=可以用於生成新的樣本點。

3 自組織對映神經網路

自組織對映神經網路（som）是無監督學習方法中的一類重要方法，可以用作聚類、高維視覺化、資料壓縮、特徵提取等多種用途。

q1：自組織對映神經網路是如何工作的？它與k-means均值演算法有何區別？

a1：自組織神經網路本質上是一兩層的神經網路，包含輸入層和輸出層(競爭層)，詳細介紹見p106-108

自組織對映神經網路與k-means演算法的區別如下：

（1）k-means演算法需要實現定下類的個數，也就是k的值。而自組織對映神經網路則不用，隱藏層中的某些解點可以沒有任何輸入資料屬於它，因此聚類結果的實際簇數可能會小於神經元的個數。而k-means演算法受k值設定的影響更大一些

（2）k-means演算法為每個輸入資料找到乙個最相似的類別後，只更新這個類別的引數；自組織對映神經網路則會更新臨近的節點。所以，k-means受雜訊資料的影響較大，而自組織對映神經網路的準確性可能比k-means低（因為頁更新了臨近節點）

（3）相比較而言，自組織神經網路的視覺化比較好，而且具有優雅的拓撲關係圖。

q2：怎樣設計自組織對映神經網路並設定網路訓練引數？

a2：設定輸出層神經元的數量、設計輸出層節點的排列、初始化權值、設計拓撲領域、設計學習率

4 聚類演算法的評估

q1：以聚類問題為例，假設沒有外部標籤資料，如何評估兩個聚類演算法的優劣？

a1：以中心定義的資料簇、以密度定義的資料簇、以聯通定義的資料簇、以概念定義的資料簇（太多了詳見p111-115）

小結：這一章整體來說比較難，涉及到概念較多，數學推導也比較複雜，暫時不做過多**，後續可做深入研究。

第五章非監督學習

監督學習和非監督學習

監督學習和非監督學習

監督學習和無監督學習監督學習與非監督學習

第五章 非監督學習

監督學習和非監督學習

監督學習和非監督學習

監督學習和無監督學習 監督學習與非監督學習

相關推薦

第五章非監督學習

監督學習和無監督學習監督學習與非監督學習