第五章 非監督學習

2022-03-10 03:12:38 字數 2120 閱讀 8514

0 寫在前面

前兩天多看了兩章一直都沒更新,今天寫的時候發現有些忘了,剛好撿起來回顧一下,近來也沒什麼事,興趣來了就在圖書館泡一天看看自己喜歡的。再次重複下,這是第一遍,加之基礎不好,明年才有可能出去實習,現在主要看看大概的知識框架,後續還會回頭細看。扯遠啦,步入正題。

相比於監督學習,非監督學習的輸入資料沒有標籤資訊,需要通過演算法模型來挖掘資料內在的結構和模式。非監督學習主要包括兩大類學習方法:資料聚類和特徵變數關聯。

1 k均值聚類

分類問題屬於監督學習範疇,而聚類則是非監督學習。k-mean演算法屬於最基礎和最常用的聚類演算法。基本思想是,通過迭代方式尋找k個簇的一種劃分方案,使得聚類結果對應的代價函式最小。

q1:簡述k-means演算法的具體步驟

a1:詳見p93

q2:k-means演算法的優缺點是什麼?如何對其進行調優?

a2:k-means演算法有一些缺點,例如受初值和離群點的影響每次的結果不穩定、結果通常不是全域性最優而是區域性最優解、無法很好地解決資料簇分布差別比較大的情況,不太適用於離散分類等。

k-means演算法的調優一般可以從以下幾個角度出發。

(1)資料歸一化處理和離群點處理

(2)合理選擇k值

(3)採用核函式

詳見p95-97

q3:針對k-means演算法的缺點,有哪些改進的模型?

a3:k-means主要的缺點如下:

(1)需要人工宇軒確定初始k值,且該值和真實的資料分布未必吻合。

(2)k-means只能收斂到區域性最優,效果收到初始值很大

(3)易受到噪點的影響

(4)樣本點只能被劃分到單一的類中。

改進的模型有:

k-means++:主要是對k-means的初始值的改進

isodata演算法:isodata的全稱是迭代自組織資料分析法。對高緯度、海量的資料集問題,進行改進。詳見p98

q4:證明k-means演算法的收斂性(較難)

a4:證明過程需要用到em演算法,詳見p99-101

2 高斯混合模型

高斯混合模型也是一種常見的聚類演算法,與k-means演算法類似。高斯混合模型假設每個簇的資料都是符合高斯分布的,當前資料呈現的分布就是各個簇的高斯分布疊在一起的結果。

q1:高斯混合模型的核心思想是什麼?它是如何迭代計算的?

a1:高斯混合模型的核心思想是,假設資料可以看作從多個高斯分布中生成出來的。

高斯混合模型與k-means演算法的相同點是,它們都是可用於聚類的演算法;都需要指定k值;都是使用em演算法來求解;都往往只能收斂於區域性最優。而它相比於k-means演算法的優點是,可以給出乙個樣本屬於某類的概率是多少;不僅僅可以用於聚類,還可以用於概率密度的估計;並且可=可以用於生成新的樣本點。

3 自組織對映神經網路

自組織對映神經網路(som)是無監督學習方法中的一類重要方法,可以用作聚類、高維視覺化、資料壓縮、特徵提取等多種用途。

q1:自組織對映神經網路是如何工作的?它與k-means均值演算法有何區別?

a1:自組織神經網路本質上是一兩層的神經網路,包含輸入層和輸出層(競爭層),詳細介紹見p106-108

自組織對映神經網路與k-means演算法的區別如下:

(1)k-means演算法需要實現定下類的個數,也就是k的值。而自組織對映神經網路則不用,隱藏層中的某些解點可以沒有任何輸入資料屬於它,因此聚類結果的實際簇數可能會小於神經元的個數。而k-means演算法受k值設定的影響更大一些

(2)k-means演算法為每個輸入資料找到乙個最相似的類別後,只更新這個類別的引數;自組織對映神經網路則會更新臨近的節點。所以,k-means受雜訊資料的影響較大,而自組織對映神經網路的準確性可能比k-means低(因為頁更新了臨近節點)

(3)相比較而言,自組織神經網路的視覺化比較好,而且具有優雅的拓撲關係圖。

q2:怎樣設計自組織對映神經網路並設定網路訓練引數?

a2:設定輸出層神經元的數量、設計輸出層節點的排列、初始化權值、設計拓撲領域、設計學習率

4 聚類演算法的評估

q1:以聚類問題為例,假設沒有外部標籤資料,如何評估兩個聚類演算法的優劣?

a1:以中心定義的資料簇、以密度定義的資料簇、以聯通定義的資料簇、以概念定義的資料簇   (太多了  詳見p111-115)

小結:這一章整體來說比較難,涉及到概念較多,數學推導也比較複雜,暫時不做過多**,後續可做深入研究。

監督學習和非監督學習

重新看一遍ng的機器學習課程,第一次寫讀書筆記,希望能夠堅持下來!對於監督學習,首先來看乙個例子,如下圖.圖中的資料來自r語言中的boston資料集,其中lstat軸表示地位較低的人口比重,medv軸表示median value of owner occupied homes in 1000s。如果...

監督學習和非監督學習

監督學習 監督學習就是分類,把人們已經處理好的訓練樣本 即已知資料和對應輸出 給計算機,計算機通過規律訓練出乙個最佳模型,再用這個模型對輸入的資料進行分類,得出對應的輸出。從而使計算機具有對未知資料進行分類的功能。特點 目標明確 需要帶標籤的訓練樣本 分類效果很容易評估 非監督學習 非監督學習沒有訓...

監督學習和無監督學習 監督學習與非監督學習

監督學習 supervised learning 的任務是學習乙個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出乙個好的 即 利用訓練資料集學習乙個模型,再用模型對測試樣本集進行 例如kaggle上的鐵達尼號比賽。官方提供旅客資料 資料集1 姓名,年齡,性別,社會經濟階層,是否生存等 要求參賽...