第九章 聚類 Clustering

2021-08-20 01:18:51 字數 774 閱讀 3929

(unsupervised learning)無監督學習:

訓練樣本的標記資訊是未知的,通過對無標記資料的訓練來找出資料內部所存在的規律以及性質.為進一步的資料分析打下基礎

1.知識點

聚類過程中會自動的形成簇結構,但是演算法對簇(cluster)沒有概念,這是在運算過程中自己出現的聚類現象,這個簇的名字需要自己來進行定義

聚類可作為乙個單獨的過程來完成,用於去尋找資料的內部性質及分布結構,當然也可以作為分類等其他學習任務的前驅過程.

當對資料的類不是很明確的時候,可以將資料先進行聚類,根據聚類結果將每個簇定義為乙個類,再基於這些類進行訓練分類模型

效能度量(performance measure)

效能度量也叫聚類的」有效性指標(validity index)」

物以類聚:

簇內相似度高,簇間相似度低.

距離計算(distance measure)

閔科夫斯基距離,這是一種最常用的距離

可以變形成歐式距離和曼哈頓距離(典型的街區距離公式)  這都是經典的距離公式.

乙個小插曲:公式在推導過程中經常會強調不失一般性,這個"不失一般性"是什麼意思?

原型聚類:第一步原型的初始化,第二步對根據不同的公式進行迭代優化更新求解.

k-means演算法,根據最小平方差公式(最小二乘法)來進行迭代優化

遞迴&迭代

簡單來說:遞迴就是函式不斷的呼叫自己,

迭代就是函式a不斷呼叫函式b的過程

知識點有點複雜,相對知識較多,還沒有完整的理論體系,先不著急學習.

第九章 聚類

目錄聚類的方法 效能度量 距離計算 k means演算法 學習向量量化 密度聚類 層次聚類 聚類任務,簡而言之就是無監督學習,訓練資料沒有標籤,目的是為了分類。現實生活中常常會有這樣的問題 缺乏足夠的先驗知識,因此難以人工標註類別或進行人工類別標註的成本太高。很自然地,我們希望計算機能代我們完成這些...

第九章 類的重用

一 什麼是繼承?1 繼承是類與類間的關係。2 是一種什麼 是 什麼的關係。3 繼承功能就是用來解決 重用的問題。1 繼承 是一種建立新類的方式,python中,1 新建的類可以繼承乙個或多個父類。2 父類可以成為基類或超類。3 所新建的類稱為子類或派生類。2 類繼承的數量 python中類的繼承分為...

第九章(筆記)

轉移指令是可以修改ip,或同時修改cs和ip的指令 offset 是用於提取標號偏移位址的操作符 jmp在第2章裡說到時用於修改ip或同時修改cs和ip的轉移指令,這章裡單獨的jmp指令是乙個無條件的轉移指令 jmp short 標號 是實現段內短轉移 jmp near ptr 標號 是實現段內近轉...