機器學習5

2021-10-02 20:33:31 字數 2303 閱讀 8244

聚類問題是無監督學習,演算法的思想是「物以類聚,人以群分」。聚類演算法感知樣本間的相似度,進行類別歸納,對新的輸入進行輸出**,輸出變數取有限個離散值。

k-means(又稱k-均值或k-平均)聚類演算法。演算法思想就是隨機確定k個中心點作為聚類中心,然後把每個資料點分配給最鄰近的中心點,分配完成後形成k個聚類,計算各個聚類的平均中心點,將其作為該聚類新的類中心點,然後重複迭代上述步驟直到分配過程不再產生變化。

演算法流程

①隨機選擇k個隨機點(成為聚類中心)

②對於資料集中的沒個資料點,按照距離k個中心店距離,將其與距離最近的中心觀點併聯起來,於同一中心關聯的所有點聚類成一類

③計算每一組的均值,將該族所關聯的中心移動到平均值的位置;

④重複執行2-3步,直至中心點不再發生變化

k-means的優點

k-means的缺點

高斯混合模型指的是多個高斯分布函式的線性組合,是一種廣泛使用聚類演算法,該演算法使用了高斯分布作為引數模型。

單高斯模型:高斯分布有事也被成為正態分佈,是一種在自然界大量的存在的,最為常見的分布形式。

f (x

∣μ,σ

2)=1

2σ2π

e−(x

−μ)2

2e

2f(x|\mu,\sigma^2) = \frac}e^}

f(x∣μ,

σ2)=

2σ2π

​1​e

−2e2

(x−μ

)2​​高斯混合模型:混合模型是乙個可以用來表示在總體分布中含有k個子分部的概率模型,換句話說,混合模型表示了觀測資料在總體中的概率分布,它是乙個由k個子分部組成的混合分布。

p (x

)=∑i

=1kϕ

i12σ

i2πe

−(x−

μi)2

2ei2

p(x)=\sum^k_\phi_i\frac}e^}

p(x)=i

=1∑k

​ϕi​

2σi2

​π​1

​e−2

ei2​

(x−μ

i​)2

高斯混合模型的求解

​ em演算法是一種迭代演算法,2023年由dempster等人總結提出,用於含有隱變數的概率模型引數的最大似然估計。

高斯混合模型與k-means

混合高斯和k-means很相似,相似點在於兩者的分類收初始值影響;兩者可能限於區域性最優解;兩者類別的個數都要考猜測。混合高斯計算複雜度高於k-means。

k-means屬於硬聚類,要麼屬於a,要麼屬於b,而gm屬於混合式軟聚類,乙個樣本70%屬於a,另外30%屬於b。

密度聚類演算法假設聚類結構能通過樣本分佈的緊密程度確定,演算法從樣本密度的角度來考察樣本之間的可連線性,並給予可連線樣本不斷擴充套件聚類簇以獲得最終的聚類結果。

dbscan演算法流程

①dbscan通過檢測資料集中每個點eps鄰域包含的點多餘minpts個,而建立乙個以p為核心物件的簇。

②然後,dbscan迭代的聚集從這些核心物件直接密度可達的物件,這個過程可能設計一些密度可達簇的合併。

③當沒有新的點新增到任何簇時,該過程結束。

層次聚類演算法試圖在不同層次對資料進行劃分,從而形成樹形的聚類結構。資料集的劃分可採用「自底向上」的聚合策略,也可以採用「自頂向下」的拆分策略。

agnes演算法流程

①agnes演算法最初每個物件作為乙個簇,然後這些簇根據某些準則被一步步的合併,使用簡單鏈結方法。

②兩個粗剪的小相思度有這兩個不同簇中距離最近的資料點對的相似度來確定。此外當兩個簇最近距離超過使用者給定的閾值時聚類過程就會終止

③聚類的合併過程反覆進行指導所有的物件最終滿足簇資料。

譜聚類是一種基於凸輪的聚類方法,將帶權無向圖劃分為兩個或兩個以上的最優子圖,使子圖內部盡量相似,而子圖間距離盡量距離較遠,以達到常見聚類的目的。

譜聚類能夠識別任意形狀的樣本空間且收斂域全域性最優解,其基本思想是利用樣本資料的相似矩陣(拉普拉斯矩陣)進行特徵分析後得到的特徵向量進行聚類。

譜聚類的優勢

機器學習5

機器學習第六章走起 接著上一章,對於break point 按照前面的規律來看,隨著n的增大,我們的effective n 與pow 2,n 的差距越來越大 bound function 就是成長函式的乙個上限,我們剛才分析的成長函式是對於不同的h給與不同的分析,那我們有個目標,就是我們知道我們的n...

機器學習(5)

神經網路 基礎概念 神經網路 1.定義 神經網路也稱人工神經網路,是一種模仿生物上設神經網路的一種演算法。神經網路是機器學習諸多演算法中的一種,它既可以用來做有監督的任務,如分類 視覺識別等,也可以用作無監督的任務。同時它能夠處理複雜的非線性問題,它的基本結構是神經元。2.神經元 生物學的神經元啟發...

機器學習第5周!

教輔說這週的作業是史上最難,果不其然,我花了好久好久才完成 好吧其實也沒有很難,就一開始的cost function卡了很久,後面倒是挺順利的,簡單地調了幾遍就過了,現在第五周完成了,還有1個小時第六周就過期了。路漫漫,是真的。機器學習的本質在於通過大量資料的訓練,使計算機能夠擁有人類的某種能力,比...