最大似然估計,高斯分布,高斯混合模型,EM演算法

2021-08-05 22:40:37 字數 1429 閱讀 9548

1、最大似然估計

似然的概念與概率類似,但是又很不相同。假如隨機變數x服從某種分布(比如高斯分布),概率是指在給定引數(均值,方差)的條件下,x=x的可能性;而似然則指x=x的條件下,某一組引數反映了x=x的真實性大小。

最常見的應用是最大似然估計。假設有n個資料點,服從某種分布pr(x;θ),我們想找到一組引數θ,使得生成這些資料點的概率最大,這個概率就是

稱為似然函式(lilelihood function)。通常單個點的概率很小,連乘之後資料會更小,容易造成浮點數下溢,所以一般取其對數,變成

稱為log-likelihood function。接下來就可以進行求導,然後求得使得上面式子值最大的引數θ。我們認為取得這些觀察值的可能性是很小的,但是引數θ卻使得這一切以最大可能性的發生了。

2、高斯分布

高斯分布又叫正態分佈、鐘形曲線,是一種最常見的分布形式。高斯函式有兩個引數:均值,方差。均值決定密度函式圖形的位置,方差決定了其「胖瘦」(方差越大越胖)。高斯分布的密度函式圖形有以下特點:

密度函式是

下面的曲線圖還反映了高斯分布的其他一些特性

標準正態分佈:若原分布服從正態分佈 ,則z=(x-μ)/σ ~ n(0,1) 就服從標準正態分佈。

3、高斯混合模型

高斯混合模型是一種聚類演算法,類似於k-means,不同之處在於:高斯混合模型給出樣本點屬於某個類簇的概率。

為啥叫「高斯混合模型」?重點不是「高斯」,而是「混合」。

考慮單個高斯模型:給定乙個樣本集,如果樣本類別已知,則各個類別的均值和方差很容易得到,直接帶入高斯分布概率密度函式就可以得到概率值。從幾何上講,單高斯分布模型在二維空間應該近似於橢圓,在三維空間上近似於橢球。遺憾的是在很多分類問題中,屬於同一類別的樣本點並不滿足「橢圓」分布的特性。這就引入了高斯混合模型。

高斯混合模型認為樣本點是若干個單高斯模型一起產生的,每乙個單高斯模型稱為乙個component。實際上不管是什麼分布,只k取得足夠大,這個xx mixture model就會變得足夠複雜,就可以用來逼近任意連續的概率密度分布。只是因為高斯函式具有良好的計算效能,所gmm被廣泛地應用。

4、em演算法

參考文獻:

1、em及高斯混合模型

最大似然估計 高斯分布

前言 介紹了最簡單的最大似然估計 距離實現 樸素貝葉斯 還有一些距離。在這篇文章,我想分享一下,我所理解的 最大似然估計 高斯分布 這裡都是玩具資料,為了方便理解才列出 01 2345 6789 101112x 1234 4.24.4 4.64.856 78y0 0001 1110 000假設 x ...

高斯混合模型 高斯分布回顧

高斯概率密度函式 正態分佈曲線 正態分佈 normal distribution 又名高斯分布 gaussian distribution 是乙個在數學 物理及工程等領域都非常重要的概率分布,在統計學的許多方面有著重大的影響力。若隨機變數x服從乙個數學期望為 方差為 2的高斯分布,記為n 2 其概率...

異常檢測 OCSVM與混合高斯分布

20200924 前面的文章 孤立森林的簡要記錄 中描述了孤立森林的簡單原理,而且之前也簡單測試過這種方法的效能,只不過最終沒有得到非常好的效果。本篇文章中記錄一下另外兩種方法。一般來說,異常檢測是一種無監督的學習方法,當然也可以轉化為監督學習,但是我個人感覺轉化的方式不好,原因主要是你需要將異常進...