極大似然估計與EM演算法 機器學習

2021-10-03 18:57:32 字數 1366 閱讀 7373

極大似然估計是概率論與數理統計中的內容,個人對極大似然估計的印象是根據樣本求引數,求樣本符合哪種引數假設,所以極大似然估計是要假設資料的總體分布,要不然我們估計的到底是什麼分布函式的引數呢。我們接下來舉例子,用盡量通俗易懂的方式來理解。

例子1:我們用扔硬幣的方式來理解極大似然估計,一般來說,一枚硬幣的兩面「花」和「字」出現的次數都是相等的。現在我們做實驗,我們扔了100次硬幣,100次的結果全部是「花」,這個時候,我們就開始懷疑,是不是「花」出現的概率更大呢??如此我們用扔硬幣的結果來推測出現「花」或者「字」的概率引數這就是似然估計。那麼如果我們一開始去計算扔10次硬幣出現6次「花」的概率是多大?很明顯概率是

還是這個拋硬幣的例子,最大似然估計就是我們在最大化實驗結果概率的情況下,在計算出硬幣的引數。扔10次硬幣出現6次「花」,假設硬幣的引數為

可以看出當

例子2:在學校中統計男同學的身高,假設我們抽取了200個男生樣本,並且他們的身高服從高斯分布,但是高斯分布中的引數

其中n等於200,極大似然估計就是最大化現在出現的概率,然後計算出引數

網上也有很多關於極大似然估計的解說,其中這兩個解釋的很詳細:和

西瓜書上的em演算法基本上是用公式堆積起來的,可能理解起來不是很直觀。同樣使用學生的身高作為例子,男生和女生的身高分別服從兩種不同的正態分佈,現在的情況是男女生混合在一起了,我們分不清楚,如果我們隨便抽取乙個人,我們都不知道這個人的身高是符合男生身高的正態分佈還是女生身高的正態分佈。這個時候,我們要判斷這個人到底是男生還是女生以及男生和女生身高正態分佈的引數分別是什麼。

em: expectation maximization, 該方法分為兩步expectation和maximization

1.先設定男女生的身高正態分佈引數,給個初始值。

2.然後計算每個人更可能屬於哪乙個正態分佈,這樣就初始確定是屬於男生還是女生,這就是expectation。

3.經過expectation,我們就大概知道了這些人哪些是男生哪些是女生,這樣一來,分清了男生和女生的兩類樣本,再用極大似然估計的方法對男女生的身高正態分佈的引數進行估計,稱為maximization。

4.然後,這兩個分布函式的引數進行了更新,這樣每個學生屬於女生還是男生的概率也就變了,我們就又回到了expectation步

5.如此反覆,直到收斂也就是引數基本不再變化。

這就是em演算法的乙個大概流程。其應用包括:gmm高斯混合模型,k-means聚類演算法,hmm演算法等等。至於公式,就不貼了,這裡講的很詳細:佩服那些大佬,把em演算法講的如此透徹。

極大似然估計 EM演算法

極大似然估計,是一種概率論在統計學的應用,它是引數估計的方法之一 mpa,貝葉斯估計 已知某個隨機樣本滿足某種概率分布,但是其中具體的引數不清楚,引數估計就是想通過若干次試驗,觀察其結果,利用結果推出引數的大概值。最大似然估計也是建立在這樣的思想上 已知某個引數能使這個樣本出現的概率最大,我們當然不...

機器學習演算法 極大似然估計

極大似然估計 1.若總體x為離散型,其概率分布列為 其中 為為未知引數。設 是取自總體的樣本容量為n的樣本,則 的聯合分布律為 又設 的一組觀測值為 易知樣本 取到觀測值 的概率為 這一概率隨 的取值而變化,它是 的函式,稱 為樣本的似然函式。2.若總體x為連續型,其概率密度函式為 其中 為未知引數...

機器學習之極大似然估計

極大似然估計是在總體型別已知的條件下使用的一種引數估計方法。首先是德國數學家高斯在1821年提出的,然而這個方法常歸功於英國統計學家費歇。極大似然法的基本思想通過乙個例子說明 乙個獵人和乙個二逼外出打獵,乙隻野兔從前方竄過,一聲槍響,野兔應聲倒下。如果要你推測,是誰打中的?你會如何想?選擇乙個引數使...