極大似然估計

貝葉斯公式：$$p(w|x)=\frac$$

其中：p(w)：為先驗概率，表示每種類別分布的概率；$p(x|w)$為類條件概率，表示在某種類別前提下，某事發生的概率；$p(w|x)$為後驗概率，表示某事發生了，並且它屬於某一類別的概率，有了這個後驗概率，我們就可以對樣本進行分類。後驗概率越大，說明某事物屬於這個類別的可能性越大，我們越有理由把它歸到這個類別下。

在實際問題中，我們能獲得的資料可能只有有限數目的樣本資料，而先驗概率$p(w_i)$和類條件概率(各類的總體分布)$p(x|w_i)$都是未知的。根據僅有的樣本資料進行分類時，一種可行的辦法是我們需要先對先驗概率和類條件概率進行估計，然後再套用貝葉斯分類器。

先驗概率的估計較簡單，1、每個樣本所屬的自然狀態都是已知的（有監督學習）；2、依靠經驗；3、用訓練樣本中各類出現的頻率估計。

類條件概率的估計（非常難），原因包括：概率密度函式包含了乙個隨機變數的全部資訊；樣本資料可能不多；特徵向量x的維度可能很大等等。總之要直接估計類條件概率的密度函式很難。解決的辦法就是，把估計完全未知的概率密度$p(x|w_i)$轉化為估計引數。這裡就將概率密度估計問題轉化為引數估計問題，極大似然估計就是一種引數估計方法。

由於引數估計問題只是實際問題求解過程中的一種簡化方法（由於直接估計類條件概率密度函式很困難）。所以能夠使用極大似然估計方法的樣本必須需要滿足一些前提假設。

重要前提：訓練樣本的分布能代表樣本的真實分布。每個樣本集中的樣本都是所謂獨立同分布的隨機變數，且有充分的訓練樣本。

最大似然估計的目的就是：利用已知的樣本結果，反推最有可能（最大概率）導致這樣結果的引數值。

原理：極大似然估計是建立在極大似然原理的基礎上的乙個統計方法，是概率論在統計學中的應用。極大似然估計提供了一種給定觀察資料來評估模型引數的方法，即：「模型已定，引數未知」。通過若干次試驗，觀察其結果，利用試驗結果得到某個引數值能夠使樣本出現的概率為最大，則稱為極大似然估計。

由於樣本集中的樣本都是獨立同分布，可以只考慮一類樣本集$d$，來估計引數向量$\theta$。記已知的樣本集為：$d=$

似然函式：聯合概率密度函式$p(d|\theta)$稱為相對於的$\theta$的似然函式:$l(\theta)=p(d|\theta)=p(x_1,x_2,\cdots,x_n|\theta)=\displaystyle \prod^n_p(x_i|\theta)$

如果$\hat$是引數空間中能使似然函式$l(\theta)$最大的$\theta$值，則$\hat$就是θ的極大似然估計量。它是樣本集的函式，記作：$\hat=d(x_1,x_2,\cdots,x_n)=d(d)$

ml估計：求使得出現該組樣本的概率最大的θ值。$$\hat=arg \undersetmax l(\theta)=arg \undersetmax \displaystyle \prod^n_p(x_i|\theta)$$

定義對數似然函式：$h(\theta)=ln l(\theta)$

替換為：$$\hat=arg \undersetmax \ h(\theta)=arg \undersetmax \ ln \ l(\theta)=arg \undersetmax \displaystyle \prod^n_ln \ p(x_i|\theta)$$

可以看出：1. 未知引數只有乙個（θ為標量）。在似然函式滿足連續、可微的正則條件下，極大似然估計量是下面微分方程的解：$\frac=0$或者等價於$\frac=\frac=0$

2.未知引數有多個（θ為向量）,則θ可表示為具有s個分量的未知向量：$\theta=[\theta_1,\theta_2,\cdots,\theta_s]^t$

記梯度運算元：$\nabla_\theta=[\frac,\frac,\cdots,\frac]^t$

若似然函式滿足連續可導的條件，則最大似然估計量就是如下方程的解:$\nabla_\theta \ h(\theta)=\nabla_\theta \ lnl(\theta)=\sum_^n\nabla_\theta \ lnp(x_i|\theta)=0$

p.s.方程的解只是乙個估計值，只有在樣本數趨於無限多的時候，它才會接近於真實值。

極大似然估計

最大似然估計 極大似然估計

極大似然估計

極大似然估計

相關推薦

最大似然估計極大似然估計