機器學習筆記 2 極大似然估計

2022-08-21 11:54:09 字數 3212 閱讀 8808

這一節我們要嘗試通過極大似然函式來估計出當乙個資料集符合正太分布時的引數。

極大似然估計,只是一種概率論在統計學的應用,它是引數估計的方法之一。說的是已知某個隨機樣本滿足某種概率分布,但是其中具體的引數不清楚,引數估計就是通過若干次試驗,觀察其結果,利用結果推出引數的大概值。極大似然估計是建立在這樣的思想上:已知某個引數能使這個樣本出現的概率最大,我們當然不會再去選擇其他小概率的樣本,所以乾脆就把這個引數作為估計的真實值。

假設我們有乙個資料集\(x\),其中\(x=\left ( x_,x_,...,x_ \right )^\),並且為了簡單起見,每乙個樣本點\(x_\)都是獨立且服從正太分布的,即\(x_\sim n(\mu ,\sigma ^)\),令\(\theta=(\mu,\sigma^2)\),則\(p(x_)=\frac\sigma}exp(-\frac-\mu)^2})\)。

根據極大似然估計得到\(\hat_\):

\[\begin

\hat_&=\undersetp\left ( x|\theta \right )\\

&=\underset\;log\prod_^p(x_|\theta )\\

&=\underset\sum_^log\;p(x_|\theta )\\

&=\underset\sum_^log (\frac\sigma}exp(-\frac-\mu)^2}))\\

&=\underset\sum_^(-log\sqrt-log\sigma-\frac-\mu)^2})\\

&=\underset\sum_^(log\sqrt+log\sigma+\frac-\mu)^2})

\end

\]接下來,由於上面只有第三項和\(\mu\)有關,於是:

\[\begin

\hat_&=\underset\sum_^\frac-\mu)^2}\\

&=\underset\sum_^(x_-\mu)^2

\end

\]我們對\(\mu\)求偏導,得到:

\[\begin

\frac\sum_^(x_-\mu)^2&=\sum_^(-2x_+2\mu)=0\\

n\mu&=\sum_^x_\\

\mu_&=\frac\sum_^x_=\bar

\end

\]可以看到\(\mu\)的極大似然估計就是\(x\)的平均值。接下來我們對\(\sigma\)做估計:

\[\begin

\hat_&=\underset\sum_^(log\sigma+\frac-\mu)^2})

\end

\]對\(\sigma\)求偏導,得到:

\[\begin

\frac\sum_^(log\sigma+\frac-\mu_)^2})&=\sum_^(\frac-\frac-\mu_)^2})=0\\

\sum_^\sigma^2&=\sum_^(x_-\mu_)^2\\

n\sigma^2&=\sum_^(x_-\mu_)^2\\

\sigma_^2&=\frac\sum_^(x_-\mu_)^2

\end

\]眾所周知,\(\mu_\)確實是\(x\)的平均值,但是\(\sigma_^2\)因該是均方差才對啊,顯然我們得到的結果並不是均方差,所以當採用極大似然估計時,\(\mu_\)為無偏估計,而\(\sigma_^2\)為有偏估計,下面我們就來證明。

上節說\(\mu_\)為無偏估計,為啥呢?我們知道,如果乙個變數的期望等於變數本身,則我們對該變數的估計就是無偏的,反之則認為是有偏的。那麼觀察\(\mu_\):

\[\begin

e[\mu_]&=e[\frac\sum_^x_]\\

&=\frac\sum_^e[x_]

\end

\]根據我們的假設,\(x_\)是服從正太分布\(x_\sim n(\mu ,\sigma ^)\)的,所以\(e[x_]=\mu\),因此\(e[\mu_]=\mu\)為無偏估計。接下來我們看\(\sigma_\):

\[\begin

e[\sigma^2_]&=e[\frac\sum_^(x_-\mu_)^2]\\

&=\frac\sum_^e[x^2_-2\mu_\cdot x_+\mu_^2]\\

&=\frac\sum_^e[x^2_]-2\mu_^2+\mu_^2\\

&=\frac\sum_^e[x^2_-\mu^2 -(\mu^2_-\mu^2)]\\

&=\frac\sum_^e[x^2_-\mu^2]-\frac\sum_^e[\mu^2_-\mu^2]

\end

\]我們知道:

(1)\(e[x^2_-\mu^2]\)就是\(x_\)的方差\(var(x_)\),也就是\(\sigma ^\);

(2)\(e[\mu^2_-\mu^2]\)就是\(\mu_\)的方差\(var(\mu_)\);

(3)根據我們無偏估計的證明\(\mu_=\frac\sum_^x_\)代入

\[\begin

\frac\sum_^e[x^2_-\mu^2]-\frac\sum_^e[\mu^2_-\mu^2]&=\frac\sum_^var(x_)-\frac\sum_^var(\mu_)\\

&=\sigma^2-\frac\sum_^var(\frac\sum_^x_)\\

&=\sigma^2-\frac\sum_^(\frac\sum_var(x_))\\

&=\sigma^2-\frac\sum_^(\frac\sum_\sigma^2)\\

&=\sigma^2-\frac\sigma^2\\

&=\frac\sigma^2

\end

\]所以我們就得到\(e[\sigma^2_]=\frac\sigma^2\),因此為了得到無偏估計的\(\sigma^2_\),得到:\(\frac\sigma^2=e[\sigma^2_]\)

\[\begin

\sigma^2&=\frac\cdot e[\sigma^2_]\\

&=\frac\cdot \frac\sum_^(x_-\mu_)^2\\

&=\frac\cdot\sum_^(x_-\mu_)^2

\end

\]由此就得到了\(\sigma ^\)的無偏估計,這也就是為啥無偏估計的分母是\(n-1\)了。

通過極大似然估計,我們可以把服從高斯分布的隨機變數的引數(資料規律)給估計出來。但是會把高斯分布的方差給估小了,所以一般我們採用\(\frac\cdot\sum_^(x_-\mu_)^2\)來計算,這就是分母為\(n-1\)的由來。

機器學習之極大似然估計

極大似然估計是在總體型別已知的條件下使用的一種引數估計方法。首先是德國數學家高斯在1821年提出的,然而這個方法常歸功於英國統計學家費歇。極大似然法的基本思想通過乙個例子說明 乙個獵人和乙個二逼外出打獵,乙隻野兔從前方竄過,一聲槍響,野兔應聲倒下。如果要你推測,是誰打中的?你會如何想?選擇乙個引數使...

機器學習(十八)極大似然估計

極大似然估計是在總體型別已知條件下使用的一種引數估計方法 它首先是由德國數學家高斯在1821年提出的,然而,這個方法常歸功於英國統計學家費希爾.費希爾在1922年重新發現了這一方法,並首先研究了這種方法的一些性質 極大似然估計的思想是 選取這樣的 使得當它作為未知引數 的估計時,觀察結果出現的可能性...

機器學習演算法 極大似然估計

極大似然估計 1.若總體x為離散型,其概率分布列為 其中 為為未知引數。設 是取自總體的樣本容量為n的樣本,則 的聯合分布律為 又設 的一組觀測值為 易知樣本 取到觀測值 的概率為 這一概率隨 的取值而變化,它是 的函式,稱 為樣本的似然函式。2.若總體x為連續型,其概率密度函式為 其中 為未知引數...