機器學習大數定律，中心極限定律極大似然估計

大數定律

當資料量很大的時候可以用頻率表示概率，

在試驗不變的條件下，重複試驗多次，隨機事件的頻率近似於它的概率。偶然中包含著某種必然。

中心極限定理

樣本的平均值約等於總體的平均值。

不管總體是什麼分布，任意乙個總體的樣本平均值都會圍繞在總體的整體平均值周圍，並且呈正態分佈。

除以n和n-1 中心極限定理

一.中心極限定理

下圖形象的說明了中心極限定理

當樣本量n逐漸趨於無窮大時，n個抽樣樣本的均值的頻數逐漸趨於正態分佈，其對原總體的分布不做任何要求，意味著無論總體是什麼分布，其抽樣樣本的均值的頻數的分布都隨著抽樣數的增多而趨於正態分佈，如上圖，這個正態分佈的u會越來越逼近總體均值，並且其方差滿足a^2/n，a為總體的標準差，注意抽樣樣本要多次抽取，乙個容量為n的抽樣樣本是無法構成分布的。

二.中心極限定理和大數定律的區別

下面援引一段知乎上的回答：

大數定律是說，n只要越來越大，我把這n個獨立同分布的數加起來去除以n得到的這個樣本均值（也是乙個隨機變數）會依概率收斂到真值u，但是樣本均值的分布是怎樣的我們不知道。

中心極限定理是說，n只要越來越大，這n個數的樣本均值會趨近於正態分佈，並且這個正態分佈以u為均值，sigma^2/n為方差。

綜上所述，這兩個定律都是在說樣本均值性質。隨著n增大，大數定律說樣本均值幾乎必然等於均值。中心極限定律說，他越來越趨近於正態分佈。並且這個正態分佈的方差越來越小。

直觀上來講，想到大數定律的時候，你腦海裡浮現的應該是乙個樣本，而想到中心極限定理的時候腦海裡應該浮現出很多個樣本。

中心極限定理是說一定條件下，當變數的個數趨向於無窮大時，變數總體趨向於正態分佈。而大數定律是當重複獨立試驗次數趨於無窮大時，平均值（包括頻率）具有穩定性。兩者是完全不同的

最大似然估計:是利用已知的樣本的結果，在使用某個模型的基礎上，反推最有可能導致這樣結果的模型引數值。

舉個通俗的例子：假設乙個袋子裝有白球與紅球，比例未知，現在抽取10次（每次抽完都放回，保證事件獨立性），假設抽到了7次白球和3次紅球，在此資料樣本條件下，可以採用最大似然估計法求解袋子中白球的比例（最大似然估計是一種「模型已定，引數未知」的方法）。當然，這種資料情況下很明顯，白球的比例是70%。

說的通俗一點啊，最大似然估計，就是

利用已知的樣本結果，

反推最有可能（最大概率）導致這樣結果的引數值(模型已知，引數未知）。

當從模型總體隨機抽取n組樣本觀測值後，最合理的引數估計量應該使得從模型中抽取該n組樣本觀測值的概率最大，而不是像最小二乘估計法旨在得到使得模型能最好地擬合樣本資料的引數估計量。

當樣本為獨立同分布時，似然函式可簡寫為l(α)=πp(xi;α)，牽涉到乘法不好往下處理，於是對其取對數研究，得到對數似然函式l(α)=ln l(α)=σln p(xi;α)

同樣使用多元函式求極值的方法。

例如：乙個麻袋裡有白球與黑球，但是我不知道它們之間的比例，那我就有放回的抽取10次，結果我發現我抽到了8次黑球2次白球，我要求最有可能的黑白球之間的比例時，就採取最大似然估計法：我假設我抽到黑球的概率為p,那得出8次黑球2次白球這個結果的概率為：

p(黑=8)=p^8*（1-p）^2,

現在我想要得出p是多少啊，很簡單，使得p(黑=8)最大的p就是我要求的結果，接下來求導的的過程就是求極值的過程啦。

可能你會有疑問，為什麼要ln一下呢，這是因為ln把乘法變成加法了，且不會改變極值的位置（單調性保持一致嘛）這樣求導會方便很多~

同樣，這樣一道題：設總體x 的概率密度為

已知： x1,x2..xn是樣本觀測值，

求：θ的極大似然估計

這也一樣啊，要得到 x1,x2..xn這樣一組樣本觀測值的概率是

p= f(x1,θ)f(x2,θ)…f(xn,θ)

然後我們就求使得p最大的θ就好啦，一樣是求極值的過程，不再贅述。

機器學習 大數定律，中心極限定律 極大似然估計

機器學習 大數定律，中心極限定律 極大似然估計

中心極限定理和大數定律

大數定律及中心極限定理

相關推薦

機器學習大數定律，中心極限定律極大似然估計

機器學習大數定律，中心極限定律極大似然估計