最小二乘最大似然和最大後驗的簡單總結

在真正了解乙個機器學習演算法的時候，發現有許多概念還是很模糊這裡整理了最小二乘法（

least square）、最大似然估計（ maximum likelihood estimation）和最大後驗估計的關係。

一、最小二乘法

最小二乘法的本質就是找到乙個估計值，使實際值與估計值的距離最小。而為了度量最小距離，只要使實際值與估計值之差的平方最小就好，下面就是最小二乘的表示式損失函式cost function，我們的目標就是求θ。

求解方法是通過梯度下降演算法，通過訓練資料不斷迭代得到最終的值。

最小二乘的主要應用場景為回歸分析，因為回歸常用平方損失作為損失函式。

二、似然函式的引出

我們從概率的角度考慮一下最小二乘求解原理，假設目標變數y和輸入x的關係如下：

其中ε為誤差項，假設服從正態分佈，均值為0，標準差為σ，可以寫成

我們帶入上面的關係方程得到y的概率方程：

這裡要注意θ不是變數，不在條件中用「

；」隔開。

通過給定的

θ和x求解y就是我們的正常的概率思想，但是如果我們把這個方程看成是關於θ的方程時，就變成了似然方程：

似然函式與上面的概率方程的最大區別在於，關注的不再是事件發生的概率，而是已知事件發生的情況下希望知道對應的引數應該是多少，這和求概率恰恰相反。上面的式子還可以寫成：

最大化l(θ)就是最大似然估計，但一般都會最大化log likelihood：

這時可以發現，此時的最大化似然函式和最初的最小二乘損失函式本質上是一樣的。但是要注意這兩者只是恰好有著相同的表達結果，實際並沒有本質的聯絡。因為當likelihood用的是gaussian的時候，由於gaussian kernel裡有個類似於euclidean distance的東西，一求log就變成square loss了，導致解和olse（就是ordinary的最小二乘）是一樣的。而碰巧剛接觸mle的時候基本都是gaussian假設，這才導致很多人分不清楚（這句話套用知乎上的解釋）。

三、似然函式的解析

參考wiki上的定義似然函式的結果等於已知引數時的結果的概率值（這裡注意l不是乙個條件概率，通常用；隔開）

對於離散概率分布：

設x是引數為θ時服從離散概率分布p的隨機變數，則：

看成是θ的方程，稱為似然函式。

對於連續概率分布則用密度函式衡量：

四、最大後驗概率

這裡就是引入了貝葉斯學派的理論了，關於貝葉斯學派和頻率學派的區別參見知乎，我們就知道，貝葉斯學派主張一切都有乙個先驗概率。而且上面的似然函式推倒中頻率學派把引數θ看作是固定而未知的常數，而樣本是隨機的，有關概率的運算都是針對樣本x的分布。而貝葉斯學派把這個引數看作是隨機變數，而樣本x看作是固定的，重視的是引數θ的分布，通常是：通過引數的先驗分布結合樣本資訊得到引數的後驗分布。例子參見。

最小二乘最大似然和最大後驗的簡單總結

最小二乘最大似然和最大後驗的簡單總結

最小二乘和最大似然

最大似然與最小二乘

最小二乘 最大似然和最大後驗的簡單總結

最小二乘 最大似然和最大後驗的簡單總結

最小二乘和最大似然

最大似然與最小二乘

相關推薦

最小二乘最大似然和最大後驗的簡單總結

最小二乘最大似然和最大後驗的簡單總結