機器學習筆記 1 頻率派和貝葉斯派

頻率派認為當我們有一堆資料時，這些資料一定是符合乙個規律的，只是這個規律我們並不知道，這裡的規律可以理解為構造這些資料所需要的引數，這些引數是唯一確定的，我們的目標是如何從已經給到的資料中去估計出這些引數，而我們估計的引數可以使得這些資料發生的概率是最大的。其中「最大似然估計」幹的就是這麼件事。

貝葉斯派則認為所有的引數都是隨機變數，都是服從乙個概率分布的，那麼只要先對這些引數設定乙個假設的概率分布（先驗概率），通過實驗結果（給到的資料）來調整這個概率分布，最終我們得到乙個正確的分布（後驗概率），使得我們的資料都符合這個分布。

假設有一堆資料\(x\)，其中\(x=\left ( x_,x_,...,x_ \right )^\)，每個\(x_\)都是乙個資料樣本，有乙個引數\(\theta\)，使得每個資料樣本\(x\)都服從概率分布\(x\sim p\left ( x|\theta \right )\)。

頻率派認為\(\theta\)是未知常量，而\(x\)是隨機變數，我們需要通過資料\(x\)來估計出\(\theta\)，常用的方式是採用最大似然估計（maximum likelihood estimate，mle），也叫極大似然估計。

\[p\left ( x|\theta \right )=\prod_^p(x_|\theta )\\

log\;p\left ( x|\theta \right )=\sum_^log\;p(x_|\theta )

\] 而我們一般都會在等式兩邊取對數\(log\)來就變成累加計算，所以當我們對\(\theta\)進行最大似然估計時，得到：

\[\theta _=\underset\;log\;p(x|\theta )

\] 於是我們只要求解上述等式，就可以得到最優解\(\theta\)，一般的步驟是把上式看作損失函式，進行梯度下降等方法，最後逼近得到\(\theta\)。這個方式就是我們採用機器學習方法來解決問題的一般流程：

根據問題建立演算法模型

設定損失函式loss function

通過優化方法來使損失函式最小，得到最優解引數\(\theta\)

貝葉斯派認為\(\theta\)也是乙個隨機變數，並且\(\theta\sim p\left (\theta \right )\)，其中\(p\left (\theta \right )\)是乙個先驗概率。我們知道貝葉斯公式如下：

\[p(\theta |x)=\frac

\] 其中\(p(\theta |x)\)為後驗概率，也就是我們要得到的東西，\(p(\theta )\)為先驗概率。

而更加準確的關於貝葉斯估計的寫法其實是對上式求積分運算，通過邊緣概率得到下式，再根據聯合概率、邊緣概率與條件概率之間的關係得到：

\[p(x)=\int_^{}p(x,\theta )d_=\int_^{}p(x|\theta )\cdot p(\theta )d_

\]\[p(\theta |x)=\frac^{}p(x|\theta )\cdot p(\theta )d_}

\] 和似然估計mle一樣，貝葉斯派也有乙個叫做最大後驗估計（maximum a posteriori estimation，map），它和mle非常相似，唯一的不同是它需要引數本身的分布，也就是需要先驗概率。map公式如下：

\[\theta _=\underset\;p(\theta|x )

\] 上述公式表達的含義是最大後驗概率來得到我們的引數\(\theta\)，而根據公式\((3)\)中的等式，其中分母和引數\(\theta\)沒什麼關係，因此最大後驗概率map等價於：

\[\theta _=\underset\;p(x|\theta)\cdot p(\theta )

\] 可以發現map估計其實只是比mle多了乙個先驗概率，事實上雖然貝葉斯派和頻率派的思想不同，但是對於後續模型關於\(\theta\)的求值卻殊途同歸。

本節簡單的介紹了頻率派和貝葉斯派在各自的引數估計上的不同，頻率派一般採用極大似然估計，而貝葉斯派則採用最大後驗概率估計，這兩者思想的不同，也使得由頻率派發展得到的機器學習統計型模型和貝葉斯派的概率圖模型在解法上不同。

後續會介紹這兩派在模型推導和一些我們所熟悉的模型上的不同應用。

機器學習筆記 1 頻率派和貝葉斯派

頻率派與貝葉斯派的爭論

機器學習白板系列（概率派和貝葉斯派）

機器學習貝葉斯

機器學習筆記 1 頻率派和貝葉斯派

頻率派與貝葉斯派的爭論

機器學習白板系列（概率派和貝葉斯派）

機器學習 貝葉斯

相關推薦

機器學習貝葉斯