極大似然估計和最大後驗估計的關係(機器學習視角)

2022-06-09 18:24:07 字數 1588 閱讀 5176

聊一聊機器學習的mle和map:最大似然估計和最大後驗估計 - 夏飛的文章 - 知乎

貝葉斯學派 - bayesian - maximum a posteriori(map,最大後驗估計)

mae ≈ mle + prior

樣本x = (x1,x2,…,x_n) 服從潛在的獨立同分布(iid)

\[\hat_ = \underset} \ p(x;\theta) =\underset} -\sum\log p(x_i;\theta)\\

\]最大似然估計找出使得當前樣本出現概率最大的引數分布,即在似然函式上取極值點

\[l(\theta|x) = f(x;\theta)

\]似然函式在θ數值上等於在θ取得樣本概率密度

簡單的交叉熵,你真的懂了嗎? - 蔡傑的文章 - 知乎

相對熵\[\begin

d_(p||q) & = \sum p(x_i) \log\frac = \sum p(x_i) \log - \sum p(x_i) \log \\

& = -h(p) + h(p,q)

\end

\]機器學習當中的交叉熵,h代表 entropy

\[\text = -\sum_^label_i \cdot\log(score_i)

\]最小化交叉熵損失與極大似然 - mr.陳同學的文章 - 知乎

\[p(\theta|x) = p(\theta) \frac

\]p(x)與theta 無關,不予考慮

\[\hat_ = \underset}(\log p(\theta) + \log p(x;\theta)) = \underset} (-\log p(x;\theta)- \log p(\theta))

\]map僅僅比mle在目標函式上多了乙個先驗分布

假定先驗是乙個高斯分布,即

注意,先驗的分布是theta 的分布

那麼,。至此,一件神奇的事情發生了 -- 在map中使用乙個高斯分布的先驗等價於在mle中採用l2的regularizaton!

聊一聊機器學習的mle和map:最大似然估計和最大後驗估計 - 夏飛的文章 - 知乎

更一般地,假如引數分布不是以0為中心的

\[p(\theta) = n(\theta|\mu,\sigma^2)\\

\log p(\theta) = \text + (\theta -\mu)^2

\]其本質是優化乙個(\theta -\mu)^2mse

極大似然估計 極大似然估計與最大後驗概率估計

不知看過多少次極大似然估計與最大後驗概率估計的區別,但還是傻傻分不清楚。或是當時道行太淺,或是當時積累不夠。這次重遊機器學習之路,看到李航老師 統計學習方法 中第一章關於經驗風險最小化與結構風險最小化時談到了極大似然與最大後驗的話題,第一反應是竟然在第一章就談到了極大似然與最大後驗,相信大部分初學者...

最大似然估計,最大後驗估計

p a b 這個公式看下面韋恩圖就懂了 在事件 b 發生的條件下發生事件 a 的概率 p a b 就是 ab 同時發生的概率 p ab 比 b 發生的概率 p b p a b frac 形式上很明顯,這個公式是條件概率變形而來 p a b rightarrow p a b p b p ab p b ...

最大似然估計 極大似然估計

目錄最大似然估計 個人部落格 對於最大似然估計我們使用最簡單的拋硬幣問題來進行講解當我們拋一枚硬幣的時候,就可以去猜測拋硬幣的各種情況的可能性,這個可能性就稱為概率一枚質地均勻的硬幣,在不考慮其他情況下是符合二項分布的,即正面和翻面的概率都是0.5,那麼我們拋10次硬幣5次正面在上面的概率為 但是現...