引數估計 最大似然以及貝葉斯的一些理解

2021-10-12 04:19:03 字數 1485 閱讀 1084

​ 預先對模型引數的一些了解,對應的是似然函式,不是概率密度函式,都可以統一用beta分布來表示,其中有兩個超引數alpha和beta,調節這兩個超引數可以改變先驗概率密度的引數,根據邊界似然函式來決定的,對應邊界似然函式最大的alpha和beta即是需要選擇;另外beta分布有乙個特性,就是先驗和後驗共軛;

​ 找乙個概率分布函式或者概率函式(有參估計方法),通俗理解就是使得這些資料(能得到的資料),出現的概率最大。舉例:假設有三組引數,w1、w2、w3,對應三個概率密度函式:f1,f2,f3,可以用密度分布函式算出資料集發生的聯合概率大小p1、p2、p3,其中概率最大的p對應的引數就是我們想選擇的概率分布函式,這三個不一定是最準確的,實際情況通常需要計算出最優的w引數,使得資料集發生的聯合概率達到最大值。

​ 基於先驗概率分布和似然函式計算後驗概率分布,再使用後驗概率分布來**未知資料(後驗概率是已知結果發生,去反推原因的概率,在機器學習中可對應,已知資料發生,去反推其引數的大小)

最大似然估計:引數固定

最大後驗概率方法:引數固定,加入先驗概率,先驗概率是beta分布

貝葉斯方法:引數不固定,引數也服從某種概率分布,作為隨機變數,得到後驗分布後,在用後驗分布去推斷新的資料,最後的結果是乙個期望值。例如估計乙個高斯分布1的均值,可能也服從另外乙個高斯分布2,然後就根據這個高斯分布2對最終的高斯分布1做出判斷或者別的操作。

貝葉斯推斷:

這裡用引數作為橋梁連線xn+1和x,積分項的第一項應該為p(x

n+1∣

θ,x)

p(x_|\theta,x)

p(xn+1

​∣θ,

x),因為無需經過x再訓練θ

θ,也就是是說這裡的θ

\theta

θ是經過調整後的後驗分布,所以去掉資料x這一項

在預估新資料 [外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-9obhxwp6-1608020490951)( 的分布時, 貝葉斯推斷把引數的所有可能性都考慮進去, 包括確定性較高的取值和確定性較低的取值, 充分地利用了所有引數的資訊. 由(13)我們也可以發現, 貝葉斯推斷時因為考慮所有引數分布的資訊, 致使計算量相比最大似然估計這種點估計方式會增大很多, 在實際生產中難以應用. 例如, 當使用神經網路作為預估模型時, 貝葉斯推斷在引數上進行積分意味著引數每變化一次, 神經網路便要做一次前向傳播計算, 而這個代價非常地高. 所以我們退而求其次, 只使用後驗概率最大的引數作為引數的點估計這樣既能將對引數的先驗資訊代入到模型的推斷中, 又能節省計算資源。最大化後驗概率:

息代入到模型的推斷中, 又能節省計算資源。最大化後驗概率:

貝葉斯估計與最大似然估計

極大似然估計 極大似然估計的基本想法是 我們所看到的,就是最可能發生的。所以通過最大化實驗資料發生的概率 p x 其中引數 是未知的 取極值時對應的 即為最大似然估計。貝葉斯估計p x p x p p x p 表示乙個事件發生的 概率,例如扔乙個硬幣的結果正面朝上的概率,這個 概率 是乙個隨機變數,...

bayes 貝葉斯估計與最大似然估計

參考 設資料為d,變數為x,決定概率分布的引數為 似然函式 p d 後驗概率分布 p d p d p constant 1.用mle方法只能估計出使得似然函式最大時的 值,而基於bayes的後驗概率法則可以求出 的後驗概率分布。若需要求得最優的 則可以用map來獲得。2.mle求出最優的引數 後帶回...

貝葉斯引數估計

學習這部分內容約需要1.9小時 在貝葉斯框架中,我們將統計模型的引數視為隨機變數.模型由變數值的先驗分布以及決定引數如何影響觀測資料的證據模型來指定.當我們對觀測資料進行條件化時,我們得到引數的後驗分布.術語 貝葉斯引數估計 會讓我們誤以為對引數進行了估計,實際上我們通常可以完全跳過引數估計步驟.我...