簡單的PRML閱讀筆記

2021-07-27 05:06:19 字數 2709 閱讀 6059

離散標籤叫做分類,連續標籤叫做回歸

在多項式擬合的問題中,隨著階數的變大,引數m∗

通常會變得非常大,造成過擬合現象,因此,通過正則化(regulation)可以降低

m 的引數大小,這樣的技術在統計學中叫收縮(shrinkage),在神經網路中稱之為權重衰減(weight decay)

對於點集 x=

(x1,

x2,x

3,..

.xn)

t和它的對應目標 t=

(t1,

...t

n)t ,在給定xi

的情況下,將**值ti

看成均值為真實值yi

的高斯分布, 可以得到似然函式:p(

t|x,

w,β)

=∏n=

1nn(

tn|y

(xn.

w),β

−1))

,然後取對數的似然函式可以得到之前進行曲線擬合的時候使用的最小二乘法的公式,這也為最小二乘法提供了從最大似然函式的角度上的依據

如果將上面的結論朝著貝葉斯的方法前進一步,其實就是根據貝葉斯公式在似然函式上加入了引數的先驗分布p(

w|α)

,如果該先驗分布服從均值為0的高斯分布,那麼可以得出p(

w|α)

=(α2

π)m+

12ex

p

,其中m

為引數個數, 這種技術稱之為最大後驗,最大後驗概率就是最小化下式β2

∑n=1

n2+α

2wtw

,我常見的最後一項並不帶進加和公式裡面,但是如果從最開始就加入p(

w|α)

我覺得最後一項應該加進加和公式裡,這也是我的疑惑,值得注意的是,這仍然不是純正的貝葉斯觀點,因為目前仍然使用的是對

w 的點估計,在純粹的貝葉斯方法中,需要對所有的

w進行積分,始終應用概率的加法和乘法原則。

三種常見決策方法: 最小化錯誤分類率;最小化期望損失;拒絕選項

生成模型:確定條件密度p(

x|ck

) 判別模型:確定後驗概率密度 p(

ck|x

) 判別函式分類和概率無關,可對應到支援向量機分類

回歸問題的估計函式: y(

x)=e

t[t|

x], 這一點可以對應到邏輯斯蒂回歸的目標函式為p(

y=1|

φ)概率生成模型是對類條件概率密度p(

x|ck

) 和類先驗概率密度p(

ck) 建模,然後使用這兩個概率密度通過貝葉斯定力計算後驗概率密度p(

ck|x

) 考慮二分類的情形,類別c1

的後驗概率可以寫成: p(

c1|x

)=p(

x|c1

)p(c

1)p(

x|c1

)p(c

1)+p

(x|c

2)p(

c2)

=11+

exp(

−α)=

σ(α)

其中 α=

ln(p

(x|c

1)p(

c1)p

(x|c

2)p(

c2))

且σ 定義為: σ(

α)=1

1+ex

p(−α

) 對於多類,我們有: p(

ck|x

)=p(

x|ck

)p(c

k)∑j

exp(

αj)=

exp(

αk)∑

jexp

(αj)

其中αk

=ln(

p(x|

ck)p

(ck)

) 假設類條件概率密度是高斯分布,且假設所有的類別的協方差矩陣相同,這樣類別ck

的類條件概率是:p(

x|ck

)=1(

2π)d

21|∑

|12e

xp考慮兩類情形,則有:p(

x|ck

)=σ(

wtx+

w0)

其中w=∑

−1(μ

1−μ2

) w0

=−12

μt1∑

−1μ1

+12μ

t2∑−

1μ2+

ln(p

(c1)

p(c2

))對於多類情況,則有αk

(x)=

wtkx

+wk0

其中wk

=∑−1

μk w

k0=−

12μt

k∑−k

μ1這些說明了,對於連續的輸入,其概率公式p(

ck|x

) 可以表示為線性模型

根據上一節的內容,p(

c1|φ

)=y(

φ=σ(

wtφ)

) 對於資料集φn

,tn ,其中tn

∈ 有似然函式p(

t|w)

=∏n=

1nyt

nn1−

tn,似然函式的負對數即為交叉熵誤差函式

PRML筆記 模式識別與機器學習

prml筆記 notes on pattern recognition and machine learning.pdf 知乎pattern recognition and machine learning這本書怎麼看?介紹了概率論,區分了經典概率論 frequentist 和 bayesian理論...

PRML筆記 第一章 Introduction

模式識別關注在資料中自動發現資訊並採取行動,例如資料分類。例子 手寫識別。使用規則等方法將導致複雜的規則和例外情況。使用機器學習方法,利用訓練集自動調整引數。目標模式是已知的數字0 9,成為目標向量t。模式識別的推廣能力是乙個中心目標!預處理 又稱為特徵提取。輸入資料大多數需要預處理,是模式識別更加...

PRML學習筆記 資訊理論與最大熵

資訊熵是人們對客觀事件的不確定性的度量。正如序中所言,對於乙個事物,我們知道的越有可能發生,那麼我們用來找出確定的情況所需要得到資訊就越少,反之亦然。此外,資訊熵還具有可加的性質。兩個事物如果是不相關的,如果我們同時得到的兩個事物,那麼我們所接收的資訊是可以疊加的。我們使用h x 表示事件發生概率為...