prml知識點記錄

2021-07-10 16:41:35 字數 1222 閱讀 5132

通常係數w0從正則化項中省略,因為包含w0會使結果依賴於目標變數原點的選擇。w0也可以被包含在正則化項中,但是必須有自己的正則化係數。

在高斯雜訊的假設下,平方和誤差函式是最大化似然函式的乙個自然結果

最大化後驗概率等價於最小化正則化的平方和誤差函式

期望損失= 偏置2 + 方差 + 雜訊

等價核,通過

對訓練集裡目標值進行線性組合做**,被稱為線性平滑

hessian矩陣正定,函式是凸函式

如果class conditional distribution是具有相同的協方差矩陣的高斯分布,則可推出後驗概率公式中,二類(sigmoid)和多類(softmax),啟用函式裡是輸入x的線性形式

如果假設目標變數的條件分布來自於指數族分布,

對應的啟用函式選為標準鏈結函式(canonical link function),則

資料點n對誤差函式的貢獻關於引數向量w求導數的形式為「誤差」yn-tn

特徵向量ϕn的乘積,其中

yn = wtϕn

使用softmax作為啟用函式,當w成比例放大時,誤差函式不變,所以誤差函式在權空間的某些方向上是常數。如果給誤差函式加乙個恰當的正則化項,就能避免這個問題

偏置不出現在神經網路的正則化項中

應對神經網路過擬合的方法:正則化(

不滿足神經網路的linear transformation invariance要求

),早停止

神經網路應對不變性:變化輸入,增加對變換的正則化項,抽取變換下不發生變化的特徵,把不變性整合到神經網路的構建中(區域性接收場和共享權值)

svm是乙個

discriminant function(

discriminant function、

discriminant model、

generative model

),但區別於高斯過程,svm訓練後只需要儲存部分資料(support vector),是稀疏的

rvm是乙個discriminant model,訓練得到後驗概率。

rvm得到的結果一般比svm更稀疏,因此更加有利prediction的效率。

指數損失函式(adaboost)和交叉熵損失函式(softmax、logistic)對比:指數損失函式對負的t*y(x)懲罰較大(指數增長),區別於交叉熵損失函式的線性增長。所以指數損失函式對異常點不魯棒。而且指數損失函式不能表示成概率模型的似然函式,也無法推廣到多類。

知識點記錄

1 jensen不等式 jensen不等式表述如下 如果f是凸函式,x是隨機變數,那麼 特別地,如果f是嚴格凸函式,那麼 e f x f e x 當且僅當p x e x 1,也就是說x是常量。2 unet結構,卷積的三種模式 full,same,valid 其實這三種不同模式是對卷積核移動範圍的不同...

記錄知識點

03d 輸出三位寬度的整數,不足時前補0 3d 輸出三位寬度的整數,不足時後補空格 3d 輸出三位寬度的整數,不足時前補空格 d 輸出整數 未指定寬度,以實際寬度輸出 floor x 為1的值範圍是 1,2 而floor x 0.5 為1的範圍是 0.5,1.5 四捨五入 c語言函式總結大全 例如 ...

知識點記錄

資料結構與演算法 目的就是 達到 速度快和空間省 時間複雜度 細緻分析每一行 執行的次數,核心 執行次數的 n 的量級,就是整段要分析 的時間複雜度 加法法則 乘法法則 巢狀迴圈 複雜度量級,我們可以粗略地分為兩類,多項式量級和非多項式量級。其中,非多項式量級只有兩個 o 2n 和 o n 當資料規...