機器學習優化問題 經驗風險 期望風險 結構風險

2022-08-11 02:27:08 字數 1164 閱讀 3760

要區分這三個概念,需要先講一下損失函式l(y,f(x))的概念。

損失函式:針對單個具體樣本,表示模型**值與真實樣本值之間的差距。損失函式越小,說明模型對於該樣本**越準確。常見損失函式有0-1損失函式、平方損失函式、絕對損失函式、對數損失函式(對數似然損失函式)。

經驗風險:對所有訓練樣本都求一次損失函式,再累加求平均。即,模型f(x)對訓練樣本中所有樣本的**能力。

所謂經驗風險最小化即對訓練集中的所有樣本點損失函式的平均最小化。經驗風險越**明模型f(x)對訓練集的擬合程度越好。

期望風險:對所有樣本(包含未知樣本和已知的訓練樣本)的**能力,是全域性概念。(經驗風險則是區域性概念,僅僅表示決策函式對訓練資料集裡的樣本的**能力。)

理想的模型(決策)函式應該是讓所有的樣本的損失函式最小(即期望風險最小化)。但是期望風險函式往往不可得,所以用區域性最優代替全域性最優。這就是經驗風險最小化的理論基礎。

總結經驗風險和期望風險之間的關係:

經驗風險是區域性的,基於訓練集所有樣本點損失函式最小化。經驗風險是區域性最優,是現實的可求的。

期望風險是全域性的,基於所有樣本點損失函式最小化。期望風險是全域性最優,是理想化的不可求的。

缺點:只考慮經驗風險的話,會出現過擬合現象,即模型f(x)對訓練集中所有的樣本點都有最好的**能力,但是對於非訓練集中的樣本資料,模型的**能力非常不好。怎麼辦?這就需要結構風險。

結構風險:對經驗風險和期望風險的折中,在經驗風險函式後面加乙個正則化項(懲罰項),是乙個大於0的係數lamada。j(f)表示的是模型的複雜度。

經驗風險越小,模型決策函式越複雜,其包含的引數越多,當經驗風險函式小到一定程度就出現了過擬合現象。也可以理解為模型決策函式的複雜程度是過擬合的必要條件,那麼我們要想防止過擬合現象的方式,就要破壞這個必要條件,即降低決策函式的複雜度。也即,讓懲罰項j(f)最小化,現在出現兩個需要最小化的函式了。我們需要同時保證經驗風險函式和模型決策函式的複雜度都達到最小化,乙個簡單的辦法把兩個式子融合成乙個式子得到結構風險函式然後對這個結構風險函式進行最小化。

參考:機器學習-->期望風險、經驗風險與結構風險之間的關係

機器學習 經驗風險 期望風險 結構風險

要區分這三個概念,需要先講一下損失函式l y,f x 的概念。損失函式 針對單個具體樣本,表示模型 值與真實樣本值之間的差距。損失函式越小,說明模型對於該樣本 越準確。常見損失函式有0 1損失函式 平方損失函式 絕對損失函式 對數損失函式 對數似然損失函式 經驗風險 對所有訓練樣本都求一次損失函式,...

經驗風險與期望風險

經驗風險 於訓練資料集,訓練資料集的平均損失也稱為經驗風險。而期望風險則針對的是全體資料。也就是已有的資料,未有的資料都包括在內。我們往往希望的得到的模型不僅要對已有的資料有較好的 效果,還更要對未知的的資料的 有好的效果。經驗風險與期望風險有什麼關係呢?我們往往希望得到的模型期望風險能夠越小越好,...

經驗風險 期望風險 結構風險

要區分這三個概念,需要先講一下損失函式l y,f x 的概念。損失函式 針對單個具體樣本,表示模型 值與真實樣本值之間的差距。損失函式越小,說明模型對於該樣本 越準確。常見損失函式有0 1損失函式 平方損失函式 絕對損失函式 對數損失函式 對數似然損失函式 經驗風險 對所有訓練樣本都求一次損失函式,...