結構風險最小化

損失函式和風險函式

監督學習問題是在假設空間中選取模型f作為決策函式，對於給定的輸入x，由f(x)給出相應的輸出y，這個輸出的**值f(x)與真實值y可能一致也可能不一致，用乙個損失函式或代價函式來度量**錯誤的程度。損失函式是f(x)和y的非負實值函式，記作l(y,f(x))。

損失函式值越小，模型就越好。由於模型的輸入、輸出(x,y)是隨機變數，遵循聯合分布p(x,y),所以損失函式的期望是

這是理論上模型f(x)關於聯合分布p(x,y)的平均意義下的損失，稱為風險函式。

學習的目標就是選擇風險函式最小的模型。用於聯合分布p(x,y)是未知的，上述(1)式不能直接計算。實際上，如果知道聯合分布p(x,y)，可以從聯合分布直接求出條件概率分布p(y|x),也就不需要學習了。正因為不知道聯合分布，所以才需要進行學習，這樣一來，一方面根據風險函式最小學習模型要用到聯合分布，另一方面聯合分布又是未知的，所以監督學習就成為乙個病態問題。

給定乙個訓練資料集 t=

模型f(x)關於訓練資料集的平均損失為經驗風險

其中代表vc維，

vc維越大，學習能力越強，模型越複雜,由上式可知vc維越大，模型的實際風險(風險函式)的界越大；

由上式可知，樣本個數n越大，模型的實際風險與經驗風險的差的界越小，這也是現如今大資料的理論**，當資料足夠大的時候，經驗風險可以用來代表實際風險

參考《統計學習方法》李航

結構風險最小化

經驗風險最小化

經驗風險最小化

經驗風險最小化ERM

結構風險最小化

經驗風險最小化

經驗風險最小化

經驗風險最小化ERM

相關推薦