機器學習之損失函式和風險函式

損失函式

監督學習問題是在假設的空間f中選取模型 f 作為決策函式，對於給定的輸入 x,由 f(x) 給定輸出y, 這個輸出的**值與真實值 y可能不一致，用乙個函式來度量**錯誤的程度表示這種不一致，這個函式就是損失函式或者代價函式；

通常的損失函式如下：

損失函式值越小，模型越好；由於模式的輸入，輸出（x,y）是隨機變數，有聯合分布p(x,y) 所以損失函式的期望是：

上面關於聯合概率的平均意義下的損失，也被叫做風險函式；

由於聯合概率是未知的，不能從上氏中求出風險函式；而對於給到的訓練集

t =

模型 f(x) 關於訓練集資料的平均損失稱為經驗風險：

根據大數定律：當樣本容量趨於無窮大的時候，經驗風險趨於期望風險

經驗風險和結構風險最小化

經驗最小化求解的最優模型：

當樣本容量足夠大的時候，經驗風險最小化能保證有很好的學習效果，但樣本數量小的時候，就會產生「過擬合」現象。因為引數太多，會導致我們的模型複雜度上公升，容易過擬合（訓練誤差會很小），但訓練誤差小不是我們的終極目標，我們的目標也是測試誤差也小，所以我們要保證模型最簡單的基礎下最小化訓練誤差；模型複雜度可以通過正則函式來實現（約束我們的模型特徵），強行的讓模型稀疏，低秩，平滑等

結構風險最小化是為了防止過擬合提出的策略，結構風險最小化等價於正則化。結構風險的經驗在經驗風險上加上表示模型複雜度的正則化項或懲罰項；結構風險的定義：

其中 j( f ) 為模型的複雜度

誤差

在多項式函式擬合中可以看到，隨著多項式的次數（模型複雜度）的增加，訓練誤差會減少，直到趨於0；而測試誤差會先減小，達到最小值後又增大（如下圖）當選擇的模型複雜度過大時候，過擬合現象(過擬合就是模型訓練的時候誤差很小，但在測試的時候誤差很大，也就是我們的模型複雜到可以擬合到我們的所有訓練樣本，但在實際測試新的樣本的時候，就不行了；說白了就是應試能力很強，實際應用很差)就會發生；這樣學習的時候就要防止過擬合，進行最優化模型選擇，選擇複雜度適當的模型；下面介紹兩種常用模型的選擇方法：正則化於交叉驗證

正則化與交叉驗證

正則化是結構風險最小化策劃的實現，是在經驗風險上加乙個正則化項，或罰項；正則化一般是模型複雜度和單調遞增函式，模型越複雜，正則化值就越大；比如正則化項可以是模型引數向量的範數。

機器學習之損失函式和風險函式

機器學習之損失函式

機器學習必知必會損失函式與風險函式

機器學習（四）損失函式

機器學習之 損失函式和風險函式

機器學習之損失函式

機器學習必知必會 損失函式與風險函式

機器學習（四） 損失函式

相關推薦

機器學習之損失函式和風險函式

機器學習必知必會損失函式與風險函式

機器學習（四）損失函式