機器學習筆記 損失函式

2022-07-20 01:09:10 字數 1708 閱讀 6875

在監督學習中,由給定的輸入x,通過模型 h(x) 出的的**值 y,與真實值y不可能完全一致,這時,採用乙個損失函式,或者是代價函式來表示這個**錯誤的程度

損失函式值越小,模型就越好,由於模型的輸入、輸出(x,y)是隨機變數,遵循聯合分布p(x, y),所以損失函式的期望是:

這個函式稱為期望損失或者是風險損失

學習目標就是選擇期望風險最小的模型,由於聯合分布p(x, y)是未知的,所以期望損失不能直接計算,實際上,如果知道了聯合分布p(x, y), 可以直接從聯合分布直接求出條件概率分布p(y|x)了,也就不需要學習了, 這樣一來,一方面根據期望風險最小學習模型要用到聯合分布,另一方面,聯合分布又是未知的,所以監督學習成為了乙個病態問題(ill-fromed problem)

定義:模型f(x) 關於訓練資料集的平均損失函式稱為經驗風險或經驗損失函式。

公式:

這個公式也是一般最常見的損失函式的寫法

期望風險是關於聯合分布期望的損失

經驗風險是模型關於訓練樣本集的平均損失

根據大樹定律,當n趨向於無窮大的時候,經驗風險趨向於期望風險,所以當資料無窮多的時候,可以用經驗風險當做期望風險

但是實際上,通常樣本數量不夠多,使用經驗風險估計期望風險往往效果不太好(過擬合),所以需要增加一定的矯正,這就引出了經驗風險最小化和結構風險最小化

我的個人理解,不一定對

期望風險是對未來的誤差大小的判定(我希望得到的),而經驗風險是我根據訓練集資料所得到的誤差(我已經得到的),兩者本身是兩個不同的東西,而我期望用經驗風險去估計期望風險,這樣兩者就產生了關係。

經驗風險最小化在假設空間、損失函式以及訓練資料集確定的情況下,經驗風險函式式就可以確定經驗風險最小化。經驗風險最小化的策略認為,經驗風險最小化的模型就是最有模型。根據這乙個策略,就可以得到經驗風險最小化的結構模型:

當樣本容量足夠大,就會取得較好的模型效果,在現實中得到了廣泛的英語,不如說:極大似然估計就是經驗風險最小化的乙個例子,當模型是條件概率分布的時候,損失函式式對數損失函式時,經驗風險最小化就等價於極大似然估計。

經驗風險最小化學習的缺陷:

如果樣本容量小,會產生過擬合問題

結構風險最小化是為了防止過擬合而提出的策略,結構風險最小化等價於正則化,是在經驗風險最小化的基礎上加上正則化項或者懲罰項

定義式:

j(f)可以使用l1 或者l2範數

參考:李航 《統計學習方法》

機器學習筆記 什麼是損失函式?

機器學習模型關於單個樣本的 值與真實值的差稱為損失。損失越小,模型越好,如果 值與真實值相等,就是沒有損失。用於計算損失的函式稱為損失函式。模型每一次 的好壞用損失函式來度量。常用的損失函式有以下幾種 引用自李航的 統計學習方法 0 1損失函式 0 1損失函式 二類分類任務中,值與真實值不同,就是 ...

機器學習(四) 損失函式

在上上一節邏輯回歸中,是使用似然函式來作為模型的求解引數的目標。但在很多情況下,似然函式很難直接寫出,更常用的方法是損失函式,這個在上上一節的補充中也有提過。那麼損失函式表示什麼概念呢?和似然函式相反,損失函式是模型 失敗的度量。注意最大化似然函式和最小化損失函式兩者並不能完全等同,因為這涉及到所選...

機器學習損失函式梳理

沒有乙個適合所有機器學習演算法的損失函式。針對特定問題選擇損失函式涉及到許多因素,比如所選機器學習演算法的型別 是否易於計算導數以及資料集中異常值所佔比例。下文中總結了機器學習中比較重要的損失函式。均方誤差 mse 度量的是 值和實際觀測值間差的平方的均值。它只考慮誤差的平均大小,不考慮其方向。但由...