機器學習之優化演算法(一)之損失函式

2021-09-27 03:38:50 字數 1798 閱讀 2268

分類演算法的方式有多種多樣,並沒有乙個統一的標準,這裡只是其中一種形式。上圖參考自這裡。

損失函式被稱為 cost function, object function, loss function等,這裡不區分幾種用法的微小區別。

機器學習離不開目標函式,我們分析一下目標函式:

其中,前一項是經驗風險,後一項是結構風險。前者是為了增加 ml 對已有系統的 fitting,後者是儘量減少 ml 模型的複雜度,以避免 overfitting。整個損失函式稱為正則化經驗風險最小化(r-erm),對其進行簡化:

假設優化演算法在其結束時的第 t 步選代中輸出的模型是w

tw_t

wt​,w∗=

argm

inwf

(w)w^*=argmin_w f(w)

w∗=arg

minw

​f(w

),乙個有效的優化演算法會隨著法代的進行使輸出的模型 w

tw_t

wt​ 越來越接近於最優模型 w

∗w^*w∗:

ε (t

)→0\varepsilon(t) \rightarrow 0

ε(t)→0

則演算法是收斂的。通常使用 log

(ε(t

))log(\varepsilon(t))

log(ε(

t))來評價收斂率,如果其與 t 同階,則該演算法具有線性收斂率,如果小於 t 稱為次線性收斂率,如果大於 t 則稱為 超線性收斂率。然而,正則化風險最小化的優化演算法並不一定總是收斂的,需要目標函式具有相對良好的性質,為此我們需要引人一些基木的假設條件 。例如,我們一般假設 r-erm 具有凸性、光滑性,凸優化問題已經被人們很好的掌握了,利用凸函式可以比較好的對損失進行分析:

其中,w,v是f的兩個引數(自變數)。相對的強凸函式為:

其中,||.||是範數,上式稱為 α

−\alpha-

α−強凸(strong convex)。

另外,我們可以利用 lipschitz 性質來描述乙個函式的光滑性(smooth,函式的乙個小變數,帶來函式值的小變化,不出現跳躍),如果函式的變化值滿足:

則稱 f 是關於 模 || || 是 lipschitz 連續的。對於可導函式,其光滑性依賴其可導性:

稱上式為β

−\beta-

β−光滑的,它和 α

−\alpha-

α−強凸的形式是一樣的。

機器學習之損失函式

有這樣乙個問題,損失函式和評價指標都是來評判模型的好與不好,它們之間有什麼區別?簡單區分可以理解為損失函式是用在模型訓練階段,用在梯度下降階段,做梯度更新,來讓損失函式最小化。評價指標是用在測試階段,也就是判斷生成的模型的好壞,評價指標有很多種,會單獨寫一篇文章。什麼是損失函式?在有監督學習中,真實...

機器學習之 損失函式和風險函式

損失函式 監督學習問題是在假設的空間f中選取模型 f 作為決策函式,對於給定的輸入 x,由 f x 給定輸出y,這個輸出的 值與真實值 y可能不一致,用乙個函式來度量 錯誤的程度表示這種不一致,這個函式就是損失函式或者代價函式 通常的損失函式如下 損失函式值越小,模型越好 由於模式的輸入,輸出 x,...

score函式 機器學習 機器學習(一) 損失函式

優化是應用數學的乙個分支,也是機器學習的核心組成部分。實際上 機器學習演算法 模型表徵 模型評估 優化演算法其中,優化演算法起到的作用就是在模型表徵空間中找到模型評估指標最好的模型。不同的模型表徵和模型評估通常使用著不同的優化演算法。因此,為了利用優化演算法來對模型進行優化,我們通常需要給出乙個模型...