cs229 Lecture9 經驗風險最小化

寫在前面：機器學習的目標是從訓練集中得到乙個模型，使之能對測試集進行分類，這裡，訓練集和測試集都是分布d的樣本。而我們會設定乙個訓練誤差來表示測試集的擬合程度（訓練誤差），雖然訓練誤差具有一定的參考價值。但實際上，我們並不關心對訓練集合的**有多麼準確。我們更關心的是對於我們之前沒有見過的乙個全新的測試集進行測試時，如果利用這個模型來判斷，會表現出怎麼樣的效能，即一般誤差。因此，這也要求我們的模型需要具備一定的泛化能力。泛化能力弱，就會出現欠擬合與過擬合的情況。

偏差/方差（bias/variance）

1、欠擬合與過擬合

解決的問題就是：建立乙個模型，對何時出現欠擬合與過擬合進行說明。

eg：線性分類問題

logistic回歸，簡化版模型：

a、定義乙個訓練誤差（經驗風險）(training error，empirical risk ， empirical error）

含義：被假設錯誤分類的樣本在訓練樣本中所佔的比例=被假設錯誤分類的樣本數之和/m

引出經驗風險最小化（empirical risk minization，erm）

含義：取經驗誤差最小的引數

即證明erm是乙個合理的演算法：能帶來更小的一般誤差

兩條引理：聯合界（union bound）、一致收斂（uniform convergence）。

1、聯合界（union bound）和 hoeffding不等式

含義：hoeffding不等式說的是估值的差異有乙個上界，即給定乙個假設，訓練誤差會以乙個很大的概率接近於一般誤差

最終想證明的是，對於整個假設類而言，訓練誤差對於一般誤差是乙個很好的估計，而不僅僅只是對某乙個假設成立。

一致（當m很大時，訓練誤差接近與一般誤差）收斂

給定多大的m，才能是的一般誤差和訓練誤差近似呢？

cs229 Lecture9 經驗風險最小化

cs229 Lecture10 特徵選擇

cs229 Lecture16 馬爾可夫決策過程

cs229 Lecture17 離散與維數災難

cs229 Lecture9 經驗風險最小化

cs229 Lecture10 特徵選擇

cs229 Lecture16 馬爾可夫決策過程

cs229 Lecture17 離散與維數災難

相關推薦