統計學習筆記一統計學習三要素

統計學習的三要素為：模型、策略、演算法。

一、模型

（1）在監督學習當中，我們的目的是學習乙個由輸入到輸出的對映，這個對映就是模型。一般來說，模型有兩種形式，一種是概率模型（條件概率分布p(y|x)），另一種形式是非概率模型（決策函式y = f(x)）。

（2）假設空間是一集合：由輸入空間到輸出空間所有對映的集合。即：條件概率的集合、或者決策函式的集合。

二、策略：就是從假設空間中找到最優的對映（模型）

1，先介紹損失函式和風險函式

損失函式是用來度量模型一次對映結果的好壞；風險函式（期望損失）是用度量平均意義下模型**的好壞。損失函式的期望是：

風險函式的計算需要用到p(y|x)，我們對它又不可知，所以監督學習就成了乙個病態問題。既然這樣，我們就想，在統計學中有乙個大數定律，如果我在輸入輸出空間中取乙個足夠大的樣本，用這個樣本來近似的計算風險函式r_(f)。基於這樣的想法，我們對於含有n組資料的訓練集，定義經驗損失函式：

根據大數定律，當n趨近於無窮大的時候，經驗風險函式就趨近於風險函式。

2，學習過程在假設空間中選擇經驗風險最小的，統計學習中的策略一般有兩種——經驗風險最小化，結構風險最小化

經驗風險最小化（erm）:極大似然估計就是經驗風險最小化的例子，當模型是概率模型是，經驗風險最小化就是極大似然估計。

結構風險最小化（srm）:為了防止過擬合現象，結構風險最小化這個策略被提了出來。

其中，三、演算法

演算法，就是求解上面優化問題的演算法。這就需要用到數值優化的知識。

統計學習筆記一 統計學習三要素