學習筆記統計學習方法概論

這是對《統計學習方法》第一章的乙個總結，記錄一些基礎的概念、定義和術語，理清統計學習方法的各個方面，開始系統地學習這個領域。

統計學習（statistical learning）是關於計算機基於資料構建概率統計模型，並運用模型對資料進行**與分析的一門學科。統計學習也稱為統計機器學習。統計學習用於對資料進行**和分析。由監督學習（supervised learning）、非監督學習（unsupervised learning）、半監督學習（semi-supervised learning）和強化學習（reinforcement learning）等組成。監督學習方法簡單概括為：使用訓練資料（training data）（資料是獨立同分布產生的），假設要學習的模型屬於某個函式的集合，稱為假設空間（hypothesis space），應用某個評價準則（evaluation criterion），選擇最優的模型，使得訓練資料和測試資料（test data）在給定的準則下最優。

統計學習方法的三要素：

步驟：

方法=模型+策略+演算法

風險函式

損失函式的期望稱為風險函式(risk function）或者期望損失（expected loss），即平均意義下的損失：

\[r_(f)=e_p[l(y,f(x))]=\int_\times \mathcal}l(y,f(x))p(x,y)dxdy

實際上聯合分布$p(x,y)$是未知的，不能直接算出$p(y|x)$，所有才需要學習。這樣一來，一方面根據期望風險最小學習模型要用到聯合分布，另一方面聯合分布又是未知的，所以監督學習就成為了乙個病態問題（ill-formed problem）。 3. 經驗風險最小化經驗風險最小化（empirical ridk minimization，erm）的策略認為經驗風險最小的模型就是最優模型：$$\min_}\: \frac\sum_^l(y_i,f(x_i))$$這種策略在樣本容量足夠大的時候很好，但是當樣本容量很小的時候，效果未必好，會出現「過擬合」現象。比如：極大似然估計（maximum likelihood estimation） 4. 結構風險最小化結構風險最小化（structural risk minimization，srm）是為防止過擬合而提出的策略，其實等價於正則化（regularization）。結構風險在經驗風險上加上表示模型複雜度的正則化項（regularizer）或罰項（penalty term）：$$r_(f)=\frac\sum_^l(y_i,f(x_i))+\lambda j(f)$$其中$j(f)$為模型的複雜度，模型$f$越複雜，$j(f)$越大，在這裡對模型的懲罰也越大。所以，結構風險同時對經驗風險和模型複雜度進行權衡，這樣往往對訓練資料和未知的測試資料都有較好的**。

比如：貝葉斯估計中的最大後驗概率估計（maximum posterior probability estimation，map）

訓練誤差（training error）和測試誤差（test error）作為學習方法評估的標準，實際上測試誤差較小的方法具有更好的**能力，是更有效的方法，這種能力稱為泛化能力（generalization ability）

進行模型選擇（model selection）時，有些很複雜的模型常常在訓練資料中比真實模型看上去誤差更小，這種現象稱為過擬合（over-fitting），這些複雜的模型在測試資料中沒有任何優勢。

比如多項式的擬合，如果訓練資料量不是足夠多，複雜的模型（高階多項式）可以擬合的很好，比真實的模型還好（因為資料存在雜訊），但它的泛化能力太弱，沒法很好地**未知資料。

所以不能讓模型的複雜度太高，為防止過擬合，有兩種常用的模型選擇方法：正則化和交叉驗證。

正則化是結構風險最小化策略的的實現.

正則化（regularization）一般具有如下形式：$$\min_}: =\frac\sum_^l(y_i,f(x_i))+\lambda j(f)$$正則化項隨著模型複雜度的增加而變大，回歸問題中，損失函式是平方損失，正則化項可以是引數向量的$l_2$範數。這個正則化項也可以是其他的形式。

另一種常用的模型選擇方法是交叉驗證（cross validation）。

一種簡單的方法：資料量比較充足的時候，隨機地將資料集分成三個部分：訓練集（training set）、驗證集（validation set）、測試集（test set），分別用來進行模型的訓練、選擇、最終評估。但是實際中資料沒那麼充足，可以採用交叉驗證的方法（基本思想是重複使用資料）。

上面的幾種交叉驗證方法，在整個學習的過程中使用了所謂的測試集，實際上它這裡所說的測試集應該看作是驗證集吧，測試集應該完全不被使用，僅僅在最後用來評估選出的模型的效果。

泛化能力（generalization ability）是指對未知資料的**能力。泛化誤差（generalization error）：$$r_(\hat)=e_p[l(y,\hat(x))]=\int_\times \mathcal}l(y,\hat(x))p(x,y)dxdy$$實際上，泛化誤差就是學習到的模型的期望風險。

一般通過比較兩種學習方法的泛化誤差上界（generalization error bound）來比較它們的優劣。泛化誤差上界的性質：

泛化誤差上界：

對二分類問題，當假設空間是有限個函式集合$\mathcal f=\left \$時，對任意乙個函式$f\in \mathcal f$，至少以概率$1- \sigma$，以下不等式成立：

\[r(f)\leqslant \hat(f)+\varepsilon (d,n,\delta )

\]其中，

\[\varepsilon (d,n,\delta )=\sqrt\left ( \log d+\log\frac \right )}

\]不等式左端$r(f)$是泛化誤差，右端為泛化誤差上界。泛化誤差上界中，第一項是訓練誤差，訓練誤差越小，泛化誤差也越小。第二項$\varepsilon (d,n,\delta )$，$n$越大，值越小，假設空間$\mathcal f$ 包含的函式越多，值越大。

上述定理可通過hoeffding不等式來證明。

(注：本文為讀書筆記與總結，側重演算法原理，**為[《統計學習方法》](一書第一章)

出處：[

學習筆記統計學習方法概論

統計學習方法筆記1 統計學習方法概論

統計學習方法 1 統計學習方法概論

《統計學習方法》筆記一統計學習方法概論

學習筆記 統計學習方法概論

統計學習方法筆記1 統計學習方法概論

統計學習方法 1 統計學習方法概論

《統計學習方法》筆記一 統計學習方法概論

相關推薦

學習筆記統計學習方法概論

《統計學習方法》筆記一統計學習方法概論