統計學習三要素模型策略演算法

統計學習方法都是由模型、策略和演算法構成的，即

方法＝模型＋策略＋演算法

統計學習首要考慮的問題是學習什麼樣的模型。在監督學習過程中，模型就是所要學習的條件概率分布或決策函式。模型的假設空間（hypothesis space）包含所有可能的條件概率分布或決策函式。例如，假設決策函式是輸入變數的線性函式，那麼模型的假設空間就是所有這些線性函式構成的函式集合。假設空間中的模型一般有無窮多個。

假設空間用γ表示。假設空間可以定義為決策函式的集合

γ=其中，x 和y 是定義在輸入控制項x 和輸出空間y上的變數。這時γ通常是由乙個引數向量決定的函式族：

γ=引數向量θ取值於n維歐式空間rn,稱為引數空間（parameter space）

假設空間也可以定義為條件概率的集合

γ=其中，x 和y 是定義在輸入空間x 和輸出空間y上的隨機變數。這時γ通常是由乙個引數向量決定的條件概率分步族：

γ=引數向量θ取值於n維歐式空間rn,也稱為引數空間。

有了做模型的假設空間，統計學習接著需要考慮的是按照什麼樣的準則學習或選擇最優的模型。統計學習的目標在於從假設空間中選取最優模型。

首先引入損失函式與風險函式的概念。損失函式度量模型一次**的好壞，風險函式度量平均意義下模型**的好壞。損失函式和風險函式

監督學習問題是在假設空間γ中選取模型f作為決策函式，對於給定的輸入x，由f(x)給出相應的輸出y，這個輸出的**值f(x)與真實值y可能一樣可能不一樣，用乙個損失函式（loss function）或代價函式（cost function）來度量**錯誤的程度。損失函式f(x)和y的非負實值函式，記作l（y，f(x)）.

統計學習常用的損失函式有以下幾種：

（1）0-1損失函式（0-1 loss function）

l(y,f(x))=(f)$不能直接計算。實際上，如果知道聯合分布p，可以從聯合分布直接求出條件概率分布p(y|x),也就不需要學習了。正因為不知道聯合概率分布，所以才需要進行學習。這樣一來，一方面根據期望風險最小學習模型要用到聯合分布，另一方面聯合分布又是未知的，所以監督學習就稱為乙個病態為題（ill-formed problem）給定乙個訓練資料集t=

模型f(x)關於訓練資料集的平均損失稱為經驗風險（empirical risk）或經驗損失（empirical loss），記作remp

remp(f)=1n∑i=1nl(yi,f(xi))

期望風險rexp（f）是模型關於聯合分布的期望損失，經驗風險remp是模型關於訓練樣本集的平均損失。根據大數定律，當樣本容量n趨於無窮時，經驗風險remp（f）趨於期望風險rexp（f）.所以乙個很自然的想法是用經驗風險估計期望風險。但是，由於現實中訓練樣本數目有限，甚至很小，所以用經驗風險估計期望風險常常不理想，要對現實中訓練樣本數目有限，甚至很少，所以用經驗風險估計期望風險常常並不理想，要對經驗風險進行一定的矯正，這就關係到監督學習的兩個基本策略：經驗風險最小化與結構風險最小化。

經驗風險最小化與結構風險最小化

經驗風險最小化（empirical risk minimization，erm）的策略認為，經驗風險最小的模型是最優的模型。根據這一策略，按照經驗風險最小化求最優模型就是求解最優化問題

minf?γ1n∑i=1l(yi,f(xi))

其中，γ是假設空間。

當樣本容量足夠大時，經驗風險最小化能保證有很好的學習效果，在現實中被廣泛採用。比如，極大似然估計（maximum likelihood estimation）就是經驗風險最小化的乙個例子。當模型是條件概率分布，損失函式是對數損失函式時，經驗風險最小化就等價於極大似然估計。

但是，當樣本容量很小時，經驗風險最小化學習的效果就未必很好，會產生後邊將要敘述的「過擬合（over-fitting）」現象。

結構風險最小化（structural risk minimization，srm）是為了防止過擬合而提出來的策略。結構風險最小化等價於正則化（regularization）。結構風險在經驗風險上加上表示模型複雜度的正則化項（regularizer）或罰項（penalty term）。在假設空間、損失函式以及訓練資料集確定的情況下，結構風險的定義是rsrm(f)=1n∑i=1nl(yi,f(xi))+λj(f)

其中j（f）為模型的複雜度，是定義在假設空間γ上的泛涵。模型f越簡單，複雜度j（f）就越小。也就是說，複雜度表示了對複雜模型的懲罰。λ≥0是係數，用以權衡經驗風險和模型複雜度。結構風險小需要經驗風險與模型複雜度同時小。結構風險小的模型往往對訓練資料以及未知的測試資料都有較好的**。

比如，貝葉斯估計中的最大後驗概率估計（maximum posterior probability，map）就是結構風險最小化的乙個例子。當模型是條件概率分布、損失函式是對數損失函式、模型複雜度由模型的先驗概率表示時，結構風險最小化就等價於最大後驗概率估計。

結構風險最小化的策略認為結構風險最小的模型是最優的模型。所以求最優模型，就是求解最優化問題：minf?λ=1n∑i=1nl(yi,f(xi))+λj(f)

這樣，監督學習問題就變成了經驗風險或結構風險函式的最優化問題。這時經驗或結構風險函式是最優化的目標函式。

演算法是指學習模型的具體計算方法。統計學習基於訓練資料集，根據學習策略，從假設空間中選擇最優模型，最後需要考慮用什麼樣的計算方法求解最優模型。

這時，統計學習問題歸結為最優化問題，統計學習的演算法成為求解最優化問題的演算法。如果最優化問題有顯式的解析解，這個最優化問題就比較簡單。但通常解析解不存在，這就需要用數值計算的方法求解。如何保證找到全域性最優解，並使求解的過程非常高效，就成為乙個重要問題。統計學習可以利用已有的最優化演算法，有時也需要開發獨自的最優化演算法。

統計學習方法之間的不同，主要來自其模型、策略、演算法的不同。確定了模型、策略、演算法，統計學習的方法也就確定了。這也就是將其稱為統計學習三要素的原因。

統計學習三要素 模型 策略 演算法

統計學習三要素 模型 策略 演算法

統計學習三要素

統計學習 統計學習三要素

相關推薦

統計學習三要素模型策略演算法

統計學習三要素模型策略演算法

統計學習統計學習三要素