統計學習三要素

2021-07-11 02:19:04 字數 1866 閱讀 1355

統計學習三要素

李航博士在《統計學習方法》一書中這樣描述統計學習方法的構成:

方法=模型+策略+演算法

本人更形象地借助產品經理的視角可以模擬這樣的:

方法=設想+指標+方案

下面就具體學習這三個要素(三要素是巨集觀上處理問題的一種框架):

模型

統計學習首先要考慮的問題是學習什麼樣的模型。以監督學習為例,模型就是說要學習的條件概率分布或決策函式。模型的假設空間(hypothesis space)包含所有可能的條件概率分布或決策函式(其實就是他們的集合)。通常該函式的集合是由乙個引數向量決定的函式簇。引數向量取值於n維歐式空間,就稱為引數空間(parameter space)。

策略

這一步需要考慮的是按照什麼樣的準則學習或選擇最優的模型(當然是從假設空間中選擇了)。這裡要介紹幾個用到的概念:

損失函式(loss function)

損失函式度量模型一次**的好壞,度量**值f(x)和真實值y之間的錯誤程度,是非負實值函式,可以記作:l(y,f(x))。常用的比如:

平方損失函式: l(y,f(x))=1/2 * (y-f(x))^2

對數損失函式: l(y,f(x)) = -logp(y|x)

風險函式(risk function)

風險函式度量的是平均意義下的模型**的好壞。損失函式值越小,模型就越好。輸入輸出(x,y)是隨機變數,遵循聯合分布p(x,y),所以損失函式的期望是:

這是理論上模型f(x)關於聯合分布p(x,y)的平均意義下的損失,稱為風險函式或期望損失。

學習的目標就是選擇期望風險最小的模型。

給定乙個訓練資料集:

經驗風險或經驗損失記作:

經驗風險是模型關於訓練樣本集的平均損失。根據大數定律,當樣本容量n越來越大時,經驗風險越趨近於期望風險。所以就可以用經驗風險去估計期望風險,但是在樣本不足的情況下,往往不夠理想,需要對經驗風險進行矯正,見下。

經驗風險最小化(empirical risk minimization,erm)

該策略認為經驗風險最小的模型就是最優的模型,見下:

當樣本容量足夠大時,經驗風險最小化能得到很好的學習效果。舉例:極大似然估計。但是樣本容量較小時會產生「過擬合」現象。

結構風險最小化(structural risk minimization,srm)

結構風險最小化就是為了防止過擬合的策略,等價於正則化(regularization),就是在經驗風險最小化上加上表示模型複雜度的正則化項或懲罰項,如下:

其中j(f)是模型複雜度,模型f越複雜,j(f)就越大,反之f越簡單,j(f)就越小。(舉例:貝葉斯估計中的最大後驗概率估計),這時,結構風險最小的模型就是最好的模型。

演算法

演算法就是根據學習策略,從假設空間中選擇最優的模型的計算方法。往往這個時候就將問題轉化為最優化問題。通常問題的解析解不存在,需要用數值計算的方法求解,如何保證找到全域性最優解就是個重要問題。

總結

這裡本人主要是摘取《統計學習方法》書中的有關內容,稍加整理而成。其實該部分內容看上去很「軟」,不算是有什麼乾貨,但是本人在第二遍閱讀的時候,有種突然頓悟的感覺,巨集觀上明白了機器學習的流程和目的,本質上更認為這是乙個大的指導框架,對今後學習有一定的幫助。

統計學習 統計學習三要素

模型是所要學習的條件概率分布或者決策函式。統計學習的目的在於從假設空間中選取最優模型。故需要引入損失函式與風險函式。損失函式 衡量模型一次 的好壞。風險函式 衡量平均意義模型 的好壞。l y,f x begin 1,y neq f x 0,y f x end l y,f x y f x 2 l y,...

1 3 統計學習三要素

模型 由引數向量決定的函式族 條件概率分布函式 決策函式 需要求模型引數向量 策略 選擇最優模型的依據,如經驗風險最小還是結構風險最小來求的最佳引數 演算法 模型策略最優化,怎麼去求解引數使得引數向量和真實的引數值誤差小,並且複雜度低,既包括時間複雜度也包括空間複雜度,主要計算速度和儲存空間的考慮 ...

統計學習三要素的思考

machine learning 三要素組成乙個公式 方法 模型 策略 演算法 監督學習裡,模型就是待學習的條件概率分布或決策函式。其中,條件概率分布 p y x 表示在已知輸入資料的條件下,輸出為y的概率。將其表示為函式,就是y f x 二者均表示輸入與輸出隨機變數之間的對映關係。關於模型,需要理...