統計機器學習方法記錄與總結

統計學習方法步驟：

得到乙個有限訓練資料集

確定包含所有可能的模型假設空間，即學習模型的集合

確定模型選擇的準則，即學習的策略

實現求解最優模型的演算法，即學習的方法

通過學習方法選擇最優模型

利用學習的最優模型對新資料進行**與分析

統計學習三要素：

模型 + 策略 + 演算法

有了模型的假設空間，統計學習接著需要考慮的是按照什麼樣的準則學習或選擇最優的模型，統計學習的目的在於從假設空間中選取最優模型。

下面引入損失函式和風險函式：

常用損失函式：

(1)0-1損失函式(0-1 loss function)

(2)平方損失函式 (quadratic loss function)

(3)絕對損失函式 (absolute loss function)

(4)對數損失函式(logarithmic loss function)或對數似然損失函式 (loglikehood loss function)

損失函式是該模型f(x) 關於聯合分布p(x,y)的平均意義下的損失，稱為風險損失或期望損失；

經驗風險（模型關於訓練資料集的平均損失）：

總結：期望風險是模型關於聯合分布的期望損失，經驗風險是模型關於訓練樣本集的平均損失。根據大數定律，當樣本容量趨於無窮時，經驗風險趨於期望風險。所以我們可以用經驗風險去估計期望風險，因為我們並不知道聯合分布函式，但這限制於樣本的數目，當樣本數量過小的時候，此方法就不太可行了。

下面關於介紹模型的選擇：

一般我們都會基於訓練資料集，使用經驗風險最小化，在假設空間中，開始學習模型，選取損失函式，利用經驗風險最小化，從而得到引數的估計，也就是此模型；但這個模型是不是最優的，我們並不知道，我們還需要進行基於測試資料的**誤差是不是最小的進行判斷，此時再選取損失函式(但此時的損失函式未必就是之前的損失函式)。

如果我們為了一味追求提高訓練資料的**能力，所選的模型的複雜度往往會比真實模型的複雜度高很多，此就是過擬合；這對已知資料的**能力很好，但對未知資料的**能力極差。

基於經驗風險最小化，一般是基於大樣本進行的。

模型選擇的另一種典型方法是正則化(結構風險最小化)；其作用是選擇經驗風險與模型複雜度同時較小的模型。適用於小樣本。

還有一種當資料小的時候，還可以選擇交叉驗證；也就是對資料集進行多次的切分，測試，選擇出平均測試誤差最小的模型。

泛化能力：

統計機器學習中關於泛化能力的介紹：

在機器學習方法中，泛化能力通俗來講就是指學習到的模型對未知資料的**能力。在實際情況中，我們通常通過測試誤差來評價學習方法的泛化能力。但這種評價是依賴於測試資料集的，因為測試資料集是有限的，很有可能由此得到的評價結果是不可靠的。統計學習理論試圖從理論上對學習方法的泛化能力進行分析。

學習方法的泛化能力分析往往是通過研究泛化誤差的概率上界進行的；簡稱泛化誤差上界。

關於泛化誤差上界的證明：

統計機器學習方法記錄與總結

統計機器學習方法概論

統計學習方法（機器學習） 1 統計學習方法概要

統計學習方法總結

統計機器學習方法 記錄與總結

統計機器學習方法概論

統計學習方法（機器學習） 1 統計學習方法概要

統計學習方法總結

相關推薦

統計機器學習方法記錄與總結