機器學習模型評估與選擇 1

一些定義：

錯誤率：分類錯誤的樣本數佔樣本總數的比例

精度：精度=1-錯誤率

誤差：學習器實際**輸出與樣本的真實輸出之間的差異

訓練誤差或經驗誤差：學習器在訓練集上的誤差

泛化誤差：學習器在新樣本上的誤差

我們實際希望的是能在新樣本上表現很好的學習器，但是常常會出現在訓練集上表現很好但是在新樣本上表現不好，這種現象叫做過擬合，這時學習器很可能已經把訓練樣本自身的一些特點當作所有潛在樣本都具有的一般性質，因此導致泛化能力下降。

與之對應還有欠擬合，是指訓練集上的表現都不好！

直觀模擬如下圖

現實任務，有多種學習演算法可供選擇，對同乙個學習演算法，使用不同的引數配置也會產生不同的模型，我們選哪種？這就是模型選擇問題。模型選擇肯定是要比較模型的好壞，這就涉及模型的評估。

模型評估應選擇模型的泛化誤差來進行評估。用測試集上的測試誤差來作為泛化誤差的近似。

我們僅有乙個包含m個樣例的資料集d，將它處理產生訓練集s和測試集t，下面介紹常見的做法。

留出法：直接將資料集d劃分為兩個互斥的集合，其中乙個作為s，另乙個作為t

注意：

劃分應盡可能保持資料分布的一致性（不要因為劃分引入偏差），使用分層取樣來保留類別比例，s和t中各個類別的比例是相同的。

單次使用留出法得到的估計結果往往不夠可靠，一般採用若干次隨機劃分、重複進行實驗評估後取平均值作為最後評估結果。

2/3~4/5的樣本用於訓練，剩餘樣本用於測試

交叉驗證法：將資料集d劃分為k個大小相似的互斥子集，每個子集都從d中通過分層取樣得到，每次使用k-1個子集的並集作為訓練集，餘下的那個子集作為測試集，一共進行這樣k次訓練和測試，返回k個測試結果的均值。稱k折交叉驗證。

注意：

k最常用取值是10，還有5，20

將d劃分為k個子集有多種劃分方式，為減少因劃分引入的差別，可以重複p次k折交叉驗證，最後的結果取p次均值。

d中有m個樣本，若k=m，則稱為留一法。留一法評估結果往往被認為比較準確，但是在資料集比較大時，開銷太大。

在留出法和交叉驗證法中，實際模型所用的訓練集比d小（都分出去一部分作為測試集），這會引起偏差！

自助法：以自助取樣法為基礎，給定包含m個樣本的資料集d，每次隨機從d中挑乙個樣本放入d』，這個樣本並不從d中刪除，這個過程重複執行m次，我們得到包含m個樣本的資料集d』作為訓練集，d\d』作為測試集。

注意：

通過自助取樣，d中約有36.8%的樣本未在d』中出現。

自助法對於資料集較小、難以有效劃分訓練集和測試集時有用。

自助法產生的資料集d』改變了初始資料集的分布，會引入偏差！！！

資料量足夠，留出法和交叉驗證法更常用一些。

調參很難啊，折中的話，對每個引數選擇範圍和變化步長，例如[0,0.2]中以0.05為步長，候選引數有5個，就在這5個裡面挑。

我們用測試集上的判別效果來估計模型的泛化能力，而把訓練資料另外分為訓練集和驗證集，基於驗證集上的效能進行模型選擇和調參（學習過程中用的，避免過學習，輔助訓練）。訓練集時模型學習好之後用的。