機器學習中常見的評估方法

通常，我們可通過實驗測試來對學習器的泛化誤差進行評估並進而做出選擇。因此，需使用「測試集」來測試學習器對新樣本的判別能力，然後以測試集上的「測試誤差」作為泛化誤差的近似。

將樣本集變成訓練集和測試集，而訓練集和測試集如何分配，使效果達到最優。具體有三種做法：留出法、較差驗證法和自主法。

直接將資料集d劃分為兩個互斥集合s（訓練集）和t（測試集）。d=s∪t,s∩t=∅，在s上訓練出模型後，用t來評估測試誤差，並將其作為泛化誤差的估計。

舉例：採用方法：二分類任務

樣本集：d包含1000個樣本，其中500個正例，500個反例

s與t的劃分方法：s包含700個樣本，正例350，反例350；t包含300個樣本，正例150，反例150

錯誤率與精度的計算：假設t上有90個樣本分類錯誤，其錯誤率為（90/300）*100%=30%；精度為[(300-90)/300]*100%=1-30%=70%

補充：單次使用留出法得到的估計誤差往往不夠穩定，一般要採用若干次隨機劃分、重複進行實驗評估後取平均值作為留出法的評估結果。如對上述1000個樣本，可反覆隨機劃分s和t，使用模型方法後，計算精度，求取平均值。

將資料集d劃分為k個大小相似的互斥子集，即d=d1

∪d2∪…∪dk

,di∩dj=∅(i≠j)，每個子集di都盡可能保持資料分布一致。

舉例：採用方法：二分類任務

樣本集：d包含1000個樣本，其中500個正例，500個反例

s和t的劃分方法：

訓練集測試集

測試結果d1

d2 d3

d4 d5

d6 d7

d8 d9

d10

測試集精度1d1

d2 d3

d4 d5

d6 d7

d8 d10 d9

測試集精度2

…………

……d2 d3

d4 d5

d6 d7

d8 d9

d10 d1

測試集精度10

補充：交叉驗證法存在乙個特例：留一法。若樣本集為1000個，訓練集為999個，測試集為1個。對於資料集比較大的情況，訓練開銷大。

給定包含m個樣本的資料集d，對其進行取樣產生資料集d『：每次隨機從d中挑選乙個樣本，將其拷貝到d『，然後將該樣本放回到d中，使該樣本在下次取樣中人可能被採到；重複m次後，便得到了包含m個樣本的資料集d『。

舉例：採用方法：二分類任務

取樣集：d包含1000個樣本，其中500個正例，500個反例

s和t的劃分方法：

隨機可放回的抽取700個樣本作為訓練集，在這700個樣本中會存在重複的樣本。其中樣本在700次取樣中始終不被採到的概率為(1-1/

700)^700=0.3676。（當取樣數為m時，始終不被採到的某樣本概率為(1-1/

m)^m，取極限得到limm

→∞(1-1/

m)^m→1/

e≈0.368）。

測試集中有0.36概率的樣本未在訓練集**現，可選擇d\d』中的300個樣本作為測試集。並計算測試集中模型的精度。

補充：自助法在資料集較小，難以有效劃分訓練和測試集時方法較為有用。但通過自助法產生的資料集改變了初始資料集的分布，會出現估計偏差。

大多數演算法均需要配置引數，引數配置不同，學得模型的效能往往有顯著差別。配置引數需選定乙個範圍和變化步長。

在給定抱恨m個樣本的資料集d中，模型評估與選擇過程中均需要留一部分資料進行評估測試，事實上，我們只是用一部分資料進行訓練模型。在模型選擇完成後，學習演算法和引數配置均選定，此時應該用資料集d重新訓練模型，這個模型在訓練過程中使用了所有m個樣本，這才是最終提交給使用者的模型。

形成模型中使用的資料為「測試集」，評估模型的資料稱為「驗證集」。

上述過程主要是介紹了三種劃分測試集與驗證集的方法，主要是留出法、交叉驗證法和自助法，前兩種方法很相似，後一種方法對於初始資料量足夠的情況下會有估計偏差的問題。具體情況，使用者可選擇適合的劃分方法對模型進行驗證。

機器學習中常見的評估方法

機器學習的常見評估方法

機器學習評估方法

機器學習模型評估方法

機器學習中常見的評估方法

機器學習的常見評估方法

機器學習評估方法

機器學習模型評估方法

相關推薦