機器學習模型評估與選擇

1.擬合：接近目標的遠近程度。

過擬合：學習能力過強導致過於擬合。過於學習學到認為女生必須是長頭髮。

欠擬合：學習能力低下導致欠擬合。學習能力低下，擁有長髮的都是女生。

2.評估方法：

目標：所選模型的泛化誤差最小

一、留出法

step 1：

將資料集d 互斥的分成訓練集s和測試集t，d=sut。

step 2：執行，得評估結果

多次迴圈step1、step2

最後，取多次重複實驗的均值進行評估

通常：

2/3~4/5的樣本用作訓練集，剩餘樣本作為測試集。

同時，保證樣本資料分布的一致性。

二、交叉驗證法

step 1：

將資料集d 互斥的分為k個大小相似的子集，d=d1 u d2 u … u dk，並保證資料分布的一致性。

step 2：每次用k-1個子集做訓練集，剩下乙個子集做測試集

step 3：執行，得評估結果

多次迴圈step1、step2、step3

最後，取多次重複實驗的均值進行評估

通常：

1）一般k取10，20，5

2）資料集較大時，訓練大量模型，開銷較大

三、自助法

直接以自助取樣法（bootstrap sampling）為基礎產生訓練樣本、測試樣本。

給定包含m個樣本的資料集d，對d進行隨機又放回的取樣產生資料集d』，將d』作為訓練集，d\d』作為測試集。

通常，

1）用於資料集較小，難以有效劃分訓練/測試集時很有用；

2）自助法對整合學習很有用，自助法可以從初始資料集中產生很多不同的訓練集

3.效能度量

衡量模型泛化能力的評價標準。

一、錯誤率與精度

1）錯誤率：分類錯誤的樣本數佔樣本總數的比例

2）精度：分類正確的樣本數佔樣本總數的比例

二、查準率、查全率、f1

錯誤率與精度有時不能滿足所有任務需求。

對於二分類問題，真正例tp、假正例fp、真反例tn、假反例fn。混淆矩陣

查準率：p = tp/(tp+fp)

查全率：r = tp/(tp+fn)

查準率與查全率是一對矛盾的度量。

例如：若希望將好瓜盡可能多地選出來，則可通過增加選瓜的數量來實現，如果將所有西瓜都選上，那麼所有的好瓜也必然都被選上了，但這樣查準率就會比較低；若希望選出的瓜中好瓜比例盡可能高，則可只挑選最有把握的瓜，但這樣就難免會漏掉不少好瓜，使得查全率較低，通常只有在一些簡單任務中，才可能使查全率和查準率都很高。

p-r曲線，找平衡點（break-even point，bep），p=r。

在一些應用中，對查準率、查全率重視程度不同。

f1度量的一般形式

f1是基於查準率與查全率的調和平均定義的：

加權調和平均

引數大於1時，查全率有更大影響；小於1時，查準率有更大影響。

4.roc與auc

1）roc曲線：

受試者工作特徵曲線（receiver operating characteristic curve）根據一系列不同的二分類方式（分界值或決定閾），以真正例率（true positive rate，tpr，靈敏度）為縱座標，假正例率（false positive rate，fpr，1-特異度）為橫座標繪製的曲線。

tpr=tp/(tp+fn)

fpr=fp/(fp+tn)

2）auc（area under roc curve）

指roc曲線的下面積。曲線下面積越大，診斷準確性越高。

機器學習 模型評估與選擇

機器學習 模型評估與選擇

機器學習 模型評估與選擇

機器學習模型評估與選擇

相關推薦

機器學習模型評估與選擇

機器學習模型評估與選擇

機器學習模型評估與選擇