模型評估過程中，主要的驗證方法與優缺點。

holdout檢驗是最簡單也是最直接的驗證方法，它將原始的樣本隨機劃分成訓練機和驗證集兩部分，通常情況下我們把樣本按照70%-30%的比例分成兩部分，70%用於模型的訓練，30%用於模型的驗證，包括繪製roc曲線，計算精確率和召回率等指標來評估模型效能。

同時holdout的缺點也很明顯，即在驗證集上計算出來的最後評估指標與原始的分組有很大關係，為了消除這種驗證的隨機性「交叉驗證」出現了。

交叉驗證是很常用的一種檢驗方法，常見的種類有k-fold交叉驗證（k折交叉驗證）和留一驗證。

首先將全部的樣本劃分成k個大小相等的子集；依次遍歷這k個樣本，每次將遍歷到的樣本當作驗證集，其餘的樣本作為訓練集來進行模型的訓練和評估，最後把他們的平均值作為最終的評估指標，通常情況下我們會將k的取值定為10。

每次留下乙個樣本作為驗證集，其餘所有樣本作為測試集，樣本的總數為n依次對n個樣本進行遍歷，進行n次驗證，再將評估指標求得平均值得到最終的評估指標。

對於樣本數量比較小的資料集，上述的方法（即便是留一法）會讓訓練集的數目減少，從而導致訓練後的模型出現很大的誤差影響了模型的結果。自助法能夠比較好的解決這個問題。

自助法是基於自助取樣法的乙個檢驗方法，對於總數為n的樣本集合，進行n次有放回的隨機抽樣，得到大小為n的訓練集，在我們進行n次取樣的過程中，有些樣本會被重複取樣，有些樣本還沒有被抽取過，我們將沒有抽取的樣本作為測試集進行模型的驗證，這就是自助法的主要思想。