分類器的測試和驗證

在使用分類演算法的時候，通常需要去驗證分類演算法的準確性。

最簡單常用的方法就是將資料劃分成三部分：訓練集，驗證集，測試集。訓練集用於建立分類器，驗證集用於優化或調整分類器的引數，而測試集用於計算優化的分類器的誤差率。一旦誤差率確定，就可以將測試集合並到訓練集中，將由此產生的新分類器用於實踐。

上述方法在對於大資料集的時候可以採用，然而，如果資料集不是很大，那麼可以考慮將資料劃分為訓練集和測試集。實踐中，一般使用2/3的資料測試，1/3的資料驗證。

然而，有可能用於訓練的資料不具代表性。比如分類器將資料分成兩個類，而我們劃分的測試集恰巧只包含了乙個類的資料，而測試集包含了另乙個類的資料，顯然，這種情況下，一方面分類器有可能會過度擬合，另一方面，對於另乙個類由於缺少訓練而無法判斷。對於這種問題，最簡單的方法就是，隨機劃分訓練集和測試集，並進行多次測試。最後將每次迭代的誤差率求平均以得到最終的誤差率。

一種更為常見的統計學驗證方法是，使用交叉驗證。它先將資料分為幾拆，以3折為例，就是將資料平均分成3份。然後每次取3份中的2份做訓練，剩下的1份做測試，這樣重複3次。即三折交叉驗證。實踐中，10折交叉驗證被認為是標準方法。

分類器的測試和驗證

測試級別和分類

測試分類器的正確率

線性分類器和非線性分類器

分類器的測試和驗證

測試級別和分類

測試分類器的正確率

線性分類器和非線性分類器

相關推薦