對交叉驗證的認識

在我們比賽的演算法中，我們使用了交叉驗證方法來篩選比較重要的特徵，現在我們來了解一下什麼是交叉驗證(cross-validation)：有時亦稱迴圈估計，是一種統計學上將資料樣本切割成較小子集的實用方法。於是可以先在乙個子集上做分析，而其它子集則用來做後續對此分析的確認及驗證。一開始的子集被稱為訓練集。而其它的子集則被稱為驗證集或測試集。

交叉驗證對於人工智慧，機器學習，模式識別，分類器等研究都具有很強的指導與驗證意義。

基本思想是把在某種意義下將原始資料(dataset)進行分組,一部分做為訓練集(train set),另一部分做為驗證集(validation set or test set),首先用訓練集對分類器進行訓練,在利用驗證集來測試訓練得到的模型(model),以此來做為評價分類器的效能指標.

資料集分割原則

交叉驗證在，原始資料集分割為訓練集與測試集，必須遵守兩個要點：

訓練集中樣本數量必須夠多，一般至少大於總樣本數的 50%。

兩組子集必須從完整集合中均勻取樣。

其中第2點特別重要，均勻取樣的目的是希望減少訓練集/測試集與完整集合之間的偏差(bias)，但卻也不易做到。一般的作法是隨機取樣，當樣本數量足夠時，便可達到均勻取樣的效果。然而隨機也正是此作法的盲點，也是經常是可以在資料上做手腳的地方。舉例來說，當辨識率不理想時，便重新取樣一組訓練集與測試集，直到測試集的辨識率滿意為止，但嚴格來說便算是作弊。

對交叉驗證的認識

對「認識」的認識

spark PIPELINE 的交叉驗證

交叉驗證的作用

對交叉驗證的認識

對「認識」的認識

spark PIPELINE 的交叉驗證

交叉驗證的作用

相關推薦