深度學習中驗證集與測試集的區別

驗證集 —— 是模型訓練過程中單獨留出的樣本集，它可以用於調整模型的超引數和用於對模型的能力進行初步評估。

測試集 —— 用來評估模最終模型的泛化能力。但不能作為調參、選擇特徵等演算法相關的選擇的依據。

訓練集用於模型引數，測試集用於估計模型對樣本的泛化誤差，驗證集用於「訓練」模型的超引數。

我們知道乙個機器學習模型通常包括兩個部分的引數：模型引數和超引數。其中超引數是用於控制模型行為的超引數，這些引數不是通過模型本身學習而來的。例如多項式回歸模型裡面，多項式的次數，學習速率是超引數。這些超引數不能由模型本身訓練得到，是因為模型會傾向把引數訓練的過大或者過小，從而極容易導致過擬合。例如多項式回歸模型裡面。如果讓模型本身去訓練多項式的次數，那麼模型會選擇高次多項式，因為這樣做誤差可以取到特別小，極端情況下，n個點的多項式回歸會選擇次數n。然而這些超引數，也會有不同的選擇，例如學習速率可以選擇0.1， 0.01， 1， 10···那麼我們怎麼知道超引數的某個值比另外乙個好呢？乙個很自然的想法是我們可以選擇不同的超引數值，然後跑在同乙個訓練集上再看看最後的結果。

參考：1

深度學習中驗證集與測試集的區別

深度學習驗證集測試集區別

深度學習中的訓練集與測試集

機器學習中訓練集驗證集和測試集的區別

深度學習中驗證集與測試集的區別

深度學習 驗證集 測試集 區別

深度學習中的訓練集與測試集

機器學習中訓練集 驗證集和測試集的區別

相關推薦

深度學習驗證集測試集區別

機器學習中訓練集驗證集和測試集的區別