機器學習訓練集驗證集測試集

為什麼要將資料集分為訓練集、驗證集、測試集三部分？

對於很多機器學習的初學者來說，這個問題常常令人很迷惑，特別是對於驗證集和測試集的區別更讓人摸不到頭腦。

下面，我談一下這三個資料集的作用，及必要性：

訓練集：顯然，每個模型都需要訓練集，訓練集的作用很明顯，就是直接參與模型的訓練過程。

測試集：測試集完全不參與訓練，就是說模型的產生過程和測試集是完全沒有關係的。之所以要求測試集和模型的產生過程完全沒有關係，是因為測試集的作用就是驗證模型的泛化能力，只有測試集完全不參與模型的產生過程，測試集才能夠有效的衡量模型的泛化能力。

驗證集：為什麼需要驗證集呢？很多時候我們通過訓練集訓練出乙個模型，我們想知道該模型的泛化能力怎麼樣呢？同時我們想根據該模型的泛化能力再反過來調節模型的引數（例如：調節超引數，或者重新訓練模型等）。因此，我們需要乙個沒有直接參與模型訓練過程的資料集來評估模型的泛化能力，但是顯然該資料集不能是測試集，因為測試集要求完全不參與模型的產生過程，但是我們需要的這個資料集顯然參與了模型的產生過程（根據模型在該資料集上的效能表現反過去調整模型的相應引數）。所以驗證集就應運而生。

我們常最迷惑的地方就是驗證集的作用，總結來說，驗證集不直接參與訓練過程，但是其參與了模型的產生過程。它是模型調優過程中的關鍵資料集。

在我看來，任何乙個規範的模型訓練過程，都需要這三個資料集，因為任何模型都需要訓練集；訓練出來的模型都需要乙個調優的過程（通常不可能你一次訓練出的模型就一定有很好的效能表現），因此都需要驗證集；在驗證集上模型調優結束之後，都需要乙個測試集來最終檢驗模型的效能。（記住，測試集不用於模型的調優，它僅僅是測試最終模型的效能而已，即不能根據測試集的表現再返回去修改模型引數，因為一旦你這麼做了就很可能會過擬合測試集，那麼測試集也就失去了它存在的意義了）。

在學習過程中參考了一篇**：該**對於測試集的作用有著深刻的見解。

如上是我個人在學習過程中的認識和總結，我認為肯定是有不妥和偏差之處，希望多多批評指教！

機器學習訓練集驗證集測試集

機器學習的訓練集驗證集和測試集

機器學習中的訓練集驗證集測試集

機器學習中的訓練集驗證集測試集

機器學習 訓練集 驗證集 測試集

機器學習的訓練集 驗證集和測試集

機器學習中的訓練集 驗證集 測試集

機器學習中的訓練集 驗證集 測試集

相關推薦

機器學習訓練集驗證集測試集

機器學習的訓練集驗證集和測試集

機器學習中的訓練集驗證集測試集

機器學習中的訓練集驗證集測試集