資料集中訓練資料集和測試資料集特徵同分布

用標準資料來訓練，但是在真實的測試過程中，輸入資料的並不會是標準資料，導致了訓練與測試的兩個過程中資料分布的不一致。

首先，訓練集合與測試集合的分布完全一樣，這個不太現實，因為相對於有限的訓練集，測試集合理論上趨於無限大，所以無法窮盡。然而我們也不能為了單單去擬合我們手裡的測試集而調整模型。

那麼要了解業務場景，要知道你的產品需要到哪些場景中，人為的分析資料來源，這樣收集到的資料可能會更好。

這裡假定你有個識別人臉的應用，你的資料集是來自某知名人臉資料庫（簡稱原資料庫），10w張左右，清晰標註明確。而你的使用者是手機上傳影象，影象模糊且場景較複雜，1w張左右。那麼現在其實你應該關心的是1w張使用者資料，但是1w張樣本太少了，那麼此時可以隨機劃分出一部分使用者影象與原資料庫混合訓練，但是測試集合一定是使用者影象而非你的原資料庫，那麼這樣的模型可能就會表現的相對更好一些。

資料集中訓練資料集和測試資料集特徵同分布

將資料集切分成「訓練測試資料集」和交叉驗證

43 為什麼要訓練資料集與測試資料集

資料集預處理，劃分為測試資料集合驗證資料集

資料集中訓練資料集和測試資料集特徵同分布

將資料集切分成「訓練 測試資料集」和交叉驗證

43 為什麼要訓練資料集與測試資料集

資料集預處理，劃分為測試資料集合驗證資料集

相關推薦

將資料集切分成「訓練測試資料集」和交叉驗證