機器學習交叉驗證

交叉驗證是最好的測試方法

乙個問題叫做交叉驗證，是指假設要將乙份資料拆分成訓練集和測試集，這個時候怎麼評估出它的誤差？交叉驗證是把集合拆成五份，取四份做訓練集、乙份做測試集，並且每次選擇不同的那乙份做測試級，最後測出五個結果再做平均，這被認為是最好的測試方法。

交叉驗證確實是乙個還不錯的驗證的方法，但在現實應用場景下，它往往不是最合適的一種方式。因為通常來說，我們用機器學習做的事情是**，絕大多數情況下我們是用現在或者過去的資料做乙個模型來**未來。而拿過去的訓練**未來的最好測試方法不是交叉驗證，因為交叉驗證是按照交易或者按人拆分的。最合適的是方法其實是按照時間拆分，比如評估的時候選取乙個時間點，用在這個時間點之前的資料做訓練，**在這個時間點之後的，這是最接近真實應用場景的評估結果。

交叉驗證可能只適用於和時間屬性不相關的場景，比如人臉識別，但我們面臨更多的應用場景，無論是風險、營銷或者反欺詐，都是在用過去的資料訓練後**未來，最合適這樣場景的評估方法不是交叉驗證，而是按照時間去拆分。

機器學習交叉驗證

機器學習交叉驗證

機器學習 KFold交叉驗證

機器學習筆記6 交叉驗證

機器學習 交叉驗證

機器學習 交叉驗證

機器學習 KFold交叉驗證

機器學習筆記6 交叉驗證

相關推薦

機器學習交叉驗證

機器學習交叉驗證