驗證集的作用和在sklearn中的實現

在機器學習中，資料一般分為訓練集，驗證集和測試集。

訓練集用於訓練模型引數，測試集用於估計模型對樣本的泛化誤差，驗證集用於「訓練」模型的超引數。

乙個機器學習模型通常包括兩個部分的引數：模型引數和超引數。其中超引數是用於控制模型行為的引數，這些引數不是通過模型本身學習而來的。想要獲得超引數，並不能直接使用訓練集進行，因為如果使用訓練集來選擇超引數，那麼超引數總是會往增加模型容量的方向發展，容易出現過擬合，那麼我們就需要單獨取出一部分資料進行超引數的確定，而這一部分就是驗證集。

參考文章：

由於我在學習機器學習，所以使用sklearn中的神器：gridsearchercv()

它使用交叉驗證的方式,對某一分類器,你制定想要調參的名稱和數值,作為乙個字典傳入進這個函式,然後它就會告訴你最佳的引數組合.(其實就是for for for都試試).

from sklearn.model_selection import gridsearchcv
defgrid
(clf, x_prove, y_prove)
: tuned_parameter =
rfc = gridsearchcv(estimator=clf, param_grid=tuned_parameter, cv=
5, n_jobs=1)
rfc.fit(x_prove, y_prove)
return rfc.best_params_[
'max_features'
], rfc.best_params_[
'n_estimators'
]

**中引數：

clf 可以是很多機器學習演算法的例項化物件，比如：clf = tree.decisiontreeclassifier(criterion=『gini』)

x_prove,y_prove:驗證集的資料和標籤。

注意一下這條語句：

tuned_parameter =

由於當時不知道隨機森林不需要交叉驗證，所以使用了該方法，所以字典中的內容其實是隨機森林，如果大家想試試這個gridsearchcv函式，就需要把字典進行修改，改為對應機器學習演算法的引數進行乙個最佳引數的選擇。

提一句：隨機森林不需要單獨的驗證集交叉驗證，他會使用bootstrap sampling方法從訓練集中找到大約63.2%的資料進行訓練，而剩下的約36.8%資料可以作為驗證集來對泛化效能進行「包外估計」（和單獨的驗證集交叉驗證我感覺功能一樣，都是為了提公升泛化效能），對應randomforestclassifier函式中引數oob_score，預設為false，需要自己手動設定為true。

驗證集的作用和在sklearn中的實現

訓練集驗證集測試集的作用

和在巨集替換中的作用

訓練集驗證集測試集的關係與作用

驗證集的作用和在sklearn中的實現

訓練集 驗證集 測試集的作用

和 在巨集替換中的作用

訓練集 驗證集 測試集的關係與作用

相關推薦

訓練集驗證集測試集的作用

和在巨集替換中的作用

訓練集驗證集測試集的關係與作用