機器學習之模型評估與選擇

2021-10-01 05:43:25 字數 517 閱讀 6933

1.誤差及擬合

訓練誤差:通過訓練集訓練出的模型,在訓練集上的**輸出與實際值之間的誤差;泛化誤差:模型在測試集上的誤差;

訓練集用來訓練模型,測試集用來驗證模型的準確性;一般會把樣本7:3區分成訓練集和測試集,普遍情況下,判斷乙個模型是否優秀,不是看在訓練集上的表現,更多的是看模型在測試集上的表現,即模型的泛化能力;而模型的過擬合和欠擬合一般都會導致泛化效能的下降

過擬合:把只適用於訓練集的特徵體現在模型中去

欠擬合:普遍適用的模型特徵沒有學習到位

2.評估方法

交叉驗證法:把樣本集分為k個互斥子集(盡量保證每個子集的資料分布一致),依次選用其中乙個子集作為測試集,其餘子集作為訓練集,從而可以進行k次訓練和測試,最終返回k次測試的結果均值,這樣的方法稱為『k折交叉驗證』,同時重複上述方法n次,則稱為『n次k折交叉驗證』

交叉驗證法可以通過使用sklearn.model_selection,具體可看sklearn官網的使用說明:

機器學習之模型評估與選擇

分為五部分 1 經驗誤差及過擬合 2 評估方法 3 效能度量 4 比較檢驗 5 偏差與方差。錯誤率 error rate 分類錯誤的樣本數佔總樣本數。精度 accuracy 1 錯誤率。誤差 error 學習器的實際 輸出和樣本的真實輸出的差異。在訓練集上的是訓練誤差,在新樣本上的是泛化誤差。過擬合...

機器學習 模型評估與選擇

1.擬合 接近目標的遠近程度。過擬合 學習能力過強導致過於擬合。過於學習學到認為女生必須是長頭髮。欠擬合 學習能力低下導致欠擬合。學習能力低下,擁有長髮的都是女生。2.評估方法 目標 所選模型的泛化誤差最小 一 留出法 step 1 將資料集d 互斥 的分成訓練集s和測試集t,d sut。step ...

機器學習 模型評估與選擇

1 經驗誤差和過擬合 錯誤率 分類錯誤的樣本數佔樣本總數的比例 精度 1 錯誤率 誤差分為訓練誤差 或稱經驗誤差 和泛化誤差 訓練誤差 在訓練集上的誤差 泛化誤差 在新樣本上的誤差 機器學習的目標是得到泛化誤差最小的學習器。學習器把訓練樣本學得 太好 了的時候,很可能已經把訓練樣本自身的一些特點當做...