機器學習之模型評估與選擇

2021-10-01 05:43:25 字數 517 閱讀 6933

1.誤差及擬合

訓練誤差：通過訓練集訓練出的模型，在訓練集上的**輸出與實際值之間的誤差；泛化誤差：模型在測試集上的誤差；

訓練集用來訓練模型，測試集用來驗證模型的準確性；一般會把樣本7:3區分成訓練集和測試集，普遍情況下，判斷乙個模型是否優秀，不是看在訓練集上的表現，更多的是看模型在測試集上的表現，即模型的泛化能力；而模型的過擬合和欠擬合一般都會導致泛化效能的下降

過擬合：把只適用於訓練集的特徵體現在模型中去

欠擬合：普遍適用的模型特徵沒有學習到位

2.評估方法

交叉驗證法：把樣本集分為k個互斥子集(盡量保證每個子集的資料分布一致)，依次選用其中乙個子集作為測試集，其餘子集作為訓練集，從而可以進行k次訓練和測試，最終返回k次測試的結果均值，這樣的方法稱為『k折交叉驗證』，同時重複上述方法n次，則稱為『n次k折交叉驗證』

交叉驗證法可以通過使用sklearn.model_selection,具體可看sklearn官網的使用說明:

機器學習之模型評估與選擇

分為五部分 1 經驗誤差及過擬合 2 評估方法 3 效能度量 4 比較檢驗 5 偏差與方差。錯誤率 error rate 分類錯誤的樣本數佔總樣本數。精度 accuracy 1 錯誤率。誤差 error 學習器的實際輸出和樣本的真實輸出的差異。在訓練集上的是訓練誤差，在新樣本上的是泛化誤差。過擬合...

機器學習模型評估與選擇

1.擬合接近目標的遠近程度。過擬合學習能力過強導致過於擬合。過於學習學到認為女生必須是長頭髮。欠擬合學習能力低下導致欠擬合。學習能力低下，擁有長髮的都是女生。2.評估方法目標所選模型的泛化誤差最小一留出法 step 1 將資料集d 互斥的分成訓練集s和測試集t，d sut。step ...

機器學習模型評估與選擇

1 經驗誤差和過擬合錯誤率分類錯誤的樣本數佔樣本總數的比例精度 1 錯誤率誤差分為訓練誤差或稱經驗誤差和泛化誤差訓練誤差在訓練集上的誤差泛化誤差在新樣本上的誤差機器學習的目標是得到泛化誤差最小的學習器。學習器把訓練樣本學得太好了的時候，很可能已經把訓練樣本自身的一些特點當做...