模型評估與模型選擇

模型選擇的目的是使學到的模型對已知資料和未知資料都有較好的**能力，同時又要避免過擬合。所考察的指標主要是模型的訓練誤差及測試誤差，模型的複雜度越高，訓練誤差越小，但測試誤差先減小後增大。

訓練誤差和測試誤差隨模型複雜度變化趨勢

過擬合是指模型的複雜度比真模型更高，模型選擇就是選擇測試誤差最小的適當複雜度的模型，即複雜度要求最接近真模型。但往往並不知道真模型的複雜度，這時可以採用奧卡姆剃刀原理，即在所有可能的模型中，選擇能夠很好地解釋已知資料並且十分簡單的模型。

避免過擬合的一種方式是正則化，即在風險函式中加入關於模型複雜度的懲罰項，又稱為結構風險最小化策略的實現。模型越複雜，懲罰項越大。正則化的作用就是選擇經驗風險和模型複雜度同時較小的模型。

交叉驗證是為了提高模型**穩定性的一種策略，分為簡單交叉驗證、s折交叉驗證、留一交叉驗證。

評價分類器效能的指標：

錯誤率分類錯誤的樣本書佔樣本總數的比例誤差學習器的實際輸出與樣本的真實輸出之間的差異訓練誤差經驗誤差學習器在訓練集上的誤差泛華誤差在新樣本上的誤差過擬合學習器把訓練樣本學的太好了，很可能已經把訓練樣本本身的一些特點當作了所有潛在樣本都會具有的一般性質，導致泛華效能下降。欠擬...

1.概念錯誤率錯誤分類的樣本數佔樣本總數的比例精度 1 錯誤率，即正確分類的樣本數佔樣本總數的比例經驗訓練誤差學習器在訓練集上的誤差泛化誤差學習器在新樣本上的誤差過擬合學習器在訓練集上效果太好，而在新樣本上的效果較差的現象。模型選擇不同學習演算法或者相同的學習演算法，當使用不...

當我們有一堆模型，哪個是最好的呢？一定義錯誤率精度是不是就是正確率？誤差訓練誤差經驗誤差泛化誤差二過擬合與欠擬合過擬合學到了過多東西，那些特徵並不是正確的。欠擬合有些特徵沒有學到過擬合比較難解決欠擬合比較好解決，比如決策樹中擴充套件分支神經網路中增加訓練輪數怎樣評價乙...