分類器訓練的過擬合問題和處理方法未整理完成

模型訓練過程中過度擬合訓練集，將訓練樣本中的雜訊（錯誤的樣本）學習進去，使得訓練誤差不斷降低和模型複雜度不斷提高，最終導致泛化誤差公升高的一種現象

成因：雜訊（錯誤的樣本），樣本過少/缺乏代表性

估計泛化誤差用於在訓練過程中對模型的泛化誤差做估計，可用於優化模型建立，避免模型過擬合。這裡關於泛化誤差的估計，是在訓練過程中進行。要區別於模型評估階段的泛化誤差估計

用訓練誤差來表示泛化誤差

2.1悲觀誤差估計：訓練誤差+模型複雜度懲罰項

2.2最小描述長度原則

3 估計統計上界：

將訓練誤差看作乙個隨機變數，估計出訓練誤差的上屆，以此表示泛化誤差p113

這章節主要討論如何對分類器進行比較和選擇。這裡強調對分類器的選擇方法

通過估計泛化誤差實現，即計算模型在測試樣本集上的誤差；

步驟：1、估計泛化誤差；2、根據計算得到泛化誤差，使用顯著性檢驗進行選擇

1、估計泛化誤差：保持法、交叉驗證/留一法、自助法

2、使用顯著性檢驗進行選擇

一至三章節，主要討論過擬合以及防止過擬合的一些手段。現在討論模型訓練中的另外乙個重要問題，不平衡類問題。

在一至三節，使用的評估指標都是準確率，但是準確率將所有樣本都看得同等重要，因此在不適用於不平衡類資料集中

由於準確率是靈敏度和特效性的函式

其中靈敏度和特效性：

從以下例子來說明準確率不適合p239

從上門可以看出，分類器對稀有類的靈敏度太低（30%），而整體準確率為96.4%，這是由於稀有類數量比重過低造成。

因此對於不平衡類問題，廣泛使用精度和召回率進行度量。

乙個理想分類器在精度和召回率都接近1，但這兩個指標一般呈現反向關係，需要根據實際需要進行取捨。

精度和召回率另一種表現方式稱為f度量，該度量是精度和召回率的組合。

代價敏感學習/基於和成本效益

基於抽樣的方法

抽樣的思想是為了改變樣本的分布，從而是的稀有類在訓練集中有很好的表示。主要的抽樣方法有不充分抽樣和過抽樣。由於不充分抽樣和過抽樣都存在一些缺陷，因此一般混合使用這兩種方法

參考：資料探勘導論 pang ning tan

資料探勘：概念與技術

如何解決訓練網路過擬合的問題？

二降低模型複雜度三正則化方法四訓練五整合方法補充降低欠擬合風險的方法如何解決網路過擬合的問題？判斷乙個訓練模型過擬合，主要依據來自於，該模型在訓練集上的表現很好。但是在測試集合和新資料上的表現都不太好的情況。可以從以下的三個角度去解決訓練網路過擬合的問題。從資料入手，獲得更多...

機器學習邏輯回歸2 多分類問題和過擬合問題

邏輯回歸1 現實生活中常遇到很多多分類學習任務，有些二分類學習方法可以直接推廣到多分類，但在現實更多情形下，我們是基於一些策略，利用二分類學習器來解決多分類問題。利用二分類學習器進行的多分類學習可以分為三種策略給定資料集d x1,y1 x2,y2 xm,y m d x1,y 1 x2,y 2 x ...

過擬合和欠擬合的一些問題

三產生過擬合原因四解決過擬合方法圖一欠擬合模型擬合程度不高，資料距離擬合曲線較遠，或指模型沒有很好地捕捉到資料特徵，不能夠很好地擬合資料。圖二正常擬合圖三過擬合模型擬合度好過頭了。a.根本原因特徵維度過少，模型過於簡單，導致擬合的函式無法滿足訓練集，誤差較大 b.解決方法增加...

分類器訓練的過擬合問題和處理方法 未整理完成

如何解決訓練網路過擬合的問題？

機器學習 邏輯回歸2 多分類問題和過擬合問題

過擬合和欠擬合的一些問題

相關推薦

分類器訓練的過擬合問題和處理方法未整理完成

機器學習邏輯回歸2 多分類問題和過擬合問題