後剪枝之悲觀剪枝法

把一顆子樹（具有多個葉子節點）的分類用乙個葉子節點來替代的話，在訓練集上的誤判率肯定是上公升的，但是在新資料上不一定。於是我們需要把子樹的誤判計算加上乙個經驗性的懲罰因子。對於一顆葉子節點，它覆蓋了n個樣本，其中有e個錯誤，那麼該葉子節點的錯誤率為（e+0.5）/n。這個0.5就是懲罰因子，那麼一顆子樹，它有l個葉子節點，那麼該子樹的誤判率估計為

。這樣的話，我們可以看到一顆子樹雖然具有多個子節點，但由於加上了懲罰因子，所以子樹的誤判率計算未必佔到便宜。剪枝後內部節點變成了葉子節點，其誤判個數j也需要加上乙個懲罰因子，變成j+0.5。那麼子樹是否可以被剪枝就取決於剪枝後的錯誤j+0.5在

的標準誤差內。對於樣本的誤差率e，我們可以根據經驗把它估計成各種各樣的分布模型，比如是二項式分布，比如是正態分佈。

那麼一棵樹錯誤分類乙個樣本值為1，正確分類乙個樣本值為0，該樹錯誤分類的概率（誤判率）為e（e為分布的固有屬性,可以通過統計出來），那麼樹的誤判次數就是伯努利分布，我們可以估計出該樹的誤判次數均值和標準差：

把子樹替換成葉子節點後，該葉子的誤判次數也是乙個伯努利分布，其概率誤判率e為(e+0.5)/n，因此葉子節點的誤判次數均值為

使用訓練資料，子樹總是比替換為乙個葉節點後產生的誤差小，但是使用校正後有誤差計算方法卻並非如此，當子樹的誤判個數大過對應葉節點的誤判個數乙個標準差之後，就決定剪枝：

這個條件就是剪枝的標準。

當並不一定非要大乙個標準差，可以給定任意的置信區間，我們設定一定的顯著性因子，就可以估算出誤判次數的上下界。

比如t4這棵子樹的誤差率：

子樹誤差率的標準誤差：

子樹替換為乙個葉節點後，其誤差率為：

因為

後剪枝之悲觀剪枝法

輸入法之模型剪枝一基於熵的剪枝

「通用解題法」之回溯中的「剪枝」

分支界限法（剪枝法）學習

後剪枝之悲觀剪枝法

輸入法之模型剪枝一 基於熵的剪枝

「通用解題法」之回溯中的「剪枝」

分支界限法（剪枝法）學習

相關推薦

輸入法之模型剪枝一基於熵的剪枝