機器學習基礎（五十一）決策樹的剪枝

使用一般的尋量方法得到的決策樹會遇到乙個問題，那就是決策樹可能會變得過擬合（overfitted）——也就是說，它可能會變得過分針對訓練資料。專門針對訓練集所建立出來的分支，其熵值與真實情況相比，可能會有所降低，但因決策樹上的判斷條件其實是完全隨意的，因此一棵過擬合的決策樹所給出的答案也許會比實際情況更具特殊性，也即泛化能力較差。

一般的決策樹演算法直到無法再進一步降低熵的時候（if best_gain > 0）才會停止分支的建立，所以一種可行的解決方案就是，只有當熵減少的數量小於某個閾值時，我們就停止分支的建立。這種策略時常被人們採用，但是它有乙個小小的缺陷，我們可能會遇到這樣的資料集：某一次分支的建立並不會降低熵多少，但是隨後建立的分支卻會使熵大幅降低。對此，一種替代的策略是，先構造好整棵樹，然後再嘗試消除多餘的節點，這個過程就是剪枝（prune）。

剪枝的過程就是對具有相同父節點的一組節點進行檢查，判斷如果將其合併，熵的增加量是否會小於某個指定的閾值。如果確實如此，則這些節點會被合併成乙個單一的節點，合併後的新節點包含所有可能的結果值。