構建樹ID3和C4 5（決策樹基礎知識二）

學習的簡單筆記，只是對一些概念之類的進行簡單記錄

對於

對上圖構建決策樹

過度擬合：如果決策樹對訓練樣本的特徵描述得「過於精確」，無法實現對新樣本的合理分析，所以此時它不是一棵分析新資料的最佳決策樹。一棵完全決策樹能非常準確地反映訓練集中資料的特徵，但因失去了一般代表性而無法用於對新資料的分類或**，這種現象一般稱為「過擬合」。

定義：給定乙個假設h，如果在假設空間上存在另乙個假設h』，使得在訓練集上h的錯誤率差比h』小，而在測試集上h的錯誤率卻比h』要大，那麼稱假設h過度擬合訓練資料。

產生過度擬合資料問題的原因有哪些？

原因1：樣本問題

（1）樣本裡的噪音資料干擾過大，大到模型過分記住了噪音特徵，反而忽略了真實的輸入輸出間的關係；

（2）樣本抽取錯誤，包括（但不限於）樣本數量太少，抽樣方法錯誤，抽樣時沒有足夠正確考慮業務場景或業務特點，等等導致抽出的樣本資料不能有效足夠代表業務邏輯或業務場景；

（3）建模時使用了樣本中太多無關的輸入變數。

原因1的解決方法：

合理、有效地抽樣，用相對能夠反映業務邏輯的訓練集去產生決策樹；

原因2：構建決策樹的方法問題

在決策樹模型搭建中，我們使用的演算法對於決策樹的生長沒有合理的限制和修剪的話，決策樹的自由生長有可能每片葉子裡只包含單純的事件資料或非事件資料，可以想象，這種決策樹當然可以完美匹配（擬合）訓練資料，但是一旦應用到新的業務真實資料時，效果是一塌糊塗

原因2的主要解決方法：

剪枝：提前停止樹的增長或對已經生成的樹按照一定的規則進行後剪枝。

c4.5演算法與id3演算法相似，c4.5演算法對id3演算法進行了改進.c4.5在生成的過程中，用資訊增益比來選擇特徵。（id3採用資訊熵進行構建，關於資訊熵和資訊增益的計算可參考

決策樹的生成就是遞迴地構建二叉決策樹的過程。對回歸樹用平方誤差最小化準則，對分類樹用基尼指數(gini index)最小化準則，進行特徵選擇，生成二叉樹。