機器學習之決策樹

1.利用資訊增益來進行決策樹的屬性劃分時選擇屬性的資訊增益較大的。資訊增益準則對可取值數目較多的屬性有多偏好(id3)，增益率準則對可取值數目較少的屬性有多偏好(c4.5)，因此，c4.5演算法並不是直接選擇增益率較大的時候選劃分屬性，而是使用了乙個啟發式：先從候選屬性中找出資訊增益高於平均水平的屬性，再從中選擇增益率最高的。

2.基尼值反映了從資料集d中隨機抽取兩個樣本，其類別標記不一致的概率，因此，基尼值越小，資料集d的純度越高。

基尼指數是基於基尼值進行一定的計算之後的屬性a的值，在候選集合a中，選擇使得劃分後基尼指數最小的屬性作為最優劃分屬性。

3.決策樹剪枝

3.1 預剪枝

對屬性劃分前後的泛化效能進行研究，如果泛化效能沒有變化或者分支之後的泛化效能小於當前的效能，那就不進行分支。

優點：使得決策樹的很多分支都沒有展開，降低了過度擬合的風險，顯著減少了決策樹的訓練時間開銷和測試時間開銷

缺點：雖然有些分支的當前劃分不能提高泛化效能、甚至可能導致泛化效能下降，但是在其基礎上進行後續劃分卻有可能導致效能顯著提高；預剪枝基於」貪心"本質禁止這些分支展開，給預剪枝決策樹帶來了欠擬合的風險

3.2 後剪枝

後剪枝是先從訓練集生成一顆完整的決策樹，然後從樹的底端不斷將非葉子節點替換為葉子節點，比較替換前後的決策樹的泛化效能之後決定是否進行剪枝。後剪枝決策樹通常比預剪枝決策樹保留了更多的分支，一般情況下，後剪枝決策樹的欠擬合風險很小，泛華效能往往優於預剪枝決策樹，但後剪枝過程是在生成完全決策樹之後進行的，並且要自底向上對書中的所有非葉子節點進行逐一考察，因此其訓練時間開銷比未剪枝決策樹和預剪枝決策樹都要大的多。

機器學習之決策樹

機器學習之決策樹

機器學習之決策樹

機器學習之決策樹

相關推薦