C4 5和ID3的差別

決策樹分為兩大類：分類樹和回歸樹，前者用於分類標籤值，後者用於**連續值，常用演算法有id3、c4.5、cart等。

資訊量:

資訊熵:

當計算出各個特徵屬性的量化純度值後使用資訊增益度來選擇出當前資料集的分割特徵屬性；如果資訊增益度的值越大，表示在該特徵屬性上會損失的純度越大，那麼該屬性就越應該在決策樹的上層，計算公式為：

gain為a為特徵對訓練資料集d的資訊增益，它為集合d的經驗熵h(d)與特徵a給定條件下d的經驗條件熵h(d|a)之差。

id3演算法是決策樹的乙個經典的構造演算法，內部使用資訊熵以及資訊增益來進行構建；每次迭代選擇資訊增益最大的特徵屬性作為分割屬性。

優點:決策樹構建速度快；實現簡單；

缺點：計算依賴於特徵數目較多的特徵，而屬性值最多的屬性並不一定最優id3演算法不是遞增演算法id3演算法是單變數決策樹，對於特徵屬性之間的關係不會考慮抗噪性差只適合小規模資料集，需要將資料放到記憶體中

在id3演算法的基礎上，進行演算法優化提出的一種演算法(c4.5)；現在c4.5已經是特別經典的一種決策樹構造演算法；使用資訊增益率來取代id3演算法中的資訊增益，在樹的構造過程中會進行剪枝操作進行優化；能夠自動完成對連續屬性的離散化處理；c4.5演算法在選中分割屬性的時候選擇資訊增益率最大的屬性，涉及到的公式為：

優點：產生的規則易於理解準確率較高實現簡單

缺點：對資料集需要進行多次順序掃瞄和排序，所以效率較低只適合小規模資料集，需要將資料放到記憶體中

使用基尼係數作為資料純度的量化指標來構建的決策樹演算法就叫做cart(classification and regression tree，分類回歸樹)演算法。cart演算法使用gini增益作為分割屬性選擇的標準，選擇gini增益最大的作為當前資料集的分割屬性；可用於分類和回歸兩類問題。強調備註：cart構建是二叉樹。

id3和c4.5演算法均只適合在小規模資料集上使用

id3和c4.5演算法都是單變數決策樹

當屬性值取值比較多的時候，最好考慮c4.5演算法，id3得出的效果會比較差

決策樹分類一般情況只適合小資料量的情況(資料可以放記憶體)

cart演算法是三種演算法中最常用的一種決策樹構建演算法。

三種演算法的區別僅僅只是對於當前樹的評價標準不同而已，id3使用資訊增益、

c4.5使用資訊增益率、cart使用基尼係數。

cart演算法構建的一定是二叉樹，id3和c4.5構建的不一定是二叉樹。

C4 5和ID3的差別

ID3與C4 5的區別

ID3 和 C4 5的簡單比較

決策樹演算法 ID3和C4 5

C4 5和ID3的差別

ID3與C4 5的區別

ID3 和 C4 5的簡單比較

決策樹演算法 ID3和C4 5

相關推薦