ML筆記 決策樹ID3和C4 5演算法的異同

2021-08-04 16:53:27 字數 395 閱讀 5898

決策樹作為監督學習演算法的經典,在商業上(如:電信客戶流失**等)具有廣泛的應用,常見的決策樹演算法有:id3、c4.5、c5.0等,其中id3演算法是基礎,另兩種為改進演算法,c5.0又作為一種商業軟體而存在,但我們可以呼叫r中的c50包實現該演算法,本文主要介紹id3、c4.5演算法的異同。

資訊增益是資訊理論中的重要物理量,用來衡量資訊的重要程度,通俗來講可以把它當做乙個先驗概率的增量,即:事物a發生,使得事物b發生的概率的減少量。資訊增益(gain)的值在0到1之間,當gain(a,b)=0,事物a、b無關,當gain(a,b)=1,事物a、b之間關聯程度最大。

相對於其他分類演算法,決策樹的模型可解釋性更具有說明性,因為樹狀結構對於每乙個分枝節點均具有明確的標準,而不像svm將資料點對映到高維空間難以想象,也不想神經網路處理過程黑箱而難以理解。

決策樹演算法 ID3和C4 5

id3是quinlan提出的乙個著名的決策樹生成方法。一 id3的基本概念如下 二 資訊增益 從資訊理論知識中我們直到,期望資訊越小,資訊增益越大,從而純度越高。所以id3演算法的核心思想就是以資訊增益度量屬性選擇,選擇 後資訊增益最大的屬性進行 下面先定義幾個要用到的概念。設d為用類別對訓練元組進...

決策樹ID3和C4 5的區別

主要描述裡id3和c4.5的區別和改進,c4.5的優缺點,以及資訊增益與資訊增益比的計算方法 id3使用資訊增益作為特徵選擇的度量 c4.5使用資訊增益比作為特徵選擇的度量 資訊增益 g d,a h d h d a g d,a h d h d a h d h d 是資料集d的熵,計算公式h d kk...

構建樹ID3和C4 5(決策樹基礎知識二)

學習的簡單筆記,只是對一些概念之類的進行簡單記錄 對於 對上圖構建決策樹 過度擬合 如果決策樹對訓練樣本的特徵描述得 過於精確 無法實現對新樣本的合理分析,所以此時它不是一棵分析新資料的最佳決策樹。一棵完全決策樹能非常準確地反映訓練集中資料的特徵,但因失去了一般代表性而無法用於對新資料的分類或 這種...