機器學習之決策樹

決策樹演算法

分類回歸樹(cart,classification and regression tree)

id3演算法

c4.5演算法

chi-squared automatic interaction detector (chaid). 在生成樹的過程中用多層**.[7]

mars:可以更好的處理數值型資料。

使用決策樹作為**模型來**樣本的類標。這種決策樹也稱作分類樹或回歸樹。

資料以如下方式表示:

其中y是目標值，向量x由這些屬性構成, x1, x2, x3 等等，用來得到目標值。

1、來自周志華《機器學習》第4章

決策樹基於資訊熵進行劃分，書上劃分的原則是：選擇劃分以後資訊增益最大的屬性進行劃分，資訊增益的計算方式可以描述為：

$d - \sum_^jd_i * \frac$

其中，資訊熵越小越好，資訊增益越大越好。根據資訊增益的公式可以得出，同一樣本的dd 是一樣的，所以 $- \sum_^jd_i * \frac$ 越小，結果越好。因此我偷了個懶，通過最小化$- \sum_^jd_i * \frac$ 來達到最大化資訊增益的作用。其中，didi表示按照當前屬性劃分後，第 ii 類的資訊熵，cici 表示第 ii 類的樣本數量，cc 表示樣本總數量。例如，需要計算西瓜資料集根據「花紋」這一屬性的劃分結果，而「花紋」屬性有清晰、稍糊、模糊3個類別，則資訊增益是劃分前的資訊熵減去劃分後三個子類別資訊熵的加權平均值。

資訊熵的計算方式可以描述為：劃分後某一分支中，正樣本和負樣本所佔比的加權之和：

$-\sum_^j p_i * log_2p_i$

演算法核心流程：

s1】樣本中所有的節點型別相同

s2】所有節點屬性相同

s3】找到最佳劃分屬性

s4】遞迴建立子樹

機器學習 之 決策樹

機器學習之決策樹

機器學習之決策樹

機器學習之決策樹

相關推薦

機器學習之決策樹