機器學習之決策樹

數學概念：

我們在構造決策樹的時候，會基於純度來構建。而經典的「不純度」的指標有三種，分別是資訊增益（id3 演算法）、資訊增益率（c4.5 演算法）以及基尼指數（cart 演算法）。

資訊增益：加入的某種特徵可以減少的資訊熵

計算公式，是父親節點的資訊熵減去所有子節點的資訊熵

1.id3:使用的分類標準是資訊增益

缺點: 中寫道：

對於連續型資料，id3原本是沒有處理能力的，只有通過離散化將連續性資料轉化成離散型資料再進行處理。可以直接採用等距離資料劃分的離散化方法。該方法先對資料進行排序，然後將連續型資料劃分為多個區間，並使每乙個區間的資料量基本相同

舉例：

q1：為什麼「對可取值數目較多的特徵有所偏好」？

2. c4.5

c4.5 演算法最大的特點是克服了 id3 對特徵數目的偏重這一缺點，引入資訊增益率來作為分類標準。

但是，增益率可能對取值較小的屬性有所偏好。因此，c4.5不是直接用增益率最大的作為劃分屬性，而是用啟發式：先從候選劃分屬性中找出【資訊增益】高於平均水平的屬性，再從中選擇【資訊增益率】最高的。

q2：為什麼可以 "克服了 id3 對特徵數目的偏重" 這一缺點?

更詳細可以參考：

特點：3. cart分類樹：基尼係數

機器學習之 決策樹