極簡機器學習範例分類決策樹

決策樹分類的優缺點及使用資料型別

決策樹就是事先設定一棵樹，樹的所有非葉子節點都是由特徵構成的，然後根據這個樹自定而下問問題，直到把測試記錄歸類到葉子節點（最終的分類結果）。

例子：

根據動物顏色、長度等特徵判斷動物智商高低（分類結果）；

根據一系列特徵判斷給患者配什麼眼鏡等。

優點：

資料形式非常容易理解；可以處理不相關特徵資料；

計算複雜度不高；

缺點：

可能產生過渡匹配問題

適用資料型別：

數值型和標稱型

介紹演算法基本思想前，先聊一下資訊增益（information gain），又叫熵（entropy）。

2023年夏農提出了資訊熵（entropy）的概念。

假如事件a的分類劃分是（a1,a2,...,an），每部分發生的概率是(p1,p2,...,pn)，那資訊熵定義為公式如下：

entropy(p1,p2,p3,......,pn)=-p1logp1-p2logp2-......-pnlogpn

資訊熵可以衡量事物的不確定性，這個事物

不確定性越大，資訊熵也越大

劃分資料集前後資訊發生的變化稱之為資訊增益。如果有多個特徵可以用來劃分資料集，我們只要計算出每個特徵劃分資料集後的資訊增益，取增益最大的特徵(資訊熵最小的特徵，即確定性最強的特徵)，就是最好的特徵選擇（便於減少樹的深度？）。

常見的決策樹演算法包括：hunts以及基於hunts的id3、c4.5、cart等

一、演算法基本思想

1）選取特徵（特徵即屬性）

2）計算目標特徵的資訊熵eg

3）分別計算每乙個特徵的資訊熵ei

4）max(eg-ei)

判斷出資訊熵差值最大的特徵i，把第i個特徵作為最終的分類特徵。

下例參考：

下面舉例來說明這個公式：

假使說我們要研究狗的智商（目標屬性），潛在的關聯因素包括顏色和毛的長度。

顏色（color）

毛的長度（length）

智商（iq）

black長高

white長高

white短高

white短低

3次出現「高」智商，1次出現「低智商」，所以目標屬性iq的資訊熵：hiq(d)=-(3/4)log2(3/4)-(1/4)log2(1/4)

color屬性在取不同的值對應目標屬性iq的資訊熵：

而color屬性的整體資訊熵是上述二者的加權平均值：hcolor(d)=(1/4)hcolor(dblack)+(3/4)hcolor(dwhite)。同樣可以求得hlength(d)。

現在定義資訊增益gaincolor=hiq(d)-hcolor(d)，gainlength=hiq(d)-hlength(d)，它是資訊熵的有效減少量，值越高，說明目標屬性iq在參考屬性處損失的資訊熵越多，也就是失去的不確定性越多，那麼在決策樹進行分類的時候，這個參考屬性應該越早作為決策的依據屬性。

這個例子中如果gainlength > gaincolor，說明length比color要對iq有更大的影響，所以決策樹中，要先依據length來進行分類。

在實際應用中，往往引入乙個「閾值」，當節點下的任意一分類所佔百分比超過這個閾值時，就不再進行分類，以避免產生出過小的沒有實際意義分類節點。

id3演算法也存在諸多不足，比如分類偏向於取值數量，只能處理離散資料等等問題。c4.5演算法是對id3的乙個改進，但是總體來看，由於需要反覆遍歷資料，二者都是效率很低的演算法。

極簡機器學習範例分類決策樹

極簡機器學習範例分類邏輯回歸

機器學習分類器決策樹

機器學習筆記分類決策樹

極簡機器學習範例 分類 決策樹

極簡機器學習範例 分類 邏輯回歸

機器學習分類器 決策樹

機器學習筆記 分類決策樹

相關推薦

極簡機器學習範例分類決策樹

極簡機器學習範例分類邏輯回歸

機器學習分類器決策樹

機器學習筆記分類決策樹