《機器學習實戰》學習筆記三決策樹

第三章：決策樹

決策樹就是乙個樹狀結構的判別模式：這棵樹的每個非葉節點都包含乙個判斷條件，每個葉節點都是一種特定的分出來的類別。

缺點：可能產生匹配過度

關於優缺點，個人理解：對中間值的缺失不敏感就是說可以處理有缺失值的特徵資料，匹配過度應該是對於分出來的類別中存在父子類這種情況來說的

一、決策樹總體過程

文字描述：不斷地對正在處理的資料集進行劃分，找出最佳的特徵及其特徵的具體閾值進行劃分（如何判斷最佳：可以有自己的評判標準，書中給出的是用資訊熵來確定是否分類最佳），直到當前處理的資料集都屬於乙個類別（注：資料的類別已知）

偽**：

createtree(dataset): if (資料集中資料為同一分類）返回類標籤 else 尋找最佳劃分特徵根據最佳劃分特徵劃分資料集對每個劃分的子集建立節點呼叫此函式並將結果新增到樹中

返回當前節點

二、程式設計過程中的關鍵問題

1. 最佳特徵判別標準：使用資訊理論度量資訊

在劃分資料集之前之後資訊發生的變化稱為資訊增益，而計算資訊增益需要知道集合資訊的度量方式，即夏農熵（簡稱熵）：

資訊的定義：

l(x) = -log(p(x))

熵的定義：所有類別所有可能值包含的資訊期望值（期望：p(x)*l(x) ）：

h = sum(p(xi)*l(xi))

理解：（想看詳細的：資訊增益）熵，通俗點說就是「不確定性」，當你的選擇很少，少到極限就是只有乙個選擇（沒有選擇），此時不確定性為0，此時熵最小亦為0；當你的各個選擇的概率相同時，你最不確定，此時熵最大為1 。

因此，只需要在每次劃分前後比對熵的大小，熵減少最大的那種劃分方案即為當前的最佳劃分方案

注意：劃分前還好，就乙個當前資料集，乙個集合直接按公式計算即可；劃分後需要按『sum（劃分後的集合的熵 * 劃分集係數）』來計算，劃分集係數等於劃分後的集合長度占原資料集長度的比值

2. 樹的構建過程：使用python字典資料結構

creattree(dataset):
bestlabel = 最佳劃分特徵對應的標籤名
tree = }
for each value in bestfeature.values():
tree[bestlabel][value] = createtree(subdataset)
return tree

在遞迴的過程中以字典的方式實現了決策樹的構建，在此還是不推薦大家直接去type書上的**，自己動手實踐一下，熟悉這種程式設計的思路對自己更加有益（至少對筆者是這樣）

《機器學習實戰》學習筆記三決策樹

《機器學習實戰》學習筆記三決策樹

機器學習實戰決策樹（三）

機器學習實戰筆記之三（決策樹）

《機器學習實戰》學習筆記三 決策樹

《機器學習實戰》學習筆記三 決策樹

機器學習實戰 決策樹（三）

機器學習實戰筆記之三（決策樹）

相關推薦

《機器學習實戰》學習筆記三決策樹

《機器學習實戰》學習筆記三決策樹

機器學習實戰決策樹（三）