西瓜書決策樹

偽**

決策樹生成過程就是生成一顆最優的決策樹，一般從根節點開始生成，一步一步往下蔓延(遞迴的過程)。那麼選擇哪個屬性作為根節點呢？這就需要乙個判定標準了，說白了就是窮舉(無非就是那麼幾個屬性)。

既然是決策點(一般稱分支結點)，隨著劃分的不斷進行，我們希望決策樹的分支結點所包含的樣本盡可能屬於同一類別，即純度越來越高。

資訊熵 information entropy

度量樣本集合純度最常用的一種指標，該值越小則說明樣本集合純度越高，樣本集合d的資訊熵定義為：

資訊增益 information gain

為了選定哪個屬性作為劃分結點，可計算各屬性值對當前樣本集合(劃分的進行集合越來越小)進行劃分所獲得的資訊增益

一般而言，資訊增益越大，則意味著使用該屬性來進行劃分所獲得的純度提公升越大，因此我們可以用資訊增益來進行決策樹的劃分屬性選擇，即優先選擇資訊增益最大的屬性作為新的劃分結點。

缺點：資訊增益準則對可取值數目較多的屬性有所偏好

增益率 gain ratio

為了避免資訊增益準則偏好於取值數目較多的屬性所帶來的不利影響，可使用增益率來選擇最優劃分屬性，定義如下

注意需注意的是，增益率準則對可取值數目較少的屬性有所偏好，因此使用時並不是直接選擇最大增益率最大的屬性，而是：

現從候選劃分屬性中篩選出資訊增益高於平均水平的屬性，再從其中選擇增益率最高的。

基尼指數

也是一種選擇最優劃分結點的評價指標，不想寫了。。。

預剪枝生成過程中決策是否剪枝

即劃分過程中根據以上資訊增益、增益率等準則選擇劃好了屬性劃分結點時，還有評估是否要接著劃分，即加入該劃分結點與否對分類精度的影響(驗證集上測試)。（劃分後的結果選擇樣本數目最多的類別）

根據精度來進行決策是否加入該劃分結點。

缺點：存在欠擬合風險

後剪枝生成決策樹後從下至上、從左至右對劃分點進行剪枝

也是同樣的道理，根據剪枝前後的決策精度來判斷是否需要剪掉該決策點

缺點：後剪枝是在生成決策樹後進行的，並且需要自底向上地對樹中所有非葉結點進行逐一考察，訓練時間開銷大

總結後剪枝決策樹欠擬合風險小，具有更好的泛化效能，但其訓練時間開銷要大得多。

決策樹筆記（西瓜書）

一棵決策樹包含乙個根節點，若干個葉節點，若干個內部節點。每個葉節點表示相對應的決策結果。決策樹的生成是乙個遞迴過程，每個節點會遇到三種情況當前節點對應的資料集中只有一種類別資料，則無需再劃分當前節點屬性集為空，或者資料的取值全部相同，則將當前節點設為葉節點，對應的類別為，資料中包含樣本量最多的類...

0523西瓜書 04決策樹

三對抗過擬合的手段剪枝處理四如何處理連續值缺失值如何選擇最優劃分屬性？我們希望決策樹分支節點所包含的樣本盡可能屬於同一類別，即結點的純度越來越高。資訊增益結點劃分前後資訊熵的差值。資訊增益準則對可取值數目較多的屬性有所偏好，為減少這種偏好可能帶來的不利影響，因此採用增益率來選擇最優...

西瓜書讀書筆記（四）決策樹

全部筆記的彙總貼機器學習西瓜書讀書筆記彙總貼可以先看看這個統計學習方法讀書筆記五決策樹決策樹 decision tree 是一類常見的機器學習方法。連續值採用二分法對連續的屬性進行處理，這也是c4.5決策樹演算法採用的機制。缺失值通過計算資訊增益，讓同一樣本以不同的概率劃入到不同...

西瓜書 決策樹

決策樹筆記（西瓜書）

0523西瓜書 04決策樹

西瓜書讀書筆記（四） 決策樹

相關推薦

西瓜書決策樹

西瓜書讀書筆記（四）決策樹