決策樹筆記

決策樹學習的常用演算法有id3、c4.5與cart。其中id3特徵選擇的準則是資訊增益，c4.5的是資訊增益率，cart是基尼指數。熵（entropy）

介紹資訊增益之前需要先引入熵的概念：

熵表示的是隨機變數的不確定性程度，表示式為：

其中pi表示離散變數x取xi的概率。log一般以2和e為底。而熵越大，隨機變數的不確定性就越大。如圖所示：

熵取值最大時，隨機變數的不確定性最大，此時p=0.5，意味著x取0和取1的概率一樣大；而p=0或p=1時，熵值最小，完全沒有不確定性，因為此時x全部取0或者全部取1.

條件熵條件熵表示的是在x的條件下隨機變數y的不確定性，條件熵定義為x給定條件下y的條件概率分布的熵對x的數學期望：

當熵和條件熵中的概率由資料估計（特別時極大似然估計）得到時，所對應的熵與條件熵分別稱為經驗熵和經驗條件熵。

資訊增益

資訊增益表示式：

第一項表示資料d的不確定性程度，第二項表示在特徵a的條件下資料d的不確定性，資訊增益表示的是在特徵a的條件下，資料d的不確定性減少的程度，減少的越多，資料更容易被分類。所以選則資訊增益最大的特徵作為分類特徵。

資訊增益比

由於資訊增益的計算會更加偏向於選擇取值更多的特徵，所以引入了資訊增益比的概念：

資訊增益比的本質是在資訊增益的基礎上乘以乙個懲罰引數。特徵取值個數較多時，懲罰引數較小，特徵取值個數較少時，懲罰引數較大。

id3演算法

id3演算法的核心是在決策樹的各個結點上應用資訊增益準則選擇特徵。

其中設定閾值相當於進行預剪枝。

c4.5演算法

c4.5演算法與id3演算法相比，改用資訊增益比作為特徵選擇準則，其他步驟相同

為了防止過擬合，需要對決策樹進行剪枝。

剪枝一般通過極小化決策樹整體的損失函式或代價函式來實現。損失函式定義為：

熵越小資料越整齊，c(t)表示模型對訓練資料的**誤差，|t|表示樹的複雜程度，alpha控制兩者之間的關係。

如圖：

固定alpha，當calpha(t)減小了則剪枝

《統計學習方法》-李航

決策樹筆記彙總

網上關於決策樹的博文已經有很多了。我挑選了幾篇比較好理解的幾篇，作為以後查閱備忘。同時，決策樹剛開始學習時，概念比較多，建議博文結合西瓜書一起看，因為有些公式這樣寫不太理解，但是別的地方換一種寫法，就會容易理解很多。資訊熵資訊增益 id3 資訊增益比 c4.5 參閱下面兩篇博文基尼指數 cart...

決策樹學習筆記

模型監督學習中的分類演算法決策樹演算法的思路利用樹的結構，將資料集中的特徵屬性劃分為樹中的分支節點資料集中類別標籤對應樹的葉節點。構建決策樹的三要素 1.特徵選擇資訊熵或資訊增益gini係數來選擇特徵 2.決策樹的生成 id3演算法資訊增益 c4.5演算法 gini係數 3.決策樹的...

決策樹學習筆記

一什麼是決策樹決策樹是一種基於規則的方法，它用一組巢狀的規則進行在樹的每個決策節點處，根據判斷結果進入乙個分之，反覆執行這種操作直到到達葉子節點，得到結果。這些規則是通過訓練得到的，而不是認為設定的。規則是每一次時的閥值。二樹形成決策的過程為便於用程式實現，一般將決策樹設計成二叉樹。與...

決策樹筆記

決策樹筆記彙總

決策樹學習筆記

決策樹學習筆記

相關推薦