決策樹資訊增益

決策樹和整合演算法都是樹模型

決策樹：從根節點一步步走到葉子節點，所有的資料都會落到葉子節點，既可以做分類也可以做回歸。

一顆樹有三種節點組成，根節點，中間幾點，葉子節點。根節點是第乙個選擇節點，也是最重要的乙個選擇特徵。葉子節點是存放最終的結果。

決策樹的訓練和測試

訓練是建立一棵樹。

測試是讓資料從根節點走到葉子節點。

如何切分特徵：

通過一種衡量標準，計算在不同特徵下的值。選擇最好的乙個作為根節點。

資訊增益：g(d,a)=h(d)-h(d|a) 是集合d的資訊熵-在特徵a條件的資訊熵

決策樹的三種演算法：

1.id3 資訊增益

2.c4.5 資訊增益率

3.cart 基尼係數

cart分為回歸樹和分類樹，回歸樹是平方誤差。分類樹是基尼係數，作為sklearn預設選擇。

決策樹減枝原因：容易出現過擬合，只要樹足夠大，能夠把所有的資料分開。

減枝分為預剪枝和後剪枝。

預剪枝：在建立樹的過程中進行剪枝。---實用

後剪枝：在建立決策樹以後剪枝。

剪枝策略：

預剪枝策略：限制樹的深度，葉子節點的個數，資訊增益量的大小等。

後剪枝策略：通過一定的衡量標準，比如葉子節點個數越多，損失越大。

決策樹的優缺點：

優點1.容易理解和解釋。

2.不需要很多的資料，不需要歸一化。

缺點：1.過擬和

2.決策樹不穩定，資料小的變化可能導致產生不同的樹。

改進方法：

1.cart剪紙

2.隨機森林

隨機森林

隨機森林是一種整合方法，通過隨機取樣樣本和隨機選取特徵生成多顆樹，產生多個分類器，通過投票表決的方式產生最終的結果。

隨機森林的特點：兩個特點又放回的取樣，取樣樣本和取樣特徵。

隨機森林的特點：

1.具有極高的準確率

2.能夠執行在大資料集上

3.能夠處理高維的樣本，不需要降維。

4.能夠評估各個特徵在分類問題上的重要性。

5.對於缺失值也有很好的效果。

資訊增益與決策樹

決策樹是一種判別式模型。在一顆分類決策樹中，非葉子節點時決策規則，葉子節點是類別。當輸入乙個特徵向量時，按照決策樹上的規則從根節點向葉節點移動，最後根據葉節點的類別判定輸入向量的類別。決策樹也可以用來解決回歸問題。建立乙個決策樹模型主要有三個步驟特徵選擇決策樹的生成決策樹的剪枝。而特徵選擇時要...

決策樹資訊熵增益

from math import log import operator defcreatedateset dataset 青年否否一般否青年否否好否青年是否好是青年是是一般是青年否否一般否中年否否一般否中年否否好否中年是是 ...

最大資訊熵增益決策樹與資訊增益

今天我們開始介紹決策樹。它既可以用於分類，也可以用於回歸。這裡我們主要介紹更加常見的分類用法。概念決策樹，顧名思義，它的形狀類似於一棵樹，我們可以簡單把它畫出來如上圖，最上面的乙個點我們叫它根節點 root node 最下面不再進行分類的點我們叫它葉節點 leaf node 決策樹的分類過程是這樣...

決策樹資訊增益

資訊增益與決策樹

決策樹 資訊熵增益

最大資訊熵增益 決策樹與資訊增益

相關推薦

決策樹資訊熵增益

最大資訊熵增益決策樹與資訊增益