決策樹資訊增益

2021-09-03 06:16:36 字數 1066 閱讀 6581

決策樹和整合演算法都是樹模型

決策樹:從根節點一步步走到葉子節點,所有的資料都會落到葉子節點,既可以做分類也可以做回歸。

一顆樹有三種節點組成,根節點,中間幾點,葉子節點。根節點是第乙個選擇節點,也是最重要的乙個選擇特徵。葉子節點是存放最終的結果。

決策樹的訓練和測試

訓練是建立一棵樹。

測試是讓資料從根節點走到葉子節點。

如何切分特徵:

通過一種衡量標準,計算在不同特徵下的值。選擇最好的乙個作為根節點。

資訊增益:g(d,a)=h(d)-h(d|a)  是集合d的資訊熵-在特徵a條件的資訊熵

決策樹的三種演算法:

1.id3      資訊增益

2.c4.5     資訊增益率

3.cart   基尼係數    

cart分為回歸樹和分類樹,回歸樹是平方誤差。 分類樹是基尼係數,作為sklearn預設選擇。

決策樹減枝原因:容易出現過擬合,只要樹足夠大,能夠把所有的資料分開。

減枝分為預剪枝和後剪枝。

預剪枝:在建立樹的過程中進行剪枝。---實用

後剪枝:在建立決策樹以後剪枝。

剪枝策略:

預剪枝策略:限制樹的深度,葉子節點的個數,資訊增益量的大小等。

後剪枝策略:通過一定的衡量標準,比如葉子節點個數越多,損失越大。

決策樹的優缺點:

優點1.容易理解和解釋。

2.不需要很多的資料,不需要歸一化。

缺點:1.過擬和

2.決策樹不穩定,資料小的變化可能導致產生不同的樹。

改進方法:

1.cart剪紙

2.隨機森林

隨機森林

隨機森林是一種整合方法,通過隨機取樣樣本和隨機選取特徵生成多顆樹,產生多個分類器,通過投票表決的方式產生最終的結果。

隨機森林的特點:兩個特點又放回的取樣,取樣樣本和取樣特徵。

隨機森林的特點:

1.具有極高的準確率

2.能夠執行在大資料集上

3.能夠處理高維的樣本,不需要降維。

4.能夠評估各個特徵在分類問題上的重要性。

5.對於缺失值也有很好的效果。

資訊增益與決策樹

決策樹是一種判別式模型。在一顆分類決策樹中,非葉子節點時決策規則,葉子節點是類別。當輸入乙個特徵向量時,按照決策樹上的規則從根節點向葉節點移動,最後根據葉節點的類別判定輸入向量的類別。決策樹也可以用來解決回歸問題。建立乙個決策樹模型主要有三個步驟 特徵選擇 決策樹的生成 決策樹的剪枝。而特徵選擇時要...

決策樹 資訊熵增益

from math import log import operator defcreatedateset dataset 青年 否 否 一般 否 青年 否 否 好 否 青年 是 否 好 是 青年 是 是 一般 是 青年 否 否 一般 否 中年 否 否 一般 否 中年 否 否 好 否 中年 是 是 ...

最大資訊熵增益 決策樹與資訊增益

今天我們開始介紹決策樹。它既可以用於分類,也可以用於回歸。這裡我們主要介紹更加常見的分類用法。概念決策樹,顧名思義,它的形狀類似於一棵樹,我們可以簡單把它畫出來 如上圖,最上面的乙個點我們叫它根節點 root node 最下面不再進行分類的點我們叫它葉節點 leaf node 決策樹的分類過程是這樣...