二叉樹剪枝決策樹,生成剪枝,CART演算法

決策樹

1.原理

1.1模型簡介

決策樹是一種基本的回歸和分類演算法。在分類問題中，可以認為是一系列

if-then

規則的幾何。決策樹學通常包括三個步驟：特徵選擇，決策樹的生成，

決策樹的修剪。

定義：決策樹由結點和有向邊組成，內部節點表示乙個特徵和屬性，葉子

結點表示乙個類。

性質：決策樹路徑(或者對應的

if-then

規則)具有互斥且完備性：每乙個

例項都被一條路徑或規則所覆蓋，而且只被這條路徑或規則所覆蓋。

決策樹學習：能夠正確對資料集進行分類的決策樹可能有多個，也可能一

個也沒有，我們的目的是找到乙個與訓練資料集矛盾較小的，同時具有很好泛

化能力的決策樹。

特徵選擇：一種是在決策樹學習開始的時候，對特徵進行選擇，只留下對

訓練資料有足夠分類能力的特徵，一種是在學習過程中對訓練資料分割成自己

的時候，選擇最優的特徵進行分割。

決策樹生成：一般這是乙個遞迴的規程。

決策樹的剪枝：提高決策樹的泛化能力。

1.2特徵選擇

特徵選擇的準則一般是：資訊增益和資訊增益比

1.2.1

資訊增益

a.資訊增益：

資訊增益大的特徵具有更強的分類能力，

即選擇資訊增益值大的特

徵作為最優特徵。

b.資訊熵：表示變數的不確定性(在得知特徵

x的資訊時，使得

y的資訊不確

定性減少的程度)

，熵越大，變數的不確定性越大。設

x是乙個取有限值的離散型

隨機變數，其概率分布為：ii

pxxp

則隨機變數

x的熵定義為：

決策樹剪枝

剪枝是決策樹學習演算法中對付過擬合的主要手段，決策樹剪枝的基本策略有預剪枝和後剪枝預剪枝是指在決策樹生成過程中，對每個節點在劃分前先進行估計，若當前的劃分不能帶來泛化效能的提公升，則停止劃分，並將當前節點標記為葉節點後剪枝是指先從訓練集生成一顆完整的決策樹，然後自底向上對非葉節點進行考察，若...

決策樹（decision tree）二剪枝

注本部落格為周志華機器學習讀書筆記，雖然有一些自己的理解，但是其中仍然有大量文字摘自周老師的機器學習書。決策樹系列部落格決策樹一構造決策樹決策樹二剪枝決策樹 decision tree 三連續值處理決策樹四缺失值處理前面在決策樹 decision tree 一中介...

決策樹的生成與剪枝

樹模型描述從根節點開始，使用某種特徵選取準則，如資訊增益，選取剩餘特徵作為節點，樹不一定是二叉樹，每一層的節點個數為父節點特徵的distinct數，每個節點對應的樣本數小於父節點對應的樣本數，當節點特徵對應的資訊增益小於某個值或者沒有剩餘特徵時，選擇該節點對應樣本中最大的類別作為葉節點，停止這個分...

二叉樹剪枝 決策樹,生成剪枝,CART演算法

決策樹剪枝

決策樹（decision tree） 二 剪枝

決策樹的生成與剪枝

相關推薦

二叉樹剪枝決策樹,生成剪枝,CART演算法

決策樹（decision tree）二剪枝