二叉樹剪枝 決策樹,生成剪枝,CART演算法

2021-10-13 08:10:52 字數 882 閱讀 5418

決策樹

1.原理

1.1模型簡介

決策樹是一種基本的回歸和分類演算法。在分類問題中,可以認為是一系列

if-then

規則的幾何。決策樹學通常包括三個步驟:特徵選擇,決策樹的生成,

決策樹的修剪。

定義:決策樹由結點和有向邊組成,內部節點表示乙個特徵和屬性,葉子

結點表示乙個類。

性質:決策樹路徑(或者對應的

if-then

規則)具有互斥且完備性:每乙個

例項都被一條路徑或規則所覆蓋,而且只被這條路徑或規則所覆蓋。

決策樹學習:能夠正確對資料集進行分類的決策樹可能有多個,也可能一

個也沒有,我們的目的是找到乙個與訓練資料集矛盾較小的,同時具有很好泛

化能力的決策樹。

特徵選擇:一種是在決策樹學習開始的時候,對特徵進行選擇,只留下對

訓練資料有足夠分類能力的特徵,一種是在學習過程中對訓練資料分割成自己

的時候,選擇最優的特徵進行分割。

決策樹生成:一般這是乙個遞迴的規程。

決策樹的剪枝:提高決策樹的泛化能力。

1.2特徵選擇

特徵選擇的準則一般是:資訊增益和資訊增益比

1.2.1

資訊增益

a.資訊增益:

資訊增益大的特徵具有更強的分類能力,

即選擇資訊增益值大的特

徵作為最優特徵。

b.資訊熵:表示變數的不確定性(在得知特徵

x的資訊時,使得

y的資訊不確

定性減少的程度)

,熵越大,變數的不確定性越大。設

x是乙個取有限值的離散型

隨機變數,其概率分布為:ii

pxxp

則隨機變數

x的熵定義為:

決策樹剪枝

剪枝是決策樹學習演算法中對付過擬合的主要手段,決策樹剪枝的基本策略有預剪枝和後剪枝 預剪枝 是指在決策樹生成過程中,對每個節點在劃分前先進行估計,若當前的劃分不能帶來泛化效能的提公升,則停止劃分,並將當前節點標記為葉節點 後剪枝 是指先從訓練集生成一顆完整的決策樹,然後自底向上對非葉節點進行考察,若...

決策樹(decision tree) 二 剪枝

注 本部落格為周志華 機器學習 讀書筆記,雖然有一些自己的理解,但是其中仍然有大量文字摘自周老師的 機器學習 書。決策樹系列部落格 決策樹 一 構造決策樹 決策樹 二 剪枝 決策樹 decision tree 三 連續值處理 決策樹 四 缺失值處理 前面在決策樹 decision tree 一 中介...

決策樹的生成與剪枝

樹模型描述 從根節點開始,使用某種特徵選取準則,如資訊增益,選取剩餘特徵作為節點,樹不一定是二叉樹,每一層的節點個數為父節點特徵的distinct數,每個節點對應的樣本數小於父節點對應的樣本數,當節點特徵對應的資訊增益小於某個值或者沒有剩餘特徵時,選擇該節點對應樣本中最大的類別作為葉節點,停止這個分...