《統計學習方法》之決策樹

2021-09-25 23:19:31 字數 1680 閱讀 9285

決策數是一種基本的分類和回歸方法。

主要優點是模型具有可讀性,分類快。

學習時,利用訓練資料,根據損失函式最小化的原則建立決策樹模型。

決策樹學習通常包括3個步驟:

特徵選擇

決策樹的生成

決策樹的修剪

決策樹中每乙個例項都被一條路徑或一條規則所覆蓋,而且只被一條路徑或一條規則所覆蓋。

決策樹學習是由訓練資料集估計條件概率模型。但是基於特徵空間劃分的類的條件概率模型有無窮多個。需要選擇的條件概率模型應該不僅對訓練資料有很好的擬合,而且對未知資料有很好的**。

決策樹學習的損失函式通常時正則化的極大似然函式。決策樹的學習策略是以損失函式為目標函式的最小化。

熵是表示隨機變數中不確定性的度量。設x是乙個取有限個值的離散隨機變數,其概率分布為:

則隨機變數x的熵定義為:

熵越大,隨機變數的不確定性就越大。

條件熵h(y|x)表示在已知隨機變數x的條件下隨機變數y的不確定性。隨機變數x給定的條件下隨機變數y的條件熵h(y|x),定義為x給定條件下y的條件概率分布的熵對x的數學期望:

資訊增益:

表示得知特徵x的資訊而使得類y的資訊的不確定性減少的程度。

互資訊:

熵h(y)與條件熵h(y|x)之差為互資訊。

決策樹學習中的資訊增益等價於訓練資料集中類與特徵的互資訊。

根據增益準則的特徵選擇方法是:對訓練資料集(或子集)d,計算其每個特徵的資訊增益,並比較它們的大小,選擇資訊增益最大的特徵。

資訊增益的演算法:

輸入:訓練資料集d和特徵a;

輸出;特徵a對訓練資料集d的資訊增益g(d,a)。

計算資料集d的經驗熵h(d):

計算特徵a對資料集d的經驗條件熵h(d|a):

計算資訊增益:

2.決策樹的生成

生成決策樹的兩種演算法————id3演算法和c4.5演算法

id3演算法:

id3演算法的核心實在決策樹各個節點熵應用資訊增益原則選擇特徵,遞迴地構建決策樹。

具體方法是:從根節點開始,對節點計算所有可能的特徵的資訊增益,選擇資訊增益最大的特徵作為節點的特徵,由該特徵的不同取值建立子結點。再對子節點遞迴呼叫以上方法,構建決策樹。直到所有特徵的資訊增益均很小或沒由特徵可以選擇為止。

以資訊增益作為劃分訓練資料集的特徵,存在偏向於選取較多的特徵的問題,使用資訊增益比可以對這一問題進行矯正。

資訊增益比:

c4.5演算法:

c4.5演算法於id3演算法類似,但是c4.5是通過資訊增益比來選擇特徵。

3. 決策樹的剪枝

決策樹生成演算法遞迴地產生決策樹。直到不能繼續下去為止。 但這樣的樹往往會造成過擬合現象。解決這個問題的辦法就是考慮決策樹的複雜度。對已生成的樹進行簡化。

在決策樹學習中將已生成的樹進行簡化的過程稱為剪枝。

決策樹的剪枝往往通過極小化決策樹整體的損失函式或代價函式來實現。

設樹t的葉節點個數為|t|,t是樹t的葉節點,該葉節點有nt個樣本點,其中k類的樣本點有ntk個。k=1,2,…k。ht(t)為葉節點t的經驗熵,決策樹學習的損失函式可以定義為:

剪枝:當α確定時,選擇損失函式最小的模型。

統計學習方法 決策樹

決策樹是一種基本的分類與回歸方法。一 決策樹模型 決策樹可以轉換成乙個if then規則的集合,也可以看作是定義在特徵空間劃分的類的條件概率分布 特徵為變數,類為概率 cart與id3 id4.5的區別 cart假設決策樹是二叉樹,特徵取值為 是 或 否 二,決策樹的生成演算法 2.1 id3 id...

統計學習方法 決策樹

決策樹學習的三個步驟 特徵選擇 決策樹的生成 決策樹的修剪 決策樹的結點 內部結點表示乙個特徵或屬性,葉節點表示乙個分類 決策樹的路徑或其對應的if then規則集合滿足性質 互斥且完備 決策樹學習本質上是從訓練資料集中歸納出一組分類規則 與訓練集不相矛盾的決策樹可能有很多,我們需要的是乙個與訓練資...

統計學習方法 5 決策樹

分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種型別 內部結點和葉結點。內部結點表示乙個特徵或屬性,葉結點表示乙個類。決策樹的路徑或其對應的if then規則集合具有乙個重要的性質 互斥並且完備。這就是說,每乙個例項都被一條路徑或一條規則所覆蓋,而且只被一條路徑...