統計學習方法五 決策樹

2022-08-09 12:18:13 字數 1831 閱讀 5280

結合之前的部落格:

一、什麼是決策樹?

決策樹是一種基本的分類和回歸演算法。

決策樹模型呈樹形結構,可以認為是if-then規則的集合,也可以認為是定義在特徵空間與類空間上的條件概率分布。

決策樹模型由結點和有向邊組成,結點分為內部結點和葉結點,內部結點表示特徵,葉結點表示類,有向邊表示某一特徵的取值。

學習階段:利用訓練資料集,根據損失函式最小化的原則建立決策樹模型

**階段:對新的資料,利用決策樹模型進行分類

本部落格只針對分類問題進行描述

特性:(1)多分類或回歸

(2)判別模型

(3)學習步驟:特徵選擇—決策樹生成—決策樹剪枝

二、決策樹模型與學習

1、模型:

分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點和有向邊組成。

結點:有內部結點和葉結點兩種型別。內部結點表示乙個特徵或屬性,葉結點表示乙個類

2、決策樹學習

學習模型:根據給定的訓練資料集構建乙個決策樹模型,使它能夠對例項進行正確分類。該模型不僅對訓練資料有很好的擬合,而且對未知資料有很好的越策

學習策略:通常選擇正則化的極大似然函式作為損失函式,損失函式最小化

學習演算法:採用啟發式演算法,近似求解上述最優化問題。

遞迴地選擇最優特徵,並根據該特徵對訓練資料進行分割,使得對各個子資料集有乙個最好的分類。

過擬合:以上方法生成的決策樹可能對訓練資料有很好的分類能力,但對未知的資料卻未必,即可能發生過擬合。

剪枝:對生成的樹自下而上進行剪枝,將樹變得更簡單,從而使它具有更好的泛化能力。

特徵選擇:如果特徵數量很多,也可以在學習開始的時候,對特徵進行選擇。

三、特徵選擇

參加之前的部落格 

選取對訓練資料具有分類能力的特徵,用該特徵來劃分特徵空間。

如果乙個特徵具有更好的分類能力,或者說,按照這一特徵將訓練資料集分割成子集,使得各個子集在當前條件下有最好的分類,那麼就更應該選擇這個特徵

特徵選擇的準則:資訊增益或資訊增益比。

四、決策樹的生成演算法

參加之前的部落格 

1、id3

在決策樹各個結點上應用資訊增益準則選擇特徵,遞迴地構建決策樹

id3相當於用極大似然法進行概率模型的選擇

2、c4.5

特性選擇標準:資訊增益比(與id3的本質區別)

五、剪枝

為了避免過擬合現象,從已生成的樹上裁掉一些子樹或葉結點,並將其根結點或父結點作為新的葉結點,從而簡化分類樹模型。

決策樹生成:考慮更好的擬合訓練集資料 —— 學習區域性的模型

剪枝:通過優化損失函式還考慮了減小模型複雜度 —— 學習整體的模型

怎麼剪? —— 降低不確定性 —— 結構風險最小化

六、cart演算法

classificaion and regression tree ,分類與回歸樹

即可用於分類也可用於回歸

特性:(1)決策樹是二叉樹,內部結點取值「是」和「否」,分別為左結點和右結點

(2)給定輸入隨機變數x條件下輸出隨機變數y的條件概率分布(之前的演算法,既可以是一種if then規則,也可以是條件概率分布)

(3)步驟:決策樹生成+決策樹剪枝

1、cart生成

遞迴地構建二叉決策樹的過程

1)回歸樹生成

平方誤差最小化

2)分類樹生成

基尼指數最小化

統計學習方法 決策樹

決策樹是一種基本的分類與回歸方法。一 決策樹模型 決策樹可以轉換成乙個if then規則的集合,也可以看作是定義在特徵空間劃分的類的條件概率分布 特徵為變數,類為概率 cart與id3 id4.5的區別 cart假設決策樹是二叉樹,特徵取值為 是 或 否 二,決策樹的生成演算法 2.1 id3 id...

統計學習方法 決策樹

決策樹學習的三個步驟 特徵選擇 決策樹的生成 決策樹的修剪 決策樹的結點 內部結點表示乙個特徵或屬性,葉節點表示乙個分類 決策樹的路徑或其對應的if then規則集合滿足性質 互斥且完備 決策樹學習本質上是從訓練資料集中歸納出一組分類規則 與訓練集不相矛盾的決策樹可能有很多,我們需要的是乙個與訓練資...

統計學習方法 5 決策樹

分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種型別 內部結點和葉結點。內部結點表示乙個特徵或屬性,葉結點表示乙個類。決策樹的路徑或其對應的if then規則集合具有乙個重要的性質 互斥並且完備。這就是說,每乙個例項都被一條路徑或一條規則所覆蓋,而且只被一條路徑...