簡析分類樹與回歸樹

2021-08-04 16:18:56 字數 671 閱讀 8865

以c4.5分類樹為例,c4.5分類樹在每次分枝時,是窮舉每乙個feature的每乙個閾值,找到使得按照feature<=閾值,和feature>閾值分成的兩個分枝的熵最大的閾值(熵最大的概念可理解成盡可能每個分枝的男女比例都遠離1:1),按照該標準分枝得到兩個新節點,用同樣方法繼續分枝直到所有人都被分入性別唯一的葉子節點,或達到預設的終止條件,若最終葉子節點中的性別不唯一,則以多數人的性別作為該葉子節點的性別。

總結:分類樹使用資訊增益或增益比率來劃分節點;每個節點樣本的類別情況投票決定測試樣本的類別。

回歸樹總體流程也是類似,區別在於,回歸樹的每個節點(不一定是葉子節點)都會得乙個**值,以年齡為例,該**值等於屬於這個節點的所有人年齡的平均值。分枝時窮舉每乙個feature的每個閾值找最好的分割點,但衡量最好的標準不再是最大熵,而是最小化均方差即(每個人的年齡-**年齡)^2 的總和 / n。也就是被**出錯的人數越多,錯的越離譜,均方差就越大,通過最小化均方差能夠找到最可靠的分枝依據。分枝直到每個葉子節點上人的年齡都唯一或者達到預設的終止條件(如葉子個數上限),若最終葉子節點上人的年齡不唯一,則以該節點上所有人的平均年齡做為該葉子節點的**年齡。

總結:回歸樹使用最小均方差劃分節點;每個節點樣本的均值作為測試樣本的回歸**值。

CART回歸樹與分類樹

輸出是連續變數的是回歸樹,輸出是離散變數的是分類樹。cart決策樹是乙個二叉樹。輸入空間劃分為m個單元 單元對應輸出 是其對應的輸入空間。輸出取 上所有輸出的均值 下面,看輸入空間的劃分方法。假設最優切分變數 最優切分點 輸入空間被劃分為兩部分 它們的輸出是各自輸入空間中樣本標籤值 的均值和 因此,...

CART分類與回歸樹

十大經典資料探勘演算法 系列 c4.5 k means svmapriori empagerank adaboost knnna ve bayes cart 分類與回歸樹 classification and regression trees,cart 是由四人幫leo breiman,jerome...

決策樹(分類與回歸)

首先我們要知道,決策樹是根據訓練集構造乙個樹結構,每個分叉相當於一次判斷,每個葉子節點就是模型的輸出。如下圖所示 以輸入特徵為離散值的分類決策樹為例,周志華老師 機器學習 給出的演算法偽 決策樹分類演算法選擇最優屬性演算法常用資訊增益法。首先了解資訊熵,它的公式如下 e nt d k 1 y pkl...