決策樹演算法ID3,C4 5, CART

2021-06-29 13:27:33 字數 1084 閱讀 1811

決策樹是機器學習中非常經典的一類學習演算法,它通過樹的結構,利用樹的分支來表示對樣本特徵的判斷規則,從樹的葉子節點所包含的訓練樣本中得到**值。決策樹如何生成決定了所能處理的資料型別和**效能。主要的決策樹演算法包括id3,c4.5, cart等。

id3是由 ross quinlan在2023年提出的一種構造決策樹的方法。用於處理標稱型資料集,其構造過程如下:

輸入訓練資料是一組帶有類別標記的樣本,構造的結果是一棵多叉樹。樹的分支節點一般表示為乙個邏輯判斷,如形式為a=aj的邏輯判斷,其中a是屬性,aj是該屬性的所有取值。

在該節點上選取能對該節點處的訓練資料進行最優劃分的屬性。最後劃分的標準是資訊增益(information gain),即劃分前後資料集的熵的差異。

如果在該節點的父節點或者祖先中用了某個屬性,則這個用過的屬性就不再使用。選擇好最優屬性後,假設該屬性有n個取值,則為該節點建立n個分支,將相應的訓練資料傳遞到這n個分支中,遞迴進行,停止條件為:

(1)該節點的所有樣本屬於同一類,該節點成為葉節點,存放相應的類別。

(2)所有的屬性都已被父節點或祖先使用。這種情況下,該節點成為葉節點,並以樣本中元組個數最多的類別作為類別標記,同時也可以存放該結點樣本的類別分布。

id3的特點是:(1),容易造成過度擬合。(2), 使用標稱型資料,但是很難處理連續型資料。

c4.5是對id3的改進,其基本過程與id3類似,改進的地方在於:

(1)既能處理標稱型資料,又能連續型資料。為了處理連續型資料,該演算法在相應的節點使用乙個屬性的閾值,利用閾值將樣本劃分成兩部分。

(2)能處理缺失了一些屬性的資料。該演算法允許屬性值缺失時被標記為?,屬性值缺失的樣本在計算熵增益時被忽略。

(3)構造完成後可以剪枝。合併相鄰的無法產生大量資訊增益的葉節點,消除過渡匹配問題。

cart稱為分類決策樹,classification and regression tree,既能處理分類問題,又能處理回歸問題。最初由

breiman提出。與id3不能直接處理連續型特徵不同的是,cart使用二元切分,即使用乙個屬性閾值對樣本資料進行劃分。劃分的標準除了使用熵增益外,還有基尼純淨度(gini impurity)和方差縮減(variance reduction)(用於回歸)。

決策樹中ID3 C4 5 CART

決策樹中最初的演算法是id3,然後是c4.5,再之後是cart。下面分別介紹其優缺點 id3 基本思想 決策樹構建最初最經典的演算法。利用資訊增益選擇特徵向量,構建決策樹。優點 1 原理簡單易懂,需要了解資訊熵是表示樣本無序的度量方式。2 構造出的決策樹能夠儲存在磁碟中,再次分類時,可以直接呼叫,無...

決策樹 ID3,C4 5,CART 原理以及實現

決策樹是一種基本的分類和回歸方法.決策樹顧名思義,模型可以表示為樹型結構,可以認為是if then的集合,也可以認為是定義在特徵空間與類空間上的條件概率分布.上傳失敗.image 2e6565 1543139272117 決策樹的中間節點可以看做是對一種特徵的判斷,也是符合上一次判斷特徵某種取值的資...

感性理解 決策樹ID3 C4 5 CART

決策樹 先舉例子,如下 左子樹熱戀,右子樹單身。決策樹的演算法是如何構建,而不是如何用。決策樹分兩大類分類樹和回歸樹。其中,分類樹比如c4.5 id3決策樹,分類樹用於分類標籤值,那麼回歸樹的話,用於 實際的值比如,溫度,年齡,相關程度。分類樹的輸出是定性的,回歸樹的輸出是定量的。構造決策樹的過程 ...