資料分類(一)決策樹

2021-08-29 14:11:57 字數 996 閱讀 8833

classification是乙個從現有的帶有類別的資料集中尋找同一類別資料的共同特徵,並以這些特徵為依據對新資料進行區分的過程。

分類決策樹的核心思想就是在乙個資料集中找到乙個最優特徵,然後從這個特徵的選值中找乙個最優候選值(這段話稍後解釋),根據這個最優候選值將資料集分為兩個子資料集,然後遞迴上述操作,直到滿足指定條件為止。

決策樹技術主要用來進行分類和**,以例項為基礎的歸納學習演算法,用來形成分類器和**模型。

樹的最頂層節點稱為根節點,最底層節點稱為葉節點,每個葉節點代表產生樣本的類別或者類分布;根節點和葉節點之間的節點稱為內部節點。

決策樹演算法:

1.id3演算法

id3演算法是一種基於資訊熵的決策樹學習演算法,它是決策樹演算法中的典型演算法,採用分治策略,在決策樹各級節點上選擇屬性時檢測所有屬性,選擇資訊增益最大的屬性作為產生決策樹的節點。由該屬性的不同取值建立分支,再對各分支的子集遞迴呼叫該方法建立決策樹的分支,直到所有子集僅包含同一類別資料為止,最後得到一顆決策樹,他可以對新的樣本進行分類。

那麼什麼是決策樹,-

決策樹中屬性值時離散的。比如體檢測量中人的公升高或者三維時離散的。連續的比如(1,2,3,4,5)這個時連續的。

id3適用於取值較多的屬性,而多數情況下多值屬性不一定是最優屬性,其次id3演算法只能對於描述屬性為離散型屬性的資料集構造決策樹。

2.c4.5

選擇資訊增益率最大的的描述屬性作為分支屬性。採用基於資訊增益率的方法選擇測試屬性,

剪枝技術:

在決策樹建立時,由於資料中的雜訊和孤立點,許多分支反應的是訓練資料的異常,剪枝方法處理這種過分適應資料問題,防止決策樹過度複雜。

尋找最小決策樹是np問題,所以在現實中不可能找到絕對最小的決策樹,只能通過分析資料,實施剪枝,最常見的方法有先剪枝和後剪枝。

(1)先剪枝通過提前停止樹的構造而對樹進行剪枝,如果乙個節點對樣本的劃分導致低於預定義閾值的**,給定子集的進一步劃分將停止。

(2)後剪枝是對已經建立好的決策樹進行剪枝,後剪枝方法主要通過不斷修改子樹為葉節點。

決策樹分類

一 分類的概念 分類是一種重要的資料分析形式,分類方法用於 資料物件的離散類別,而 則用於 資料物件的連續取值 資料分類是兩個階段的過程,包括學習階段和分類階段 學習階段 訓練階段 就是建立描述預先定義的資料類或概念集的分類器 而訓練集是有資料庫元祖和與他們相互關聯的類標號組成 類標號屬性是離散值和...

分類決策樹

決策樹是基於特徵對例項進行分類的樹形結構。決策樹學習演算法包括 特徵選擇 樹的生成和樹的剪枝。2.1.id3 1 針對當前的集合,計算每個特徵的資訊增益 2 選擇資訊增益最大的特徵作為當前節點的決策決策特徵 3 根據特徵不同的類別劃分到不同的子節點 比如年齡特徵有青年,中年,老年,則劃分到3顆子樹 ...

分類決策樹

決策樹是乙個簡單易用的機器學習演算法,具有很好的實用性。在風險評估 資料分類 專家系統中都能見到決策樹的身影。決策樹其實是一系列的if then規則的集合,它有可讀性良好,分類速度快等優點。把決策樹看成是一些if then規則的集合,在每一層樹上根據屬性的值判斷走勢,至到遇到葉節點,葉節點對應的就是...