資料分類（一）決策樹

classification是乙個從現有的帶有類別的資料集中尋找同一類別資料的共同特徵，並以這些特徵為依據對新資料進行區分的過程。

分類決策樹的核心思想就是在乙個資料集中找到乙個最優特徵，然後從這個特徵的選值中找乙個最優候選值(這段話稍後解釋)，根據這個最優候選值將資料集分為兩個子資料集，然後遞迴上述操作，直到滿足指定條件為止。

決策樹技術主要用來進行分類和**，以例項為基礎的歸納學習演算法，用來形成分類器和**模型。

樹的最頂層節點稱為根節點，最底層節點稱為葉節點，每個葉節點代表產生樣本的類別或者類分布；根節點和葉節點之間的節點稱為內部節點。

決策樹演算法：

1.id3演算法

id3演算法是一種基於資訊熵的決策樹學習演算法，它是決策樹演算法中的典型演算法，採用分治策略，在決策樹各級節點上選擇屬性時檢測所有屬性，選擇資訊增益最大的屬性作為產生決策樹的節點。由該屬性的不同取值建立分支，再對各分支的子集遞迴呼叫該方法建立決策樹的分支，直到所有子集僅包含同一類別資料為止，最後得到一顆決策樹，他可以對新的樣本進行分類。

那麼什麼是決策樹，-

決策樹中屬性值時離散的。比如體檢測量中人的公升高或者三維時離散的。連續的比如（1，2，3，4，5）這個時連續的。

id3適用於取值較多的屬性，而多數情況下多值屬性不一定是最優屬性，其次id3演算法只能對於描述屬性為離散型屬性的資料集構造決策樹。

2.c4.5

選擇資訊增益率最大的的描述屬性作為分支屬性。採用基於資訊增益率的方法選擇測試屬性，

剪枝技術:

在決策樹建立時，由於資料中的雜訊和孤立點，許多分支反應的是訓練資料的異常，剪枝方法處理這種過分適應資料問題，防止決策樹過度複雜。

尋找最小決策樹是np問題，所以在現實中不可能找到絕對最小的決策樹，只能通過分析資料，實施剪枝，最常見的方法有先剪枝和後剪枝。

（1）先剪枝通過提前停止樹的構造而對樹進行剪枝，如果乙個節點對樣本的劃分導致低於預定義閾值的**，給定子集的進一步劃分將停止。

（2）後剪枝是對已經建立好的決策樹進行剪枝，後剪枝方法主要通過不斷修改子樹為葉節點。

資料分類（一）決策樹

決策樹分類

分類決策樹

分類決策樹

相關推薦