第四章（1）分類決策樹

分類任務就是確定物件屬於哪個預定義的目標類

分類的屬性集可以包含連續屬性，但類標號必須是離散的，這是分類與回歸的區別，回歸的目標屬性y是連續的

分類任務就是通過學習得到乙個目標函式（分類模型），把屬性集x對映到乙個預先定義的類標號y

分類模型可以作為解釋性工具，區分不同類中的物件；**未知記錄的類標號

分類技術適合二元或標稱的資料集，不適用於序數或包含關係的屬性

分類技術是一種根據輸入資料集建立分類模型的系統方法。5種包括：決策樹、基於規則的分類、神經網路、支援向量機、樸素貝葉斯分類；需要類標號已知的訓練集來建立模型，用於類標號未知的檢驗集。

對分類模型的準確率檢測是評估的關鍵

決策樹：

決策樹是一種結點和有向邊組成的層次結構，三種結點：

根節點：沒有入邊，零條或多條出邊

內部節點：有一條入邊和多條出邊

葉節點：一條入邊，沒有出邊

每個葉節點有乙個類標號，非葉節點包含屬性測試條件

如何建立決策樹：搜尋空間是指數級的，找出最佳的決策樹是不可行的；使用貪心演算法，在劃分屬性時，採用一系列區域性最優決策來構造決策樹，hunt演算法是id3、c4.5、cart的基礎

如果dt中所有記錄都屬於乙個類，則t是葉節點

如果dt中包含多個類，則選擇乙個屬性測試條件，將記錄劃分為較小的子集，作為子女結點，對每個子女結點遞迴呼叫該演算法

hunt演算法的實際處理方法：

第二步建立的這些子女結點可能為空，這時，父結點為葉結點，類標號為該結點上的多數類（子女結點》1才可劃分）

第二步的dt的所有記錄具有相同的屬性值，但目標屬性不同，這時，該節點為葉節點，類標號為該節點上的多數類

決策樹的設計問題：

如何**訓練記錄：選擇乙個屬性測試條件

如何停止**：完全停止包括，所有記錄同屬於乙個類或所有記錄的屬性值相同

不同型別屬性的測試：

二元屬性

標稱屬性

序數屬性：不能違背屬性的有序性

連續屬性

最佳劃分度量：熵（entropy）、gini、classification error；決策樹演算法選擇最大化增益的測試條件，即最小化子女結點的不純性度量的加權平均；當用熵作為不純性度量時，即為資訊增益。

測試條件只能是二元劃分，即cart演算法

修改評估劃分標準，考慮測試條件的輸出數，即增益率，即c4.5演算法

建立決策樹後，要進行剪枝，決策樹過大則會過分擬合

例子：web機械人檢測

web爬蟲（機械人）是自動跟蹤嵌入網頁中的超連結，定位和獲取internet上的資訊，這些程式安裝在搜尋引擎的入口，收集索引網頁必須的文件；在應用web挖掘時，過濾掉web爬蟲的訪問。

決策樹總結：

決策樹歸納是一種分類的非引數方法

找到最佳的決策樹是np完全問題，開銷大，所以選用貪心演算法

決策樹的應用的複雜度只是其深度，所以創造模型的高昂代價可以承受

決策樹容易解釋

決策樹有較好的穩健性，避免過分擬合後更好

相關屬性不會對決策樹的準確度造成較大的影響，但與分類任務來說沒用的屬性可能會使決策樹過大；可以預先去除無用屬性或特徵選擇

葉節點的記錄太少，其代表的類無法做出具有統計意義的判決，這就是資料碎片；解決辦法是，當樣本量《閾值時，停止**

子數可能在決策樹中出現多次

斜決策樹在影象上顯示的劃分並不是平行於座標軸的，其測試條件涉及多個屬性，但計算過程可能很複雜；構造歸納：即構造特徵，創造復合屬性，其提供了更好的類區分能力

不純性度量的方法選擇對決策樹演算法的效能影響較小（開銷和準確度等）

第四章決策樹

一般的，一棵決策樹包含乙個根節點，若干個內部節點和若干個葉節點。決策學習的目的是為了產生一棵泛化能力強，即處理未見示例能力強的決策樹。決策樹學習的關鍵是如何選擇劃分屬性。隨著劃分過程的不斷進行，我們希望決策樹的分支節點所包含的樣本盡可能屬於同一類別，即節點的純度越來越高。1 資訊增益資訊熵是度...

機器學習第四章決策樹

決策樹原理介紹決策樹 decision tree 是一類常見的機器學習方法，目的是為了產生一棵泛化能力強，即處理未見示例能力強的決策樹。劃分選擇決策樹學習的關鍵在於，在每個節點處如何選擇最優劃分屬性。一般而言，隨著劃分過程不斷進行，我們希望決策樹的分支節點所包含的樣本盡可能屬於同一類別，即節點...

西瓜書第四章決策樹總結

1 什麼是決策樹 2 知道決策樹的學習目的和基本策略分而治之 3 掌握決策樹演算法，知道有哪三種情況會導致遞迴返回 1 掌握基本概念和計算公式資訊熵，資訊增益著名的id3 增益率 c4.5演算法基尼係數 cart演算法 2 知道該如何去選擇合適的劃分方法 1 為什麼要進行剪紙處理對付過擬...

第四章（1） 分類 決策樹

第四章 決策樹

機器學習 第四章 決策樹

西瓜書 第四章 決策樹總結

相關推薦

第四章（1）分類決策樹

第四章決策樹

機器學習第四章決策樹

西瓜書第四章決策樹總結