第四章(1) 分類 決策樹

2021-08-29 18:17:43 字數 1748 閱讀 9296

分類任務就是確定物件屬於哪個預定義的目標類

分類的屬性集可以包含連續屬性,但類標號必須是離散的,這是分類與回歸的區別,回歸的目標屬性y是連續的

分類任務就是通過學習得到乙個目標函式(分類模型),把屬性集x對映到乙個預先定義的類標號y

分類模型可以作為解釋性工具,區分不同類中的物件;**未知記錄的類標號

分類技術適合二元或標稱的資料集,不適用於序數或包含關係的屬性

分類技術是一種根據輸入資料集建立分類模型的系統方法。5種包括:決策樹、基於規則的分類、神經網路、支援向量機、樸素貝葉斯分類;需要類標號已知的訓練集來建立模型,用於類標號未知的檢驗集。

對分類模型的準確率檢測是評估的關鍵

決策樹:

決策樹是一種結點和有向邊組成的層次結構,三種結點:

根節點:沒有入邊,零條或多條出邊

內部節點:有一條入邊和多條出邊

葉節點:一條入邊,沒有出邊

每個葉節點有乙個類標號,非葉節點包含屬性測試條件

如何建立決策樹:搜尋空間是指數級的,找出最佳的決策樹是不可行的;使用貪心演算法,在劃分屬性時,採用一系列區域性最優決策來構造決策樹,hunt演算法是id3、c4.5、cart的基礎

如果dt中所有記錄都屬於乙個類,則t是葉節點

如果dt中包含多個類,則選擇乙個屬性測試條件,將記錄劃分為較小的子集,作為子女結點,對每個子女結點遞迴呼叫該演算法

hunt演算法的實際處理方法:

第二步建立的這些子女結點可能為空,這時,父結點為葉結點,類標號為該結點上的多數類(子女結點》1才可劃分)

第二步的dt的所有記錄具有相同的屬性值,但目標屬性不同,這時,該節點為葉節點,類標號為該節點上的多數類

決策樹的設計問題:

如何**訓練記錄:選擇乙個屬性測試條件

如何停止**:完全停止包括,所有記錄同屬於乙個類或所有記錄的屬性值相同

不同型別屬性的測試:

二元屬性

標稱屬性

序數屬性:不能違背屬性的有序性

連續屬性

最佳劃分度量:熵(entropy)、gini、classification error;決策樹演算法選擇最大化增益的測試條件,即最小化子女結點的不純性度量的加權平均;當用熵作為不純性度量時,即為資訊增益。

測試條件只能是二元劃分,即cart演算法

修改評估劃分標準,考慮測試條件的輸出數,即增益率,即c4.5演算法

建立決策樹後,要進行剪枝,決策樹過大則會過分擬合

例子:web機械人檢測

web爬蟲(機械人)是自動跟蹤嵌入網頁中的超連結,定位和獲取internet上的資訊,這些程式安裝在搜尋引擎的入口,收集索引網頁必須的文件;在應用web挖掘時,過濾掉web爬蟲的訪問。

決策樹總結:

決策樹歸納是一種分類的非引數方法

找到最佳的決策樹是np完全問題,開銷大,所以選用貪心演算法

決策樹的應用的複雜度只是其深度,所以創造模型的高昂代價可以承受

決策樹容易解釋

決策樹有較好的穩健性,避免過分擬合後更好

相關屬性不會對決策樹的準確度造成較大的影響,但與分類任務來說沒用的屬性可能會使決策樹過大;可以預先去除無用屬性或特徵選擇

葉節點的記錄太少,其代表的類無法做出具有統計意義的判決,這就是資料碎片;解決辦法是,當樣本量《閾值時,停止**

子數可能在決策樹中出現多次

斜決策樹在影象上顯示的劃分並不是平行於座標軸的,其測試條件涉及多個屬性,但計算過程可能很複雜;構造歸納:即構造特徵,創造復合屬性,其提供了更好的類區分能力

不純性度量的方法選擇對決策樹演算法的效能影響較小(開銷和準確度等)

第四章 決策樹

一般的,一棵決策樹包含乙個根節點,若干個內部節點和若干個葉節點。決策學習的目的是為了產生一棵泛化能力強,即處理未見示例能力強的決策樹。決策樹學習的關鍵是如何選擇劃分屬性。隨著劃分過程的不斷進行,我們希望決策樹的分支節點所包含的樣本盡可能屬於同一類別,即節點的 純度 越來越高。1 資訊增益 資訊熵是度...

機器學習 第四章 決策樹

決策樹原理介紹 決策樹 decision tree 是一類常見的機器學習方法,目的是為了產生一棵泛化能力強,即處理未見示例能力強的決策樹。劃分選擇 決策樹學習的關鍵在於,在每個 節點處如何選擇最優劃分屬性。一般而言,隨著劃分過程不斷進行,我們希望決策樹的分支節點所包含的樣本盡可能屬於同一類別,即節點...

西瓜書 第四章 決策樹總結

1 什麼是決策樹 2 知道決策樹的學習目的和基本策略 分而治之 3 掌握決策樹演算法,知道有哪三種情況會導致遞迴返回 1 掌握基本概念和計算公式 資訊熵,資訊增益 著名的id3 增益率 c4.5演算法 基尼係數 cart演算法 2 知道該如何去選擇合適的劃分方法 1 為什麼要進行剪紙處理 對付 過擬...