機器學習分類器 決策樹

2021-08-18 11:52:58 字數 865 閱讀 2951

一、決策樹

經常使用決策樹來處理分類問題,決策樹也是最經常使用的資料探勘演算法,不需要了解機器學習的知識,就能搞明白決策樹是如何工作的。

knn演算法可以完成很多分類任務,但它最大的缺點就是無法給出資料的內在含義,決策樹的主要優勢在於資料形式非常容易理解

決策樹能夠讀取資料集合,其乙個重要任務是為了資料中所蘊含的知識資訊,因此決策樹可以使用不熟悉的資料集合,並從中提取出一系列規則,在這些機器根據資料集建立規則時,就是機器學習的過程。

二、決策樹的構造

1、決策樹優缺點比較:

缺點:可能會產生過度匹配問題

適用資料型別:數值型和標稱型

2、在構造決策樹時,需要解決的第乙個問題是當前資料集上哪個特徵在劃分資料分類時起決定性作用。為了找到決定性特徵,需要進行特徵評估。如果某個分支下的資料屬於同一型別,則已正確地劃分資料分類,無需進一步對資料集進行分割。如果資料子集內的資料不屬於同一型別,則需要重複劃分資料子集的過程。

3、資訊增益

劃分資料集的大原則:將無序的資料變得更加有序。有多種劃分資料集的方法,但每種方法都有各自的優缺點。

劃分資料集之前之後資訊發生的變化稱為資訊增益,計算每個特徵值劃分資料集獲得的資訊增益,獲得資訊增益最高的特徵就是最好的選擇。

三、重點

構建決策樹時,通常採用遞迴的方法將資料集轉化為決策樹。一般不構造新的資料結構,而是使用python語言內嵌的資料結構字典儲存樹節點資訊。

為了便於直觀理解,使用matplotlib的註解功能,將儲存的樹結構轉化為易於理解的圖形

機器學習之決策樹分類器

決策樹,當下比較流行的有三種分類器,c4.5,id3,cart,不過大同小異,主要的區別就是選擇的目標函式不同,id3使用的是資訊增益,c4.5使用資訊增益率,cart使用的是gini係數。具體的原理就不說了,去翻翻別的博主吧,下面給出本人測試的小demo,幫助各位學者更快入手。coding utf...

機器學習筆記 分類決策樹

剪枝處理 三種典型的決策樹學習演算法的比較 決策樹作為一種基本的分類與回歸方法,它由結點和有向邊組成。結點有兩種型別 決策樹是一種基於規則的方法,在樹的每個決策節點處,根據判斷結果進入乙個分支,反覆執行這項操作直至到達葉子結點,得到 結果。而規則是通過訓練得到的,而不是人工制定的。決策樹學習的關鍵是...

機器學習 決策樹

一 基本概念 決策樹 decision tree 是一種基本的分類與回歸方法。決策樹模型呈樹形結構,在分類問題中,表示屬於特徵對例項進行分類的過程,它可以認為是if then規則的集合,也可以認為是電議在特徵空間與類空空上的條件概率分布,其主要優點是模型具有可讀性,分類速度快。決策樹的學習通常包括3...