一文看懂決策樹

2022-05-17 10:10:39 字數 1538 閱讀 7769

決策樹是一種邏輯簡單的機器學習演算法,它是一種樹形結構,所以叫決策樹。

本文將介紹決策樹的基本概念、決策樹學習的 3 個步驟、3 種典型的決策樹演算法、決策樹的 10 個優缺點。

決策樹是一種解決分類問題的演算法,決策樹演算法採用樹形結構,使用層層推理來實現最終的分類。決策樹由下面幾種元素構成:

**時,在樹的內部節點處用某一屬性值進行判斷,根據判斷結果決定進入哪個分支節點,直到到達葉節點處,得到分類結果。

這是一種基於 if-then-else 規則的有監督學習演算法,決策樹的這些規則通過訓練得到,而不是人工制定的。

決策樹是最簡單的機器學習演算法,它易於實現,可解釋性強,完全符合人類的直觀思維,有著廣泛的應用。

舉個栗子:

上面的說法過於抽象,下面來看乙個實際的例子。銀行要用機器學習演算法來確定是否給客戶發放貸款,為此需要考察客戶的年收入,是否有房產這兩個指標。領導安排你實現這個演算法,你想到了最簡單的線性模型,很快就完成了這個任務。

首先判斷客戶的年收入指標。如果大於20萬,可以貸款;否則繼續判斷。然後判斷客戶是否有房產。如果有房產,可以貸款;否則不能貸款。

這個例子的決策樹如下圖所示:

特徵選擇

特徵選擇決定了使用哪些特徵來做判斷。在訓練資料集中,每個樣本的屬性可能有很多個,不同屬性的作用有大有小。因而特徵選擇的作用就是篩選出跟分類結果相關性較高的特徵,也就是分類能力較強的特徵。

在特徵選擇中通常使用的準則是:資訊增益。

決策樹生成

選擇好特徵後,就從根節點觸發,對節點計算所有特徵的資訊增益,選擇資訊增益最大的特徵作為節點特徵,根據該特徵的不同取值建立子節點;對每個子節點使用相同的方式生成新的子節點,直到資訊增益很小或者沒有特徵可以選擇為止。

決策樹剪枝

剪枝的主要目的是對抗「過擬合」,通過主動去掉部分分支來降低過擬合的風險。

id3 演算法

id3 是最早提出的決策樹演算法,他就是利用資訊增益來選擇特徵的。

c4.5 演算法

他是 id3 的改進版,他不是直接使用資訊增益,而是引入「資訊增益比」指標作為特徵的選擇依據。

cart(classification and regression tree)

這種演算法即可以用於分類,也可以用於回歸問題。cart 演算法使用了基尼係數取代了資訊熵模型。

優點缺點

一文看懂kylin

kylin到底解決了什麼關鍵問題 要徹底的解決掉資料查詢時間隨著資料量的增長而成線性增長的規律 kylin適合哪類資料的處理 通常查詢資料,一般是統計結果,如果是統計結果,必然會按照維度來進行聚合,kylin的工作原理是多維立方體分析,適合需要從多個維度來觀察資料的查詢。維度,看資料的角度,比如地區...

一文看懂xml

先簡單介紹下html xml xpath 1.html 超文字語言,用來展示資料。2.xml 可擴充套件標記語言,用來傳輸資料。僅僅是純文字,標籤可自定義。3.xpath 專門在xml中查詢資訊的語言。xml 文件必須包含根元素。該元素是所有其他元素的父元素。xml 文件中的元素形成了一棵文件樹。這...

決策樹系列(一)決策樹基礎

機器學習按資料的使用方式來說可以分為有監督學習 無監督學習 半監督學習 強化學習等,機器學習中的演算法還有另外一種劃分方式 分類 聚類 回歸。但我更喜歡分為兩種 廣義的分類 分類 聚類 和回歸,這裡是按照 的結果是離散資料還是連續資料來劃分的。今天要介紹的決策樹就是分類演算法中的一種。在介紹機器學習...