極簡機器學習範例 分類 決策樹

2021-06-20 09:15:45 字數 1805 閱讀 7584

決策樹分類的優缺點及使用資料型別

決策樹就是事先設定一棵樹,樹的所有非葉子節點都是由特徵構成的,然後根據這個樹自定而下問問題,直到把測試記錄歸類到葉子節點(最終的分類結果)。

例子

根據動物顏色、長度等特徵判斷動物智商高低(分類結果);

根據一系列特徵判斷給患者配什麼眼鏡等。

優點

資料形式非常容易理解;可以處理不相關特徵資料;

計算複雜度不高;

缺點

可能產生過渡匹配問題

適用資料型別:

數值型和標稱型

介紹演算法基本思想前,先聊一下資訊增益(information gain),又叫熵(entropy)。

2023年夏農提出了資訊熵(entropy)的概念。

假如事件a的分類劃分是(a1,a2,...,an),每部分發生的概率是(p1,p2,...,pn),那資訊熵定義為公式如下:

entropy(p1,p2,p3,......,pn)=-p1logp1-p2logp2-......-pnlogpn

資訊熵可以衡量事物的不確定性,這個事物

不確定性越大,資訊熵也越大

劃分資料集前後資訊發生的變化稱之為資訊增益。如果有多個特徵可以用來劃分資料集,我們只要計算出每個特徵劃分資料集後的資訊增益,取增益最大的特徵(資訊熵最小的特徵,即確定性最強的特徵),就是最好的特徵選擇(便於減少樹的深度?)。

常見的決策樹演算法包括:hunts以及基於hunts的id3、c4.5、cart等

一、演算法基本思想

1)選取特徵(特徵即屬性)

2)計算目標特徵的資訊熵eg

3)分別計算每乙個特徵的資訊熵ei

4)max(eg-ei)

判斷出資訊熵差值最大的特徵i,把第i個特徵作為最終的分類特徵。

下例參考:

下面舉例來說明這個公式:

假使說我們要研究狗的智商(目標屬性),潛在的關聯因素包括顏色和毛的長度。

顏色(color)

毛的長度(length)

智商(iq)

black長高

white長高

white短高

white短低

3次出現「高」智商,1次出現「低智商」,所以目標屬性iq的資訊熵:hiq(d)=-(3/4)log2(3/4)-(1/4)log2(1/4)

color屬性在取不同的值對應目標屬性iq的資訊熵:

而color屬性的整體資訊熵是上述二者的加權平均值:hcolor(d)=(1/4)hcolor(dblack)+(3/4)hcolor(dwhite)。同樣可以求得hlength(d)。

現在定義資訊增益gaincolor=hiq(d)-hcolor(d),gainlength=hiq(d)-hlength(d),它是資訊熵的有效減少量,值越高,說明目標屬性iq在參考屬性處損失的資訊熵越多,也就是失去的不確定性越多,那麼在決策樹進行分類的時候,這個參考屬性應該越早作為決策的依據屬性。

這個例子中如果gainlength > gaincolor,說明length比color要對iq有更大的影響,所以決策樹中,要先依據length來進行分類。

在實際應用中,往往引入乙個「閾值」,當節點下的任意一分類所佔百分比超過這個閾值時,就不再進行分類,以避免產生出過小的沒有實際意義分類節點。

id3演算法也存在諸多不足,比如分類偏向於取值數量,只能處理離散資料等等問題。c4.5演算法是對id3的乙個改進,但是總體來看,由於需要反覆遍歷資料,二者都是效率很低的演算法。

極簡機器學習範例 分類 邏輯回歸

邏輯回歸分類的優缺點及使用資料型別 決策樹就是事先設定一棵樹,樹的所有非葉子節點都是由特徵構成的,然後根據這個樹自定而下問問題,直到把測試記錄歸類到葉子節點 最終的分類結果 例子 根據動物顏色 長度等特徵判斷動物智商高低 分類結果 根據一系列特徵判斷給患者配什麼眼鏡等。優點 資料形式非常容易理解 可...

機器學習分類器 決策樹

一 決策樹 經常使用決策樹來處理分類問題,決策樹也是最經常使用的資料探勘演算法,不需要了解機器學習的知識,就能搞明白決策樹是如何工作的。knn演算法可以完成很多分類任務,但它最大的缺點就是無法給出資料的內在含義,決策樹的主要優勢在於資料形式非常容易理解 決策樹能夠讀取資料集合,其乙個重要任務是為了資...

機器學習筆記 分類決策樹

剪枝處理 三種典型的決策樹學習演算法的比較 決策樹作為一種基本的分類與回歸方法,它由結點和有向邊組成。結點有兩種型別 決策樹是一種基於規則的方法,在樹的每個決策節點處,根據判斷結果進入乙個分支,反覆執行這項操作直至到達葉子結點,得到 結果。而規則是通過訓練得到的,而不是人工制定的。決策樹學習的關鍵是...