極簡機器學習範例分類邏輯回歸

邏輯回歸分類的優缺點及使用資料型別

決策樹就是事先設定一棵樹，樹的所有非葉子節點都是由特徵構成的，然後根據這個樹自定而下問問題，直到把測試記錄歸類到葉子節點（最終的分類結果）。

例子：

根據動物顏色、長度等特徵判斷動物智商高低（分類結果）；

根據一系列特徵判斷給患者配什麼眼鏡等。

優點：

資料形式非常容易理解；可以處理不相關特徵資料；

計算複雜度不高；

缺點：

可能產生過渡匹配問題

適用資料型別：

數值型和標稱型

介紹演算法基本思想前，先聊一下資訊增益（information gain），又叫熵（entropy）。劃分資料集前後資訊發生的變化稱之為資訊增益。如果有多個特徵可以用來劃分資料集，我們只要計算出每個特徵劃分資料集後的資訊增益，取增益最大的特徵，就是最好的特徵選擇。

常見的決策樹演算法包括：hunts以及基於hunts的id3、c4.5、cart等

一、演算法基本思想

1）選取特徵（特徵即屬性）

2）計算目標特徵的資訊熵eg

3）分別計算每乙個特徵的資訊熵ei

4）max(eg-ei)

判斷出資訊熵差值最大的特徵i，把第i個特徵作為最終的分類特徵。

下例參考：

下面舉例來說明這個公式：

假使說我們要研究狗的智商（目標屬性），潛在的關聯因素包括顏色和毛的長度。

顏色（color）

毛的長度（length）

智商（iq）

black長高

white長高

white短高

white短低

3次出現「高」智商，1次出現「低智商」，所以目標屬性iq的資訊熵：hiq(d)=-(3/4)log2(3/4)-(1/4)log2(1/4)

color屬性在取不同的值對應目標屬性iq的資訊熵：

而color屬性的整體資訊熵是上述二者的加權平均值：hcolor(d)=(1/4)hcolor(dblack)+(3/4)hcolor(dwhite)。同樣可以求得hlength(d)。

現在定義資訊增益gaincolor=hiq(d)-hcolor(d)，gainlength=hiq(d)-hlength(d)，它是資訊熵的有效減少量，值越高，說明目標屬性iq在參考屬性處損失的資訊熵越多，也就是失去的不確定性越多，那麼在決策樹進行分類的時候，這個參考屬性應該越早作為決策的依據屬性。

這個例子中如果gainlength > gaincolor，說明length比color要對iq有更大的影響，所以決策樹中，要先依據length來進行分類。

在實際應用中，往往引入乙個「閾值」，當節點下的任意一分類所佔百分比超過這個閾值時，就不再進行分類，以避免產生出過小的沒有實際意義分類節點。

id3演算法也存在諸多不足，比如分類偏向於取值數量，只能處理離散資料等等問題。c4.5演算法是對id3的乙個改進，但是總體來看，由於需要反覆遍歷資料，二者都是效率很低的演算法。

參考：

極簡機器學習範例分類邏輯回歸

極簡機器學習範例分類決策樹

python 邏輯回歸分類機器學習邏輯回歸分類

機器學習邏輯回歸多分類問題

極簡機器學習範例 分類 邏輯回歸

極簡機器學習範例 分類 決策樹

python 邏輯回歸分類 機器學習 邏輯回歸分類

機器學習 邏輯回歸 多分類問題

相關推薦

極簡機器學習範例分類邏輯回歸

極簡機器學習範例分類決策樹

python 邏輯回歸分類機器學習邏輯回歸分類

機器學習邏輯回歸多分類問題