極簡機器學習範例 分類 邏輯回歸

2021-06-20 16:16:26 字數 1541 閱讀 7240

邏輯回歸分類的優缺點及使用資料型別

決策樹就是事先設定一棵樹,樹的所有非葉子節點都是由特徵構成的,然後根據這個樹自定而下問問題,直到把測試記錄歸類到葉子節點(最終的分類結果)。

例子

根據動物顏色、長度等特徵判斷動物智商高低(分類結果);

根據一系列特徵判斷給患者配什麼眼鏡等。

優點

資料形式非常容易理解;可以處理不相關特徵資料;

計算複雜度不高;

缺點

可能產生過渡匹配問題

適用資料型別:

數值型和標稱型

介紹演算法基本思想前,先聊一下資訊增益(information gain),又叫熵(entropy)。劃分資料集前後資訊發生的變化稱之為資訊增益。如果有多個特徵可以用來劃分資料集,我們只要計算出每個特徵劃分資料集後的資訊增益,取增益最大的特徵,就是最好的特徵選擇。

常見的決策樹演算法包括:hunts以及基於hunts的id3、c4.5、cart等

一、演算法基本思想

1)選取特徵(特徵即屬性)

2)計算目標特徵的資訊熵eg

3)分別計算每乙個特徵的資訊熵ei

4)max(eg-ei)

判斷出資訊熵差值最大的特徵i,把第i個特徵作為最終的分類特徵。

下例參考:

下面舉例來說明這個公式:

假使說我們要研究狗的智商(目標屬性),潛在的關聯因素包括顏色和毛的長度。

顏色(color)

毛的長度(length)

智商(iq)

black長高

white長高

white短高

white短低

3次出現「高」智商,1次出現「低智商」,所以目標屬性iq的資訊熵:hiq(d)=-(3/4)log2(3/4)-(1/4)log2(1/4)

color屬性在取不同的值對應目標屬性iq的資訊熵:

而color屬性的整體資訊熵是上述二者的加權平均值:hcolor(d)=(1/4)hcolor(dblack)+(3/4)hcolor(dwhite)。同樣可以求得hlength(d)。

現在定義資訊增益gaincolor=hiq(d)-hcolor(d),gainlength=hiq(d)-hlength(d),它是資訊熵的有效減少量,值越高,說明目標屬性iq在參考屬性處損失的資訊熵越多,也就是失去的不確定性越多,那麼在決策樹進行分類的時候,這個參考屬性應該越早作為決策的依據屬性。

這個例子中如果gainlength > gaincolor,說明length比color要對iq有更大的影響,所以決策樹中,要先依據length來進行分類。

在實際應用中,往往引入乙個「閾值」,當節點下的任意一分類所佔百分比超過這個閾值時,就不再進行分類,以避免產生出過小的沒有實際意義分類節點。

id3演算法也存在諸多不足,比如分類偏向於取值數量,只能處理離散資料等等問題。c4.5演算法是對id3的乙個改進,但是總體來看,由於需要反覆遍歷資料,二者都是效率很低的演算法。

參考:

極簡機器學習範例 分類 決策樹

決策樹分類的優缺點及使用資料型別 決策樹就是事先設定一棵樹,樹的所有非葉子節點都是由特徵構成的,然後根據這個樹自定而下問問題,直到把測試記錄歸類到葉子節點 最終的分類結果 例子 根據動物顏色 長度等特徵判斷動物智商高低 分類結果 根據一系列特徵判斷給患者配什麼眼鏡等。優點 資料形式非常容易理解 可以...

python 邏輯回歸分類 機器學習 邏輯回歸分類

分類問題 1 本質 決策面 decision su ce 2 評估分類演算法的指標,正確率 正確分類個數 總數 二分分類 邏輯回歸輸入 訓練資料的特徵和標籤 模型 邏輯回歸 輸出 分類結果 什麼是邏輯函式?在0到1之間取值,邏輯回歸是因為引數是邏輯函式 邏輯的數值 表示分類結果是1是y的結果 決策面...

機器學習 邏輯回歸 多分類問題

from sklearn.linear model import logisticregression 1 penalty 使用指定正則化項 預設 l2 2 dual n samples n features取false 預設 3 c 正則化強度,值越小正則化強度越大 4 fit intercept...