機器學習實戰筆記之三(決策樹)

2021-07-06 11:00:12 字數 901 閱讀 2926

決策樹,資料形式易於理解。

k-近鄰演算法,完成很多分類任務。

缺點:可能會產生過度匹配問題。

適用資料型別:數值型和標稱型。

收集資料:可以使用任何方法。

準備資料:樹構造演算法只適用於標稱型資料,因此數值型資料必須離散化。

分析資料:可以使用任何方法,構造樹完成之後,我們應該檢查圖形是否符合預期。

訓練演算法:構造樹的資料結構。

測試演算法:使用經驗樹計算錯誤率。

使用演算法:此步驟可以適用於任何監督學習演算法,而使用決策樹可以更好地理解資料的內在含義。

(另乙個度量集合無序程度的方法:基尼不純度 gini impurity,從乙個資料集中隨機選取子項,度量其被錯誤分類到其他分組裡的概率。)

執行資料分類時,需要決策樹以及用於構造樹的標籤向量。然後,程式比較測試資料與決策樹上的數值,遞迴執行該過程直到進入葉子點;最後將測試資料定義為葉子節點所屬的型別。

為了節省計算時間,最好能夠在每次執行分類時呼叫已經構造好的決策樹。為了解決這個問題,需要使用python模組pickle序列化物件,參見程式清單3-9。序列化物件可以在磁碟上儲存物件,並在需要時讀取出來。任何物件都可以執行序列化操作,字典物件也不例外。

******************************==我是決策樹的分割線******************************==

尼瑪終於知道為什麼計算結果和書上的不一樣了,**眼鏡那堆資料。

原來是打字員少縮排一行,我傻乎乎地連續縮排了2行。。。結果程式沒報錯,然而熵的結果完全錯誤了。(深刻教訓)

決策樹可以非常好地匹配實驗資料,然而這些匹配選項可能太多了。。。(書的原話,藉著吐槽一下)

機器學習之三 決策樹

決策樹通過 分而治之 的策略,採用遞迴的方式學習得到樹結構,目標為學習乙個泛化能力強的決策樹。有三種情形會導致遞迴返回 1.當前節點包含的樣本均屬於同一類別 2.當前節點屬性集為空或所有樣本在所有屬性上取值相同 3.當前節點樣本集為空 出現以上三種情況中的任意一種,該節點標記為葉節點,對1來說,該葉...

《機器學習實戰》學習筆記三 決策樹

1.資訊增益 決策樹應該是比較簡單的概念了,其結構類似於二叉樹,從根節點向下依次判斷,直至葉子節點獲得結果。對於基本結構不多說了,這裡主要說一下和決策樹相關的兩個數學上的概念,即資訊增益和夏農熵。資訊增益是指的以某乙個特徵對資料集劃分前後資料集發生的變化,而夏農熵則是度量這一變化的量。夏農熵的計算公...

《機器學習實戰》學習筆記三 決策樹

第三章 決策樹 決策樹就是乙個樹狀結構的判別模式 這棵樹的每個非葉節點都包含乙個判斷條件,每個葉節點都是一種特定的分出來的類別。缺點 可能產生匹配過度 關於優缺點,個人理解 對中間值的缺失不敏感就是說可以處理有缺失值的特徵資料,匹配過度應該是對於分出來的類別中存在父子類這種情況來說的 一 決策樹總體...