機器學習實戰筆記之三（決策樹）

決策樹，資料形式易於理解。

k-近鄰演算法，完成很多分類任務。

缺點：可能會產生過度匹配問題。

適用資料型別：數值型和標稱型。

收集資料：可以使用任何方法。

準備資料：樹構造演算法只適用於標稱型資料，因此數值型資料必須離散化。

分析資料：可以使用任何方法，構造樹完成之後，我們應該檢查圖形是否符合預期。

訓練演算法：構造樹的資料結構。

測試演算法：使用經驗樹計算錯誤率。

使用演算法：此步驟可以適用於任何監督學習演算法，而使用決策樹可以更好地理解資料的內在含義。

（另乙個度量集合無序程度的方法：基尼不純度 gini impurity，從乙個資料集中隨機選取子項，度量其被錯誤分類到其他分組裡的概率。）

執行資料分類時，需要決策樹以及用於構造樹的標籤向量。然後，程式比較測試資料與決策樹上的數值，遞迴執行該過程直到進入葉子點；最後將測試資料定義為葉子節點所屬的型別。

為了節省計算時間，最好能夠在每次執行分類時呼叫已經構造好的決策樹。為了解決這個問題，需要使用python模組pickle序列化物件，參見程式清單3-9。序列化物件可以在磁碟上儲存物件，並在需要時讀取出來。任何物件都可以執行序列化操作，字典物件也不例外。

******************************==我是決策樹的分割線******************************==

尼瑪終於知道為什麼計算結果和書上的不一樣了，**眼鏡那堆資料。

原來是打字員少縮排一行，我傻乎乎地連續縮排了2行。。。結果程式沒報錯，然而熵的結果完全錯誤了。（深刻教訓）

決策樹可以非常好地匹配實驗資料，然而這些匹配選項可能太多了。。。（書的原話，藉著吐槽一下）

機器學習之三決策樹

決策樹通過分而治之的策略，採用遞迴的方式學習得到樹結構，目標為學習乙個泛化能力強的決策樹。有三種情形會導致遞迴返回 1.當前節點包含的樣本均屬於同一類別 2.當前節點屬性集為空或所有樣本在所有屬性上取值相同 3.當前節點樣本集為空出現以上三種情況中的任意一種，該節點標記為葉節點，對1來說，該葉...

《機器學習實戰》學習筆記三決策樹

1.資訊增益決策樹應該是比較簡單的概念了，其結構類似於二叉樹，從根節點向下依次判斷，直至葉子節點獲得結果。對於基本結構不多說了，這裡主要說一下和決策樹相關的兩個數學上的概念，即資訊增益和夏農熵。資訊增益是指的以某乙個特徵對資料集劃分前後資料集發生的變化，而夏農熵則是度量這一變化的量。夏農熵的計算公...

《機器學習實戰》學習筆記三決策樹

第三章決策樹決策樹就是乙個樹狀結構的判別模式這棵樹的每個非葉節點都包含乙個判斷條件，每個葉節點都是一種特定的分出來的類別。缺點可能產生匹配過度關於優缺點，個人理解對中間值的缺失不敏感就是說可以處理有缺失值的特徵資料，匹配過度應該是對於分出來的類別中存在父子類這種情況來說的一決策樹總體...

機器學習實戰筆記之三（決策樹）

機器學習之三 決策樹

《機器學習實戰》學習筆記三 決策樹

《機器學習實戰》學習筆記三 決策樹

相關推薦

機器學習之三決策樹

《機器學習實戰》學習筆記三決策樹

《機器學習實戰》學習筆記三決策樹