《機器學習實戰》DecisionTree學習筆記

2021-10-03 09:36:32 字數 563 閱讀 3779

優點:計算複雜度不高,輸出結果易於理解,對中間值不明幹,可以處理不相關特徵資料。

缺點:可能會產生過度匹配。

範圍:數值型和標稱型。

收集資料

準備資料:樹構造演算法只適用於標稱型資料,因此數值型資料必須離散化

分析資料:可以使用任何方法,構造樹完成之後,應該檢查圖形是否符合預期

訓練演算法:使用經驗樹計算錯誤率

使用演算法:此步驟可以適用於任何監督學習演算法,而使用決策樹可以更好地理解資料的內在含義

原則: 將無序的資料變得更加有序。

在劃分資料集之前之後資訊發生的變化

熵: 資訊的期望值,或者集合資訊的度量方式。

熵定義為資訊的期望值。

檢測資料集中的每個子項是否屬於同一類:

if so return 類標籤

else

尋找劃分資料集的最好特徵

劃分資料集

建立分支節點

for 每個劃分的子集

呼叫函式createbranch並增加返回結果到分支節點中

return 分支節點

機器學習實戰

花了一段時間,總算把 機器學習實戰 粗讀了一遍,重點就在這個粗讀上。這本書的確不錯,機器學習的幾個經典演算法都涉及了,每個演算法都有1 2個實際例子進行說明,都有實實在在的 讓我想起了linus的 talk is cheap,show me the code 那句名言。但多年來養成的習慣,從來都是喜...

機器學習機器學習實戰 kmeans

簡介 聚類演算法是一種無監督學習,它將相似的物件歸類到同一簇中。聚類的方法可以應用所有的物件,簇內的物件越相似,聚類效果也就越好。聚類和分類的最大不同之處在於,分類的目標是已知的,聚類是完全無監督學習,類別沒有像分類那樣被預先定義出來,所以叫做無監督學習。kmeans演算法是實際中最常用的聚類演算法...

機器學習實戰 apriori

前面主要學習了機器學習的兩大塊 分類,回歸,接下來的兩節進入到頻繁項集和關聯規則的分析。關聯分析中最著名的例子當屬啤酒和尿布了。為了定義上述的頻繁和關聯我們引入兩個定義 1 支援度 資料集中包含該集項的記錄所佔的比例 2 置信度 對於關聯規則p m,該規則的置信度為 support p u m su...