《集體智慧型程式設計》第7章 決策樹建模 個人筆記

2021-07-31 18:13:22 字數 341 閱讀 3395

本章使用cart樹(分類回歸樹)來做分類,找到最優拆分屬性和最優拆分屬性值後進行劃分。如何選擇劃分分案,通過計算資料集合的混雜程度。對於混雜程度的測度,有多種方案,這裡用以下兩種:

本章採用的是後剪枝策略,先建立一顆完整的決策樹,考察某個節點,如果將其子節點合併熵的增加量小於某個指定的閾值,則合併其子節點。

這部分可參考李航老師的《統計學習方法》,利用決策樹的損失函式來剪枝,損失函式加入了樹葉子節點數作為正則項。

這章我覺得寫得有點簡略,id3、c4.5、cart這三者都沒有介紹清楚(熵增益比都沒說=。=),這塊還是建議看《統計學習方法》和西瓜書吧~~

集體智慧型程式設計 決策樹

決策樹是一種非常簡單直觀的對觀測資料進行分類的方法。構造決策樹的演算法有很多種,cart id3等等演算法我們都可以選擇,此處就不再一一贅述。本章的重點在於之前完全沒有接觸過的演算法部分 決策樹的剪枝與處理數值型結果。在使用上述演算法訓練決策樹會帶來乙個很大的問題,那就是決策樹可能會變得過度擬合,過...

集體智慧型程式設計 第1章 集體智慧型導言

集體智慧型通常是指為了創造新的想法,而將一群人的行為 偏好或思想結合在一起。完成這項工作的最基礎的方法便是使用調查問卷或普查。從一大群人中搜尋的答案可以使我們得到關於群主的統計結論 組中的個體成員將會被忽視。從獨立的資料提供者那裡得到新的結論,是集體智慧型所真正關注的。機器學習是人工智慧領域中與演算...

《集體智慧型程式設計》第8章

1.p175 在計算高斯函式時,中的預設標準差為10.0,如果預設標準差為10是得不到正文中的資料的,這裡的預設值應該改為1.0 附上高斯函式的公式和影象 公式中的a代表高斯函式的最大值,b代表平均值 即當高斯函式取最大值時x的值 c代表標準差,c 2表示方差。上圖表示a 1,b 0,c 1 上圖表...