深入淺出回歸樹演算法

2021-10-06 11:24:42 字數 1068 閱讀 6740

之前的部落格 介紹了決策樹演算法在分類問題上面的應用,有提到id3演算法,c4.5演算法和cart演算法,其中cart(classification and regression tree)分類回歸樹既可以用於分類,也可以用於回歸,當用於分類的時候,cart樹中每個葉子結點代表乙個類別,在回歸問題中,cart樹中每個葉子結點代表乙個**值,其是連續的。這裡針對cart在回歸問題上面的應用,進行簡單介紹。

相同點:

1、構造的樹均為二叉樹。2、所有落在同一葉子結點上面的輸入具有同樣的輸出。

不同點:

1、在進行劃分屬性選擇時使用的判別標準不同:在分類問題中,cart演算法使用基尼係數(gini index)作為選擇特徵(feature)和劃分 (split)的依據;在回歸問題中,cart演算法使用mse(均方誤差)或者mae(平均絕對誤差)作為選擇特徵(feature)和劃分 (split)的依據。

2、在分類問題中,cart演算法得到的樹結構,每個葉子結點是乙個類別;在回歸問題中,cart演算法得到的樹結構,每個葉子結點是乙個連續值。

之前在決策樹構建過程中,為了防止決策樹過擬合,使用到了剪枝的方法,在回歸樹中同樣可以使用剪枝的方法來防止過擬合。我們知道,如果讓回歸樹無限制地生長,最終可能出現的結果是每個葉子結點只有乙個訓練樣本,導致其在訓練集過分擬合,從而在測試集上面效果很差,因此我們這裡對回歸樹的葉子結點數量進行限制,也就是增加上面的正則化項。

KMP演算法深入淺出

s ababcababa p ababa kmp演算法與bf演算法的區別就在於kmp演算法巧妙的消除了指標i的回溯問題,只需確定下次匹配j的位置即可,使得問題的複雜度由o mn 下降到o m n 在kmp演算法中,為了確定在匹配不成功時,下次匹配時j的位置,引入了next陣列,next j 的值表示...

深入淺出K Means演算法

摘要 在資料探勘中,k means演算法是一種 cluster analysis 的演算法,其主要是來計算資料聚集的演算法,主要通過不斷地取離種子點最近均值的演算法。在資料探勘中,k means演算法是一種cluster analysis的演算法,其主要是來計算資料聚集的演算法,主要通過不斷地取離種...

深入淺出K Means演算法

在資料探勘中,k means演算法是一種 cluster analysis 的演算法,其主要是來計算資料聚集的演算法,主要通過不斷地取離種子點最近均值的演算法。在資料探勘中,k means演算法是一種cluster analysis的演算法,其主要是來計算資料聚集的演算法,主要通過不斷地取離種子點最...