機器學習思考題目 06決策樹

本文直譯自《hands on ml》課後題。（有改動的以【】表示）。

一棵勻稱（well-balanced）的二叉樹，如果共有m個葉子，則它的深度為log2(m)（取整）。一棵二元決策樹（binary decision tree）訓練結束時，或多或少平衡，每個葉子代表乙個樣本（訓練時沒有限制的情況下）。因此如果包含一百萬個樣本，那麼輸的深度會是log2(1000000)≈20（實際中會略多，因為樹一般不會如此平衡）。

乙個節點的gini不純度一般比它的父節點的小。這是由cart訓練演算法的損失函式來保證的——在進行**的時候，最小化它的子節點的不純度的和。

然而，它仍然可能比它的父節點有更高的gini不純度。例如，假設乙個節點包含四個a類樣本，1個b類樣本。它的gin不純度為1-（1/5）2-（4/5）2=0.32。現在假設資料集是一維資料集，樣本按以下順序排列：a，b，a，a，a。可以驗證，演算法在第二個樣本之後進行**，產生包含a、b的子節點和包含a、a、a的子節點。第乙個子節點的gini不純度為1-（1/2）2-（1/2）2=0.5，比它的父節點大。因為另乙個節點是純節點，所以（這個增長）被補償了，總的gini不純度為（2/5）*0.32+（3/5）*0=0.2，這比它的父節點的gini不純度小。

會，因為這會限制模型，regularizing it。

決策樹不關係訓練資料是否 scaled 或 centered；這是決策樹的乙個優點。因此此時scale輸入是浪費時間。

訓練決策樹的計算複雜度為o(n×mlog(m))，其中m為樣本數，n為特徵數。訓練集的資料是原來的十倍，訓練時間應該乘以k = (n × 10m × log(10m)) / (n × m × log(m)) = 10 × log(10m) / log(m)。當m=1000000時，代入得 k ≈ 11.7，因此訓練時間大概為11.7小時。

只有當訓練集不超過幾千的時候（smaller than a few thousand）預排序才會加速訓練。如果有100,000個樣本，設定presort=true會considerably減緩訓練。

機器學習思考題目 06決策樹

機器學習思考題目 04基礎演算法

機器學習決策樹

機器學習決策樹

機器學習思考題目 06決策樹

機器學習思考題目 04基礎演算法

機器學習 決策樹

機器學習 決策樹

相關推薦

機器學習決策樹

機器學習決策樹