李行統計學習，習題8 1

既然弱分類器是決策樹，那就先用決策樹分類吧。

常見的決策樹演算法有id3，c4.5和cart樹，這裡我選用cart樹。

1，確定權值

因為是第一次計算，所以每個權值初始化為0.1，即w1 = (w11, w12, ..., w110) = (0.1,0.1, ..., 0.1)

2，確定弱分類器：

用a, b, c表示「身體、業務、潛力」這三個特徵

2.1，求gini：

gini(d,a = 1)

ps1：d1:身體為0的樣本，d2:身體為1的樣本，d:所有樣本

ps2：w_d1_sum:d1的權值和，w_d2_sum:d2的權值和

ps3：原本的公式中沒有

w_d1_sum

和w_d2_sum

，但是根據

adaboost

演算法，我們需要在確定弱分離器的分類標準時將每個樣本的權值作用到裡面，所以我新增了這個。

ps4：ps3

是個人想法，可能不是最恰當的做法，還望指正。

ps5：因為最初所有的權值都一樣，因此這次我就不計算

w_d1_sum

和w_d2_sum

了，因此這裡得出的

gini

都沒有計算

w_d1_sum

和w_d2_sum。

同理求出b和c的gini：

2.2，選出最小的gini作為最優切分點

因為gini(d, c=2)最小，所以「『潛力』的特徵『2』」是最優切分點。

2.3，切分。

此時有決策樹：

原始樣本

左分支(屬於潛力2) 右分支(屬於非潛力2)

樣本3,6,7 樣本1,2,4,5,8,9,10

2.4，對左分支和右分支不停的重複以上步驟，得出第乙個決策樹，這裡為了簡單起見，我對決策樹進行「前剪枝」，即：規定決策樹的層數只有1層，因此我的決策樹到此為止，而這就是第乙個弱分類器g1(x)。

3，計算誤差率。

對於上述決策樹，經計算發現：左分支中有2個誤分類到-1類，右分支中有1個誤分類1類，所以一共有3個誤分類點，其權值的和為0.3，即誤差率是e1 = 0.3。

4，計算g1(x)的係數。

a1= (1/2) log [(1-e1)/e1]

5，更新訓練資料的權值分布

w2= (w21, w22, ...,w210)

w2i= (w1i/z1)exp(-a1yig1(xi))，i = 1, 2,..., 10

6，確定強分類器f(x)

此時的強分類器是：f(x)= a1g1(x)

7，重複以上步驟，直到誤分類點個數為0，或者滿足自己的需求。

統計學習方法概論《統計學習方法》李航著

統計學習由監督學習，非監督學習，半監督學習和強化學習組成。監督學習方法主要包括分類標註與回歸問題回歸問題輸入變數和輸出變數均為連續變數的問題分類問題輸出變數為有限個離散變數的問題標註問題輸入與輸出變數均為變數序列的問題統計學習三要素模型，策略，演算法損失函式度...

《統計學習方法》李航學習大綱

最近在學習李航寫的統計學習方法概論，每一章都用xmind理清了思路，括號裡是書裡的公式，第一次寫博文，敬請指教第一章統計學習方第二章感知機每個方法其實只需要著重掌握三要素和輸入輸出就可以了，主要看模型策略和演算法。感知機主要是二類分類的線性分類模型。看到後面會注意感知機和支援向量機的區別...

李航統計學習方法筆記1 統計學習方法概論

模型由輸入到輸出的對映假設空間由輸入空間到輸出空間的對映多集合模型由條件概率分布p y x 或決策函式y f x 表示損失函式度量模型一次的好壞，用乙個損失函式來度量錯誤的程度風險函式度量平局意義下模型的好壞經驗風險模型f x關於訓練資料集的平均損失當模型上條件概率分布...

李行統計學習，習題8 1

統計學習方法概論 《統計學習方法》李航著

《統計學習方法》 李航 學習大綱

李航統計學習方法筆記1 統計學習方法概論

相關推薦

統計學習方法概論《統計學習方法》李航著

《統計學習方法》李航學習大綱