整合學習機器學習

整合學習的方法在各個資料科學競賽中備受青睞，翻看top1、2大佬的**中，很多會用到隨機森林、gbdt、xgboost等等，並且確實取得了非凡的效果。個人覺得整合學習並不難理解。

個體：單個分類器

整合：多個分類器結合起來。所以整合學習的關鍵就是如何我們選擇怎麼樣的分類器，並且這些分類器如何結合起來完成任務。

上面這張圖應該是很清晰的給我們展示了整合學習的思想。其中的個體學習器通常是由乙個現成的學習演算法從訓練集資料集中中產生，如我們之前講過的邏輯回歸、決策樹、支援向量機，神經網路等等。

如果上面的t個個體學習器都是同一種演算法，比如都是決策樹演算法，那麼這種整合我們稱為「決策樹整合」，並且這樣的整合是「同質」的，其中個體學習器稱為基學習器。

如果上面的t個個體學習器並不是同一種演算法，比如有些是決策樹，有些是支援向量機，那麼這種整合是「異質」的，其中個體學習器稱為「元件學習器」。

那麼我們是希望什麼樣的個體學習器整合起來才能更好的提公升效能呢？？

從上圖可以看出，我們希望最後的整合學習的效果可以和（a）一樣，要想獲得好的整合，個體學習器應該好而不同，好是指個體學習器要有一定的「準確性」，至少準確性要高於50%，因為在二分類任務中，對於某個樣本來說，就算不用分類器靠人為的猜測也是有50%的準確性的，那個體學習器的準確性肯定是要比人為猜測的準確性要高，否則就會像上圖的（c）中一樣；不同說的就是學習器之間要有差異性，就是「多樣性」，否則就會像上圖的（b）中一樣。

那麼整合學習中的個體分類器如何結合起來**，看看上面這個圖，也猜到了，最為簡單的就是投票法，訓練很多個個體學習器，新樣本來了之後，輸入到每個個體學習器中，這樣就可以得到每個個體學習器的結果，以二分類為例，如果結果中輸出的+1更多，那最終的結果就是+1類，如果輸出的-1更多，那最終的結果就是-1類，這是最簡單的一種方法。

那麼我們可以再想想，上面說的訓練出來的個體學習器要好而不同，這個時候我們就要考慮如何訓練好，如何做到不同，最後更為複雜的整合方式又是什麼？

出於對上面問題的種種考慮，目前的整合學習方法大致分為兩大類，一種的序列訓練個體學習器，這種方法的代表是boosting，一種是並行訓練分類器，這種方式的代表是bagging和隨機森林。

整合學習機器學習

機器學習機器學習目錄

機器學習機器學習概論

機器學習機器學習基礎

整合學習 機器學習

機器學習 機器學習目錄

機器學習 機器學習概論

機器學習 機器學習基礎

相關推薦

整合學習機器學習

機器學習機器學習目錄

機器學習機器學習概論

機器學習機器學習基礎