整合學習 機器學習

2021-10-03 19:26:48 字數 1107 閱讀 7469

整合學習的方法在各個資料科學競賽中備受青睞,翻看top1、2大佬的**中,很多會用到隨機森林、gbdt、xgboost等等,並且確實取得了非凡的效果。個人覺得整合學習並不難理解。

個體:單個分類器

整合:多個分類器結合起來。所以整合學習的關鍵就是如何我們選擇怎麼樣的分類器,並且這些分類器如何結合起來完成任務。

上面這張圖應該是很清晰的給我們展示了整合學習的思想。其中的個體學習器通常是由乙個現成的學習演算法從訓練集資料集中中產生,如我們之前講過的邏輯回歸、決策樹、支援向量機,神經網路等等。

如果上面的t個個體學習器都是同一種演算法,比如都是決策樹演算法,那麼這種整合我們稱為「決策樹整合」,並且這樣的整合是「同質」的,其中個體學習器稱為基學習器。

如果上面的t個個體學習器並不是同一種演算法,比如有些是決策樹,有些是支援向量機,那麼這種整合是「異質」的,其中個體學習器稱為「元件學習器」。

那麼我們是希望什麼樣的個體學習器整合起來才能更好的提公升效能呢??

從上圖可以看出,我們希望最後的整合學習的效果可以和(a)一樣,要想獲得好的整合,個體學習器應該好而不同,好是指個體學習器要有一定的「準確性」,至少準確性要高於50%,因為在二分類任務中,對於某個樣本來說,就算不用分類器靠人為的猜測也是有50%的準確性的,那個體學習器的準確性肯定是要比人為猜測的準確性要高,否則就會像上圖的(c)中一樣;不同說的就是學習器之間要有差異性,就是「多樣性」,否則就會像上圖的(b)中一樣。

那麼整合學習中的個體分類器如何結合起來**,看看上面這個圖,也猜到了,最為簡單的就是投票法,訓練很多個個體學習器,新樣本來了之後,輸入到每個個體學習器中,這樣就可以得到每個個體學習器的結果,以二分類為例,如果結果中輸出的+1更多,那最終的結果就是+1類,如果輸出的-1更多,那最終的結果就是-1類,這是最簡單的一種方法。

那麼我們可以再想想,上面說的訓練出來的個體學習器要好而不同,這個時候我們就要考慮如何訓練好,如何做到不同,最後更為複雜的整合方式又是什麼?

出於對上面問題的種種考慮,目前的整合學習方法大致分為兩大類,一種的序列訓練個體學習器,這種方法的代表是boosting,一種是並行訓練分類器,這種方式的代表是bagging和隨機森林。

機器學習 機器學習目錄

注 後期有時間的話會對每乙個演算法進行講解。1 普通線性回歸 2 廣義線性模型 3 邏輯回歸 4 線性判定分析1 決策樹基本原理與構建 2 cart演算法 3 回歸決策樹 4 分類決策樹1 貝葉斯定理與樸素貝葉斯 2 高斯貝葉斯分類器 3 多項式貝葉斯分類器 4 伯努利貝葉斯分類器 5 遞增式學習1...

機器學習 機器學習概論

3 模型評估與模型選擇 4.具體應用 統計學習 是關於計算機基於 資料 構建概率統計模型並運用模型對資料進行 分析 統計學習的三要素 模型在監督學習中,模型就是所要學習的條件概率分布或決策函式。這在後面的章節中會重點介紹。策略 評價模型的標準 用損失函式和代價函式來度量 錯誤的程度。1 幾種損失函式...

機器學習 機器學習基礎

資料集劃分的api 返回值 訓練特徵,測試特徵,訓練目標,測試目標 方式1 獲取小規模的資料集 importsklearn.datasets as datasets iris datasets.load iris 提取樣本資料 feature iris data target iris target...