集合策略與學習器的多樣性

西瓜書 8.4/ 8.5

結合策略

假定整合包涵t個基學習器： h1 …ht

hi 在 x 上的輸出為 hi(x)

常見的結合策略：

加權平均法：

wi 是個體學習器的hi 的權重，且滿足：

說明：

加權平均法的權重一般是從訓練資料中學習而得，現實任務中的訓練樣本通常不充分或存在雜訊，這將使得學習出的權重不完全可靠，尤其是對規模比較大的整合來說，要學習的權重較多，容易過擬合。

加權平均法未必一定優於簡單平均法，在個體學習器效能相差較大時使用加權平均法，在個體學習器效能相近時使用簡單平均法。

投票法

絕對多數投票法即若某標記得票數過半，則**為該標記，否則拒絕**。相對多數投票法即**為得票最多的標記，若同時有多個標記獲得最高票，則從中隨機選取乙個。加權投票法注意：不同的學習器輸出的資料型別有： 1 類標記（非1 即0 硬投票） 2 類概率（軟投票）不同型別的值，相互轉化，然後使用platt縮放，等分回歸，等進行校準後才能使用。

學習法

通過另乙個學習器來進行結合，把個體學習器稱為初級學習器，用於結合的學習器為次級學習器或元學習器。代表為 stacking 1 先從初始資料集訓練出初級學習器， 2 然後生成乙個新資料集用於訓練次級學習器 3 在這個新資料集中，初級學習器的輸出被當作樣例輸入特徵，而初始樣本的標記仍被當作樣例標記。訓練階段，使用交叉驗證或留一法這樣的方式，使用訓練初級學習器未使用的樣本來產生次級學習器的訓練樣本，

8.5 ：

多樣性： 1 誤差-分歧分解與構建泛化能力強的整合，個體學習器應好而不同，這裡的分歧項表徵了個體學習器在樣本x上的不一致性，即在一定程度上反映了個體學習器的多樣性。個體學習器的準確性越高，多樣性越大，則整合越好，稱為誤差---分歧分解。 2 多樣性度量是用於度量整合中個體分類器的多樣性，即估算個體學習去器的多樣化程度，典型的做法是考慮個體分類器的兩兩相似 / 不相似性常見的多樣性度量：不合度量相關係數 q--統計量 k--統計量 3 多樣性增強：常見的做法：資料樣本擾動輸入屬性擾動輸出表示擾動演算法引數擾動

整合學習技術的實際計算開銷並不比使用單一的學習器大很多。

整合包括多個學習器，即便個體學習器有較好的可解釋性，整合仍是黑箱模型，已有一些工作試圖改善整合的可解釋性，例如將整合轉化成為單模型，從整合中抽取符號規則等，這方面的研究衍生出了能產生效能超越整合的單學習器的二次學習技術。

集合策略與學習器的多樣性

谷歌的勞動力多樣性

衡量你的團隊的智力多樣性

整合學習之如何進行多樣性增強

集合策略 與 學習器的多樣性

谷歌的勞動力多樣性

衡量你的團隊的智力多樣性

整合學習之 如何進行多樣性增強

相關推薦

集合策略與學習器的多樣性

整合學習之如何進行多樣性增強