集合策略 與 學習器的多樣性

2021-09-12 21:58:36 字數 1486 閱讀 9721

西瓜書 8.4/ 8.5

結合策略

假定 整合包涵t個基學習器 : h1 …ht

hi 在 x 上的輸出 為 hi(x)

常見的結合策略:

加權平均法:

wi 是個體學習器的hi 的權重,且滿足:

說明 :

加權平均法 的權重一般是從 訓練資料中學習而得,現實任務中的訓練樣本通常不充分或存在雜訊,這將使得學習出的權重不完全可靠,尤其是對規模比較大的整合來說,要學習的權重較多,容易過擬合。

加權平均法未必一定優於簡單平均法,在個體學習器效能相差較大時使用加權平均法,在個體學習器效能相近時使用簡單平均法。

投票法

絕對多數投票法

即若某標記 得票數過半,則**為該標記,否則拒絕**。

相對多數投票法

即**為得票最多的標記,若同時有多個標記獲得最高票,則從中隨機選取乙個。

加權投票法

注意:

不同的學習器輸出的資料型別有:

1 類標記(非1 即0 硬投票)

2 類概率 (軟投票)

不同型別的值,相互轉化 ,然後 使用platt縮放 ,等分回歸,等進行校準後才能使用。

學習法

通過另乙個學習器來進行結合,把個體學習器稱為初級學習器,用於結合的學習器為次級學習器或元學習器。

代表 為 stacking

1 先從初始資料集訓練出初級學習器,

2 然後生成乙個新資料集用於訓練次級學習器

3 在這個新資料集中,初級學習器的輸出被當作樣例輸入特徵,而初始樣本的標記仍被當作樣例標記。

訓練階段 , 使用交叉驗證或留一法這樣的方式,使用訓練初級學習器未使用的樣本來產生次級學習器的訓練樣本,

8.5 :

多樣性:

1 誤差-分歧分解

與構建泛化能力強的整合,個體學習器應 好而不同,

這裡的分歧項 表徵了個體學習器在樣本x上的不一致性,即在一定程度上反映了個體學習器的多樣性。

個體學習器的準確性越高,多樣性越大,則整合越好,稱為誤差---分歧分解。

2 多樣性度量

是用於度量整合中個體分類器的多樣性,即估算個體學習去器的多樣化程度,典型的做法是考慮個體分類器的兩兩相似 / 不相似性

常見的多樣性度量:

不合度量

相關係數

q--統計量

k--統計量

3 多樣性增強:

常見的做法:

資料樣本擾動

輸入屬性擾動

輸出表示擾動

演算法引數擾動

整合學習技術的實際計算開銷並不比使用單一的學習器大很多。

整合包括多個學習器,即便個體學習器有較好的可解釋性,整合仍是黑箱模型,已有一些工作試圖改善整合的可解釋性,例如 將整合轉化成為單模型,從整合中抽取符號規則等,這方面的研究衍生出了能產生效能超越整合的單學習器的 二次學習技術。

谷歌的勞動力多樣性

一直以來,我們對谷歌的勞動力多樣性諱莫如深。現在,我們意識到這並不是乙個明智的做法,是時候談談這個話題了。簡單來說,當我們說起勞動力多樣性時,谷歌並不是乙個理想的例子,並且,如果你不是懷著一顆開放包容的心,很多問題根本無從說起。下面是谷歌勞動力多樣性的資料。出於各方面的原因,許多科技公司,比如谷歌,...

衡量你的團隊的智力多樣性

工作團隊想要有創意,最好能有各種不同的才能 技能和特質,例如能夠用不同的觀點來看問題 能夠理解客戶的心情,又或是有天份能夠將創意及點子轉化成可獲利的創新應用 而這些很少光靠單一員工就能達成。如果團隊成員來自不同的學科 背景及專業,就比較有可能讓整個團隊具備這種多樣化智慧型。就像是光有女高音的合唱團不...

整合學習之 如何進行多樣性增強

眾所周知,對於整合學習的基學習器而言,他們的差異性越大,整合之後的效果就越好,那麼,我們怎麼增強不同模型的多樣性呢?1.樣本擾動 比如bagging中的自助法就是了,由於生成的不同資料集間有一定的不同,所以導致訓練出來的基學習器也有一定的不同。對於linear svm bayes knn這些對擾動不...