處理不平衡樣本集的取樣方法

2021-09-24 06:19:00 字數 853 閱讀 3261

在訓練二分類模型時,例如醫療診斷、網路入侵檢測、信用卡反詐騙等,經常會遇到正負樣本不均衡的問題。對於分類演算法,如果直接採用不平衡的樣本集進行訓練學習,會存在一些問題。例如,如果正負樣本比例達到1:99,則分類器簡單地將所有樣本都判定為負樣本能達到99%的正確率,顯然這並不是我們想要的,我們想讓分類器在正樣本和負樣本上都有足夠的準確率和召回率。

為什麼很多分類模型在訓練資料不均衡時會出現問題?

本質原因是模型在訓練時優化的目標函式和人們在測試時使用的評價標準不一致。這種「不一致」可能是由於訓練資料的樣本分佈與測試時期望的樣本分佈不一致,例如,在訓練時優化的是整個訓練集(正負樣本比例可能是1∶99)的正確率,而測試時可能想要模型在正樣本和負樣本上的平均正確率盡可能大(實際上是期望正負樣本比例為1∶1);也可能是由於訓練階段不同類別的權重(重要性)與測試階段不一致。

根據上述分析,一般可以從兩個角度來處理樣本不平衡問題。

對於欠取樣,可以採用informed undersampling來解決由於隨機欠取樣帶來的資料丟失問題。常見的informed undersampling演算法有:

easy ensemble演算法。 每次從多數類smaj中上隨機抽取乙個子集e(|e|≈|smin|),然後用e+smin訓練乙個分類器;重複上述過程若干次,得到多個分類器,最終的分類結果是這多個分類器結果的融合。

balance cascade演算法。級聯結構,在每一級中從多數類smaj中隨機抽取子集e,用e+smin訓練該級的分類器;然後將smaj中能夠被當前分類器正確判別的樣本剔除掉,繼續下一級的操作,重複若干次得到級聯結構;最終的輸出結果也是各級分類器結果的融合。

其他諸如nearmiss(利用k近鄰資訊挑選具有代表性的樣本)、onesided selection(採用資料清理技術)等演算法。

樣本不平衡的處理方法

樣本不平衡其實的主要思想就是過取樣和欠取樣,但是由於在複製少量標籤的樣本或者篩選大量標籤的樣本方法不同衍生出了不同的處理手段 1.隨機過取樣 複製標籤少的樣本使得好壞比滿足建模需要 2.隨機欠取樣 抽取標籤多的樣本使得好壞比滿足建模需要 會丟失樣本資訊 3.easyensemble 標籤多的樣本進行...

keras中處理樣本不平衡

參考文獻 兩者的區別為 class weight 主要針對的上資料不均衡問題,比如 異常檢測的二項分類問題,異常資料僅佔1 正常資料佔99 此時就要設定不同類對loss的影響。sample weight 主要解決的是樣本質量不同的問題,比如前1000個樣本的可信度,那麼它的權重就要高,後1000個樣...

樣本不平衡問題

樣本不平衡是指 不同類別的樣本差別比較大,比如說正類和負類的樣本比例為50 1。處理樣本不平衡的原因 一般而已,如果類別不平衡比例超過4 1,那麼其分類器會大大地因為資料不平衡性而無法滿足分類要求的。因此在構建分類模型之前,需要對分類不均衡性問題進行處理。在前面,我們使用準確度這個指標來評價分類質量...