一文看懂機器學習 樣本不均衡問題

2021-10-07 14:27:10 字數 586 閱讀 4285

這裡簡單以二分類問題說明,如果正負樣本比例為1:100,這樣的比例是必須得考慮的問題,也得解決樣本不均勻的問題,否則訓練出來的模型會具有偏向性。例如:樣本中有980個正樣本,20個負樣本,這樣模型只需要輸出結果為正樣本,就可以達到99.8%的正確率,但是這樣的模型是沒有意義的,不具備泛化性。

常用的處理方式:

欠抽樣:將樣本較多的一類,刪除樣本,其實二類樣本數量基本保證一致,無明顯差異,但是這樣會造成樣本的資訊損失,影響模型的效能;

過抽樣:增加擴充套件樣本較少的一類,兩類樣本數量基本達到一致,但是需要重新收集資料,或生成相應資料,或使用演算法生成,如果原有樣本處於該分類邊緣,生成的樣本也會處於邊緣,會出現解釋性差的問題;

組合、整合:將樣本數量較多的一類,然後平均分為幾等份,每一等份的數量大致就為樣本數量較小的一類的數量,然後將等等分的資料樣本於數量較小的這一類資料進行組合,然後分別構建模型,最後每個模型都會獲得結果,對這些結果進行投票選擇或加權投票;

單分類:代表演算法就為one-class svm,核心思想就是**樣本是不是符合正類的特徵,符合就認為是正類,反之就認為不是正類(到底是不是負類,模型不知道),與二分類的差別就是,二分類模型不僅知道是不是正類,也知道是不是負類。

樣本不均衡問題

樣本不均衡是機器學習,深度學習中常見問題。分類任務 a 95 b 5 模型將所有樣本 為a,那麼正確率可以達到95 第一種 是把多的那個組變少 降取樣 第二種 是把少的那個組變多 過取樣 最簡單的是oversampling,由於其侷限性,又有很多根據已有的資料生成新資料的方法,比如各種變體的synt...

分類問題 樣本不均衡

資料層 通過重取樣使樣本空間均衡 演算法層 重點學習正樣本來適應現存的分類器 損失敏感方法 整合資料層和演算法層的思想,假設正樣本誤分類的損失更大。boosting演算法 不斷提高樣本權重 1 對正樣本隨機過取樣,對負樣本隨機下取樣。2 按照樣本特徵和比例來過取樣正樣本或下取樣負樣本,雖然重取樣在樣...

樣本不均衡問題 bagging方法

bagging是一種用來提高學習演算法準確度的方法,這種方法通過構造乙個 函式系列,然後以一定的方式將它們組合成乙個 函式。它使用bootstrap抽樣,其基本思想是 將乙個弱學習演算法使用多次 每次使用乙個放回的重複抽樣 並對結果進行投票,最後選取投票多的結果作為最終的結果 也可以通過得票的平均值...