樣本不均衡問題

2021-10-07 17:54:06 字數 868 閱讀 1585

樣本不均衡是機器學習,深度學習中常見問題。

分類任務 a 95 b 5

模型將所有樣本**為a,那麼正確率可以達到95%。

第一種 是把多的那個組變少 降取樣

第二種 是把少的那個組變多 過取樣 最簡單的是oversampling,由於其侷限性,又有很多根據已有的資料生成新資料的方法,比如各種變體的synthetic sampling。把少數類的資料複製幾份,並適當加雜訊。這可以增強模型的魯棒性。

第三種 加權,對於少的樣本,加更高的權重

第四種 通過組合/整合方法解決樣本不均衡 組合/整合方法指的是在每次生成訓練集時使用所有分類中的小樣本量,同時從分類中的大樣本量中隨機抽取資料來與小樣本量合併構成訓練集,這樣反覆多次會得到很多訓練集和訓練模型。最後在應用時,使用組合方法(例如投票、加權投票等)產生分類**結果。例如,在資料集中的正、負例的樣本分別為100和10000條,比例為1:100。此時可以將負例樣本(類別中的大量樣本集)隨機分為100份(當然也可以分更多),每份100條資料;然後每次形成訓練集時使用所有的正樣本(100條)和隨機抽取的負樣本(100條)形成新的資料集。如此反覆可以得到100個訓練集和對應的訓練模型。這種解決問題的思路類似於隨機森林。在隨機森林中,雖然每個小決策樹的分類能力很弱,但是通過大量的「小樹」組合形成的「森林」具有良好的模型**能力。如果計算資源充足,並且對於模型的時效性要求不高的話,這種方法比較合適。

建模方法。

a. 可以採用對非平衡資料集不敏感的演算法。

b. 用bagging/ boosting/ ensemble等模型平均的方法。

c. cost-sensitive learning。

評價模型的方法。用confusion matrix, auc/roc等方法來評估模型。

樣本不均衡

在分類中,訓練資料不均衡是指不同類別下的樣本數目相差巨大。舉兩個例子 在乙個二分類問題中,訓練集中class 1的樣本數比上class 2的樣本數的比值為60 1。使用邏輯回歸進行分類,最後結果是其忽略了class 2,將所有的訓練樣本都分類為class 1。在三分類問題中,三個類別分別為a,b,c...

分類問題 樣本不均衡

資料層 通過重取樣使樣本空間均衡 演算法層 重點學習正樣本來適應現存的分類器 損失敏感方法 整合資料層和演算法層的思想,假設正樣本誤分類的損失更大。boosting演算法 不斷提高樣本權重 1 對正樣本隨機過取樣,對負樣本隨機下取樣。2 按照樣本特徵和比例來過取樣正樣本或下取樣負樣本,雖然重取樣在樣...

樣本不均衡問題 bagging方法

bagging是一種用來提高學習演算法準確度的方法,這種方法通過構造乙個 函式系列,然後以一定的方式將它們組合成乙個 函式。它使用bootstrap抽樣,其基本思想是 將乙個弱學習演算法使用多次 每次使用乙個放回的重複抽樣 並對結果進行投票,最後選取投票多的結果作為最終的結果 也可以通過得票的平均值...