樣本不均衡問題

樣本不均衡是機器學習，深度學習中常見問題。

分類任務 a 95 b 5

模型將所有樣本**為a，那麼正確率可以達到95%。

第一種是把多的那個組變少降取樣

第二種是把少的那個組變多過取樣最簡單的是oversampling，由於其侷限性，又有很多根據已有的資料生成新資料的方法，比如各種變體的synthetic sampling。把少數類的資料複製幾份，並適當加雜訊。這可以增強模型的魯棒性。

第三種加權，對於少的樣本，加更高的權重

第四種通過組合/整合方法解決樣本不均衡組合/整合方法指的是在每次生成訓練集時使用所有分類中的小樣本量，同時從分類中的大樣本量中隨機抽取資料來與小樣本量合併構成訓練集，這樣反覆多次會得到很多訓練集和訓練模型。最後在應用時，使用組合方法（例如投票、加權投票等）產生分類**結果。例如，在資料集中的正、負例的樣本分別為100和10000條，比例為1:100。此時可以將負例樣本（類別中的大量樣本集）隨機分為100份（當然也可以分更多），每份100條資料；然後每次形成訓練集時使用所有的正樣本（100條）和隨機抽取的負樣本（100條）形成新的資料集。如此反覆可以得到100個訓練集和對應的訓練模型。這種解決問題的思路類似於隨機森林。在隨機森林中，雖然每個小決策樹的分類能力很弱，但是通過大量的「小樹」組合形成的「森林」具有良好的模型**能力。如果計算資源充足，並且對於模型的時效性要求不高的話，這種方法比較合適。

建模方法。

a. 可以採用對非平衡資料集不敏感的演算法。

b. 用bagging/ boosting/ ensemble等模型平均的方法。

c. cost-sensitive learning。

評價模型的方法。用confusion matrix, auc/roc等方法來評估模型。

樣本不均衡問題

樣本不均衡

分類問題樣本不均衡

樣本不均衡問題 bagging方法

樣本不均衡問題

樣本不均衡

分類問題 樣本不均衡

樣本不均衡問題 bagging方法

相關推薦

分類問題樣本不均衡