機器學習中的類不平衡問題

如果不同類別的訓練樣例數目稍有差別，通常影響不大，但若差別很大，則會對學習過程造成困擾。例如有998個反例，但正例只有2個，那麼學習方法只需返回乙個永遠將新樣本**為反例的學習器，就能達到99.8%的精度；然而這樣的學習器往往沒有價值，因為它不能**出任何正例。

類別不平衡(class-imbalance)就是值分類任務中不同類別的訓練樣例數目差別很大的情況。不是一般性，本節假定正類樣例較少，反類樣例較多。在現實的分類任務中，我們經常會遇到類別不平衡，例如在通過拆分法解多分類問題時，即使原始問題中不同類別的訓練樣例數目相當，因此有必要了解類別不平衡性處理的基本方法。

從線性分類器的角度討論容易理解，在我們用

若y/(1-y) > 1則，**為正例 (1)

然而，當訓練集中正、反例的數目不同時，令

若但是，我們的分類器是基於式(1)進行比較決策，因此，需對其**值進行調整，使其基於式(1)決策時，實際上是在執行式(2)，要做到這一點很容易，只需令

這就是類別不平衡學習的乙個基本決策------"再縮放"(rescaling)。

再縮放的思想雖簡單，但實際操作卻不平凡，主要是因為「訓練集是真實樣本總體的無偏取樣」這個假設往往並不成立，也就是說，我們未必能有效地基於訓練集觀測機率來推斷出真實機率。現有技術大體有三類：

欠取樣法的時間開銷通常遠小於過取樣法，因為前者丟棄了很多反例，使得分類器訓練集遠小於初始訓練集，而過取樣法增加了很多正例，其訓練集大於初始訓練集。需注意的是，過取樣法不能簡單地對初始樣本進行重複取樣，否則會招致嚴重的過擬合；過取樣法的代表性演算法smothe是通過對訓練集裡的正例進行插值來產生額外的正例。另一方面，欠取樣法若隨機丟棄反例，可能丟失一些重要資訊；欠取樣法的代表性演算法easyensemble則是利用整合學習機制，將反例劃分為若干個集合供不同學習器使用，這樣對每個學習器來看都進行了欠取樣，但在全域性來看卻不會丟失重要資訊。值得一提的是，「再縮放」也是「代價敏感學習」(cost-sensitive learning)的基礎，在代價敏感學習中將式(3)中的

機器學習中的類不平衡問題

機器學習中的不平衡問題

不平衡類問題總結

機器學習不平衡資料集

機器學習中的類不平衡問題

機器學習中的不平衡問題

不平衡類問題總結

機器學習 不平衡資料集

相關推薦

機器學習不平衡資料集