關於類別不平衡（理解與解決方法）

類別不平衡 (class-imbalance)：指分類任務中不同類別的訓練樣例數目差別很大的情況。

解決方式

再縮放（改變分類決策規則）

舉個例子，在二分類中如果在類別平衡的情況下，假設**為1的概率為p，則**為0的概率為1-p，則：p1−

1>1

1−pp

1時，類別為1，否則類別為0。若類別不平衡呢，假設資料集中，類別為1的數量為m

1m^1

m1，類別為0的數目為m

0m^0

m0，m

1m^1

m1！=m

0m^0

m0，觀測概率為m1m

0m^1 \over m^0

m0m1

，只要分類器的**機率高於觀測機率就應判定為類別1：

p 1−

p1−

pp>m1m

0m^1 \over m^0

m0m1

進行乙個簡單的調整，就變為求：

p ′1

−p

′\over 1-p'}

1−p′p′

=p1−p

1−ppxm1m

0m^1 \over m^0

m0m1

欠取樣

對較多類的資料樣本進行取樣來減少該類資料樣本的個數，使其與其他類數目接近，然後再進行學習。

缺點：欠取樣可能會丟失一些重要資訊。

代表easyensemble：利用整合學習機制，將反倒劃分為若干個

集合供不同學習器使用，這樣對每個學習器來看都進行了欠取樣，但在全域性來看卻不會丟失重要資訊。

過取樣對較少類的資料樣本進行取樣來增加小類的資料樣本個數。

代表性演算法smote：通過對訓練集裡的正例進行插值來產生額外的正例。思路：對每個少數類樣本a，從它的最近鄰中隨機選乙個樣本b，然後在a、b之間的連線上隨機選一點作為新合成的少數類樣本。

閾值移動

直接基於原始訓練集進行學習，但在用訓練好的分類器進行**時，將p′1

−p

′\over 1-p'}

1−p′p′

=p1−p

1−ppxm1m

0m^1 \over m^0

m0m1

嵌入到其決策過程中。

對類別不平衡問題的解決方法

類別不平衡分類任務中不同類別的訓練樣例數目差別很大，會對學習過程造成困擾。假定正類樣例少，反類樣例多。一再縮放在logstic回歸分類模型中，輸出的y值實際上與乙個閾值進行比較，當y 0.5時，判斷為正例，否則為反例。由於y 0,所以y實際上表示的是結果為正例的可能性。1.當正反例個數相同時...

類別不平衡問題的解決方法過取樣欠取樣和再平衡

類別不平衡問題指的是在分類任務中不同類別的訓練樣本數目差異很大的問題。我們簡單舉乙個例子如果我們要判斷一名大學生究竟是研究生還是本科生，我們已知在大學中本科生的數量會遠遠高於研究生的數量，我們假設本科生與研究生比例為9 1。此時，我們只需要將所有學生都判斷成是本科生，這樣我們的模型就有90 的正...

機器學習的樣本類別不均衡問題與解決方法

類別不平衡 class imbalance 就是指分類任務中，不同類別的訓練資料數目差別很大的情況。假設訓練樣例中正例數目m 負例數目m 那麼觀測機率為 m m 設乙個樣本為正例的概率為p，則為負例的概率為1 p，則分類器的機率為p 1 p。通常情況下，我們假設訓練集是真實樣本總體的無偏取樣，...

關於類別不平衡（理解與解決方法）

對類別不平衡問題的解決方法

類別不平衡問題的解決方法 過取樣 欠取樣和再平衡

機器學習的樣本類別不均衡問題與解決方法

相關推薦

類別不平衡問題的解決方法過取樣欠取樣和再平衡