關於類別不平衡(理解與解決方法)

2021-10-24 22:44:33 字數 1172 閱讀 4107

類別不平衡 (class-imbalance):指分類任務中不同類別的訓練樣例數目差別很大的情況。

解決方式

再縮放(改變分類決策規則)

舉個例子,在二分類中如果在類別平衡的情況下,假設**為1的概率為p,則**為0的概率為1-p,則:p1−

p>

1>1

1−pp

​>

1時,類別為1,否則類別為0。若類別不平衡呢,假設資料集中,類別為1的數量為m

1m^1

m1,類別為0的數目為m

0m^0

m0,m

1m^1

m1!=m

0m^0

m0,觀測概率為m1m

0m^1 \over m^0

m0m1

​,只要分類器的**機率高於觀測機率就應判定為類別1:

p 1−

p1−

pp​>m1m

0m^1 \over m^0

m0m1

​進行乙個簡單的調整,就變為求:

p ′1

−p

′\over 1-p'}

1−p′p′

​=p1−p

1−pp​xm1m

0m^1 \over m^0

m0m1

​欠取樣

對較多類的資料樣本進行取樣來減少該類資料樣本的個數,使其與其他類數目接近,然後再進行學習。

缺點:欠取樣可能會丟失一些重要資訊。

代表easyensemble:利用整合學習機制,將反倒劃分為若干個

集合供不同學習器使用,這樣對每個學習器來看都進行了欠取樣,但在全域性來看卻不會丟失重要資訊。

過取樣對較少類的資料樣本進行取樣來增加小類的資料樣本個數。

代表性演算法smote:通過對訓練集裡的正例進行插值來產生額外的正例。思路:對每個少數類樣本a,從它的最近鄰中隨機選乙個樣本b,然後在a、b之間的連線上隨機選一點作為新合成的少數類樣本。

閾值移動

直接基於原始訓練集進行學習,但在用訓練好的分類器進行**時,將p′1

−p

′\over 1-p'}

1−p′p′

​=p1−p

1−pp​xm1m

0m^1 \over m^0

m0m1

​嵌入到其決策過程中。

對類別不平衡問題的解決方法

類別不平衡 分類任務中不同類別的訓練樣例數目差別很大,會對學習過程造成困擾。假定正類樣例少,反類樣例多。一 再縮放 在logstic回歸分類模型中,輸出的y值實際上與乙個閾值進行比較,當y 0.5時,判斷為正例,否則為反例。由於y 0,所以y實際上表示的是 結果為正例的可能性。1.當正反例個數相同時...

類別不平衡問題的解決方法 過取樣 欠取樣和再平衡

類別不平衡問題 指的是在分類任務中不同類別的訓練樣本數目差異很大的問題。我們簡單舉乙個例子 如果我們要判斷一名大學生究竟是研究生還是本科生,我們已知在大學中本科生的數量會遠遠高於研究生的數量,我們假設本科生與研究生比例為9 1。此時,我們只需要將所有學生都判斷成是本科生,這樣我們的模型就有90 的正...

機器學習的樣本類別不均衡問題與解決方法

類別不平衡 class imbalance 就是指分類任務中,不同類別的訓練資料數目差別很大的情況。假設訓練樣例中正例數目m 負例數目m 那麼觀測機率為 m m 設乙個樣本 為正例的概率為p,則 為負例的概率為1 p,則分類器的 機率為p 1 p。通常情況下,我們假設訓練集是真實樣本總體的無偏取樣,...