不平衡類問題總結

不平衡類的問題很常見，解決該類問題的方法一般有兩種，一種是在目標函式中增加懲罰項，使得錯分某一種類（或多類）的成本增大。另一種是重取樣，使得兩類或多類的分布較為均衡。

乙個分類器的效能好壞，取決於取決於用什麼樣的度量標準。混淆矩陣是一種常用的度量方法，混淆矩陣的示意圖如下：

其中，tn表示為 true negative，fp為false positive，fn為false negative，tp為true positive.假定有兩類，分別是正類和負類。tn表示負類被分類器分成負類的個數。fp表示為負類分成正類的個數，fn表示為正類分成負類的個數，tp表示為正類被分為正類。

一般來說，分類正確性被定義為準確率accuracy=（tp+ tn）/（tp+fp+fn+tn）。很多分類器都是以最大化準確率為優化目標。這使得accuracy度量往往並不合適處理不平衡類。比如，區分患癌和不患癌兩種人群，我們通常希望能夠盡量多的識別患癌人群，即便以誤分一些不患癌的人為代價。

再來定義兩個指標，真正率和假正率。

真正率tpr=tp/（tp+fn），就是正樣本被正確區分的比例。假正率fpr=fp/(tn+fp)，就是負樣本被錯誤分類的比例。其中真正率又被稱之為召回率。我們希望乙個分類器能夠做到真正率為1，而假正率為0. 如果某個分類器把所有的樣本都分類為正樣本，那麼這個分類器的真正率為1，但是具有較高的假正率。同理，如果分類器把所有的樣本都分類為負類，那麼真正率為0，假正率也為0。因為，我們要找乙個分類器能夠在真正率和假正率之間做到最佳的折中。roc曲線就是顯示這種折中的一種圖形化方法。roc曲線以假正率為橫座標，真正率為縱座標，如下圖所示：

理想的roc曲線是（0，100）就是說真正率為1，假正率為0。而乙個隨機猜測的分類器的roc曲線是乙個對角線。所謂的隨機猜測是指，按照固定概率p分類樣本，而不管類標籤，於是正樣本被正確分類的概率為p,而負樣本被錯分的概率也為p，由於tpr和fpr相等，所以總是在對角線上。一般來說，分類器可接受的假正率越高時，真正率就越高，所以操作者可根據需求來調整分類器。

分類器的效能可以用roc曲線下方的面積來度量，越大越好。生出roc曲線是演算法可參加資料探勘導論。

精度和召回率是分類效能的另一組度量指標。

精度precision定義為tp/(tp+fp),召回率定義同真正率。精度就是分類成正類中的那些樣本中哪些是真正的。乙個好的分類器的目標是提高召回率的同時不降低精度。就是說盡量把正樣本都分對了，但是不要把假的樣本給混進來。精度和召回率往往是一對相互矛盾的指標，f度量可以把兩者折中起來，定義如下：

代價敏感度量也是一種分類度量方法。這種度量一般假定犯錯誤的代價是已知的。用代價矩陣把乙個樣本錯分到另乙個類的代價進行編碼。如下圖：

把正類錯分為負類的代價為100單位，而把正類分類正確得到一單位的獎勵。代價矩陣可在構造模型的時候考慮進去。邏輯回歸和最小二乘分類可修改目標函式。決策樹可以修改葉節點的決策規則，比如葉節點的類標號不是取決於多數投票，而是取決於樣本的權重。

不知道可否這樣理解，修改代價相當於給稀有類樣本增加了權重，這樣凡是需要對樣本進行計數的場合（例如投票，計算資訊增益）等，稀有類都加大了話語權。感覺這樣理解是正確的。

第二種大類方法是取樣方法。核心思想是改變例項的分布，幫助稀有類在訓練集中有良好的表示。目前的取樣技術有三種，過分抽樣（oversampling）和不充分（undersampling），以及還有兩種技術的混合。

不充分抽樣就是從大類中抽樣出大致相當於稀有類的樣本數，與之一起訓練模型。這種方法的問題是有些有用樣本可能沒有被抽出來，形成不太優的模型。解決這個問題的乙個方案是多次抽樣。

過分抽樣就是複製正樣本直到和大類（負類）差不多。但是有些雜訊資料也會被複製，構成過分擬合的問題，過分抽樣並沒有增加有用的資訊，僅僅是為了阻止模型把稀有類區域給剪掉。

不充分抽樣有很多的變體，比如可以使用密度規則去掉大類的雜訊資料和離群點。過分抽樣可以通過分析稀有類的特徵生成新的資料從而避免複製噪音點的問題。總之，類似的文獻有很多。有興趣可以參考下面這篇綜述，獲得更多的資訊。

nitesh v. chawla，data mining for imbalanced datasets: an overview

不平衡類問題總結

資料不平衡問題

類別不平衡問題

樣本不平衡問題

不平衡類問題總結

資料不平衡問題

類別不平衡問題

樣本不平衡問題

相關推薦