二分類混淆矩陣結構從混淆矩陣到樣本不平衡分類指標

confusing matrix 也譯作混淆矩陣，是一項古老經典的統計技術，見下圖。

classification代表分類器判斷的結果，positive（是、陽性、真等），negative（非、陰性、假等）。

condition代表事實情況，true（事實為真）、false（事實是假）。

把classification和condition進行2*2組合可以得到4種分類結果。

1、tp（true positive）：分類器認為是真，實際也是真；

2、tn（true negative）：分類器認為是假，實際也是假；

3、fp（false positive）：分類器認為是真，實際是假；

4、fn（false negative）：分類器認為是假，實際是真；

總結一下，第乙個字母t或f，代表這個分類結果是否正確，第二個字母p或n，代表分類器認為是正例還是負例。這些指標就是condition+prediction的組合。

上面的4組資料都是分類結果，也就是自然數，但無法反映分類器的效能。這個時候，我們就要引入百分比的統計量來刻畫。

precision 準確率=

recall 召回率 =

f1 score =

現實中，正負樣本經常是非常不均衡的。而準確率和召回率對樣本分佈非常敏感。比如，正樣本很多，假設分類器什麼都不做，把所有樣本都認為是正樣本，那麼，f1 score肯定很高，但這個分類器沒有任何意義。那麼，什麼指標能在這種情況下反映分類器的能力呢？現在有請auc。

roc是分類器在0-1下分類**概率作為判斷條件時，tpr（縱軸）和fpr（橫軸）的表現連成的曲線。先說結論，如上圖所示，roc曲線下面積越大，分類器越好。

fpr，假正例率=

roc曲線不受樣本分佈的影響。

上圖中間的直線就代表了最差的情況，分類器對樣本的判斷正負55開，近似隨機。

如果分類器輸出的閾值很小的情況下（靠左原點），但此時tpr就很快上公升，但fpr上公升很慢，說明分類器判斷的信心很強。roc包圍曲線的面積可以解讀為：從所有正例中隨機選取乙個樣本a，在從負例中選取乙個樣本b，分類器把a判為正例的概率比將b判為正例的概率大的可能性。所以，roc_auc也反映了分類器對樣本排序的乙個能力。

由於roc曲線對分布不敏感，所以對分類準確率敏感的場景下，roc_auc就不是很適用。

與roc不同，precision&recall都是關於正例的。所以，不平衡時如果主要關心正例，pr曲線更合適。

縱軸是precision，橫軸是tpr。與roc不同的是，pr_auc明顯小於roc_auc，說明準確率會受fp的影響。

roc曲線由於兼顧正例與負例，所以適用於評估分類器的整體效能，相比而言pr曲線完全聚焦於正例。

如果有多份資料且存在不同的類別分布，比如信用卡欺詐問題中每個月正例和負例的比例可能都不相同，這時候如果只想單純地比較分類器的效能且剔除類別分布改變的影響，則roc曲線比較適合，因為類別分布改變可能使得pr曲線發生變化時好時壞，這種時候難以進行模型比較；反之，如果想測試不同類別分布下對分類器的效能的影響，則pr曲線比較適合。

如果想要評估在相同的類別分布下正例的**情況，則宜選pr曲線。

類別不平衡問題中，roc曲線通常會給出乙個樂觀的效果估計，所以大部分時候還是pr曲線更好。

最後可以根據具體的應用，在曲線上找到最優的點，得到相對應的precision，recall，f1 score等指標，去調整模型的閾值，從而得到乙個符合具體應用的模型。

下面的圖表生動的展示了樣本不平衡對分類器指標的影響。

a,b是樣本平衡下的roc、pr曲線。c，d是10倍樣本差的情況下的對應曲線。很明顯，roc是不受分布影響的，但d圖的pr_auc就下降了很多。

而且pr曲線是非凸的，也就是說，可以通過圖形去選取某些取值點（調參），trade off準確率和召回率。

二分類混淆矩陣結構從混淆矩陣到樣本不平衡分類指標

二分類混淆矩陣結構從混淆矩陣到樣本不平衡分類指標

二分類問題混淆矩陣和相關引數

二分類問題中混淆矩陣 PR以及AP評估指標

二分類混淆矩陣結構 從混淆矩陣到樣本不平衡分類指標

二分類混淆矩陣結構 從混淆矩陣到樣本不平衡分類指標

二分類問題混淆矩陣和相關引數

二分類問題中混淆矩陣 PR以及AP評估指標

相關推薦

二分類混淆矩陣結構從混淆矩陣到樣本不平衡分類指標

二分類混淆矩陣結構從混淆矩陣到樣本不平衡分類指標