ROC閾值曲線

2021-06-22 10:05:05 字數 1014 閱讀 1438

本文主要介紹乙個評價分類器穩定性的指標:roc閾值曲線。

對於乙個已知的二分類結果(假設一共正,負兩個類別),可以把結果的資料分成以下4類:a原來的正類被分為正類,b原來的正類被分為負類,c原來的負類被分為正類,d原來的負類被分為負類。

我們把a除以分類後的正類的數量稱作真陽性率(trp),把c除以分類以後的正類的數量稱為假陽性率(frp)。通俗來講,就是分類以後,正類中被正確分類的比率稱為trp,正類中被錯誤分類的比率稱為frp。我們把trp作為y軸,把frp作為x軸,可以畫出影象:

這裡,也許你會問這個影象是怎麼畫出來的呢?對於乙個已知的分類結果我們只能得到乙個點,也就是乙個frp和乙個trp啊?別急,我們再舉乙個例子:

在進行分類的過程中,有的分類器並不是直接給出分類的結果,而是給出類似概率這樣的參考因子,然後我們再根據這些參考因子得到分類結果。拿樸素貝葉斯分類器作例子,當給定的訓練集資料經過樸素貝葉斯分類器以後,我們能得到類似p(x1=a1|y=c1)(記為a)和

p(x1=a1|y=c2)(記為b)這樣的概率值,拿二分類為例,若a=0.6,b=0.4,因為a大於0.5,所以我們可以認為a屬於c1類。這裡,這個0.5就稱為閾值。因此,我們每改變一次閾值,就能得到乙個新的分類結果,也就能得到一組新的frp和trp。通過這種方法,影象就能畫出來了。

知道了影象是如何繪製的,我們還要看一下從這個影象裡能得到什麼資訊。我們可以從圖中觀察到,y值越大,frp就越大,而x值越大,trp就越大。如果乙個分類器的y大,x小,則說明效果好,因此,影象如果是凸的則說明效果好,影象如果是凹的則反之。一般,我們用上圖中淡藍色部分的面積(roc值)來表示效果的好壞,面積越大則越好。

下面是weka中乙個多項式模型的樸素貝葉斯分類器的roc圖:

可以看到這個圖的roc值很大,快接近於1了,說明分類效果很好。

ROC曲線的最佳閾值如何選取

為了獲取roc曲線的最佳閾值,需要使用乙個指標 約登指數,也稱正確指數。借助於matlab的roc函式可以得出計算。1 specificity fpr sensitivity tpr tpr,fpr,thresholds roc tar val rightindex tpr 1 fpr 1 inde...

ROC曲線及其matlab實現ROC曲線的繪畫

roc曲線 receiver operating characteristic curve 是利用classification模型真正率 true positive rate 和假正率 false positive rate 作為座標軸,圖形化表示分類方法的準確率的高低。roc圖的一些概念定義 真正...

ROC曲線 PR曲線

在 的結果分析中,roc和pr曲線是經常用到的兩個有力的展示圖。1.roc曲線 roc曲線 receiver operating characteristic 是一種對於靈敏度進行描述的功能影象。roc曲線可以通過描述真陽性率 tpr 和假陽性率 fpr 來實現。由於是通過比較兩個操作特徵 tpr和...