ROC曲線 PR曲線

2022-03-07 06:09:38 字數 2328 閱讀 9899

在**的結果分析中,roc和pr曲線是經常用到的兩個有力的展示圖。

1.roc曲線

roc曲線(receiver operating characteristic)是一種對於靈敏度進行描述的功能影象。roc曲線可以通過描述真陽性率(tpr)和假陽性率(fpr)來實現。由於是通過比較兩個操作特徵(tpr和fpr)作為標準,roc曲線也叫做相關操作特徵曲線。

roc分析給選擇最好的模型和在上下文或者類分布中拋棄一些較差的模型提供了工具。roc曲線首先是由二戰中的電子工程師和雷達工程師發明的,他們是用來檢測戰場中的敵軍的,也就是訊號檢測理論。roc分析現在已經在相關的領域得到了很好的發展,特別是在醫學,無線電領域中,而且最近在機器學習和資料探勘領域也得到了很好的發展。

乙個分類模型(分類器)是乙個將乙個例項對映到乙個特定類的過程。讓我們來考慮乙個兩類**問題(雙分類器),其結果要麼是真(p)要麼是假(n)。在雙分類器中有4類可能的輸出。如果輸出的**是p而真實的結果也是p,那麼這就叫做真陽性(tp);然而如果真實的結果是n,則這就叫做假陽性(fp)。相反的來說,乙個真陰性發生在**結果和實際結果都為n的時候,而假陰性是當**輸出是n而實際值是p的時候。其多種情況可由以下矩陣表示:

行是實際的類,列是分類器得到的類別。常用的術語如下:

真陽性(tp)——正確的肯定

真陰性(tn)——正確的否定

假陽性(fp)——錯誤的肯定,假報警,第一類錯誤

假陰性(fn)——錯誤的否定,未命中,第二類錯誤

真陽性率(tpr)

tpr = tp / p = tp / (tp+fn)

假陽性率(fpr)

fpr = fp / n = fp / (fp + tn)

準確度(acc)

acc = (tp + tn) / (p + n)

即:(猜對為陽性+猜對為陰性) / 總樣本數

特徵 (spc) 或者真陰性率

spc = tn / n = tn / (fp + tn) = 1 - fpr

陽性**值(ppv)

ppv = tp / (tp + fp)

陰性**值(npv)

npv = tn / (tn + fn)

假發現率 (fdr)

fdr = fp / (fp + tp)

matthews相關係數 (mcc)

mcc = (tp*tn - fp*fn) / sqrt(pnp'n')

f1評分

f1 = 2tp/(p+p')

下面介紹roc空間的概念:要生成乙個roc曲線,只需要真陽性率(tpr)和假陽性率(fpr)。roc空間將fpr定義為x軸,tpr定義為y軸。而由於tpr即為靈敏度(sensitivity),fpr即為(1-特異度)(specificity),因此roc曲線圖有時候也叫做"靈敏度 vs. 1-特異度" 曲線圖。每乙個**結果在roc空間中以乙個點代表。

最好的**方式是乙個在左上角的點,在roc空間座標軸(0,1)點,這個代表著100%靈敏(沒有假陰性)和100%特異(沒有假陽性)。而(0,1)點被稱為「完美分類器」。乙個完全隨機的**會得到一條從左下到右上對角線(也叫無識別率線)上的乙個點,這條線上的任一點對應的準確度(acc)都是50%。

離散分類器,如決策樹,產生的是離散的數值或者乙個二元標籤。應用到例項中,這樣的分類器最後只會在roc空間產生單一的點。而一些其他的分類器,如樸素貝葉斯分類器,邏輯回歸或者人工神經網路,產生的是例項屬於某一類的可能性,對於這些方法,乙個閾值就決定了roc空間中點的位置。舉例來說,如果可能值低於或者等於0.8這個閾值就將其認為是陽性的類,而其他的值被認為是陰性類。這樣就可以通過畫每乙個閾值的roc點來生成乙個生成一條曲線。medcalc是較好的roc曲線分析軟體。

2.pr曲線

pr曲線指的是precision recall曲線,中文為查準率-查全率曲線。pr曲線在分類、檢索等領域有著廣泛的使用,來表現分類/檢索的效能。

如上矩陣圖所示:

查準率(precision ratio)= tp/p

查全率(recall ratio)= tp/ p'

注:查準率又名精度,查全率又名召回率。這些表示式在roc中有不同的名稱而已。

如果是分類器的話,通過調整分類閾值,可以得到不同的p-r值,從而可以得到一條曲線(縱座標為p,橫座標為r)。通常隨著分類閾值從大到小變化(大於閾值認為p),查準率減小,查全率增加。比較兩個分類器好壞時,顯然是查得又準又全的比較好,也就是的pr曲線越往座標(1,1)的位置靠近越好。

P R曲線和ROC曲線

混淆矩陣又稱錯誤矩陣,指每個類別下,模型 結果的類別和數量在乙個矩陣中展示出來。真實標籤 為正 為負 真實為正 tpfn 真實為負 fptn 又稱為 tpr true positive rate 或者 敏感度sensitivity 通俗理解 真實為正的樣本中識別為正的佔比。t pr tpt p fn...

PR曲線與ROC曲線

pr曲線中的p代表的是precision 精準率 r代表的是recall 召回率 其代表的是精準率與召回率的關係,一般情況下,將recall設定為橫座標,precision設定為縱座標。在機器學習中,分類器往往輸出的不是類別標號,而是屬於某個類別的概率值,根據分類器的 結果從大到小對樣例進行排序,排...

ROC曲線與PR曲線對比

tpr tpp tpt p fn tpr frac frac tpr pt p t p fn tp fpr fpn fpf p tn fpr frac frac fpr nf p f p tn fp roc曲線的縱座標為tpr,真正率,其實也是召回率。分母為所有實際正樣本。roc曲線的縱座標為fpr...