準確率精確率召回率 P R曲線

正確肯定（真正例，true positive,tp）：**為真，實際為真；

正確否定（真反例，true negative,tn）：**為假，實際為假；

錯誤肯定（假正例，false positive,fp）：**為真，實際為假；

錯誤否定（假反例，false negative,fn）：**為假，實際為真。

樣例總數為:tp+fp+tn+fn。

準確率:

所有的**正確（正類負類）的佔總樣本比重。

a cc

urac

y=tp

+tnt

p+tn

+fp+

accuracy=\frac

accura

cy=t

p+tn

+fp+

fntp

+tn

準確率指標存在明顯的缺陷。當不同類別的樣本比例非常不均衡時，佔比大的類別往往成為影響準確率的最主要因素。比如，當負樣本佔99%時，分類器把所有樣本都**為負樣本也可以獲得99%的準確率。

精確率:

即正確**為真的佔全部**為真的比例，即"找得對"。

p re

cisi

on=t

ptp+

precision=\frac

precis

ion=

tp+f

ptp

召回率:

正確**為真的佔全部實際為真的比例，即"找得全"。

r ec

all=

tptp

nrecall=\frac

recall

=tp+

fntp

f1-score:

精準率和召回率的調和平均值。

f l=

2×

precision

×recall

precision

+recall=2

tp2t

p+fp

n\mathrm=\frac \times \text }+\text }=\frac

fl=precision

+recall2×

precision

×recall=

2tp+

fp+f

n2tp

更一般地，我們可以定義fβ（precision和recall權重可調的f1 score）:

f β=

(1+β

⋅precision

⋅recall(β

2⋅

precision )+

recall

f_=\left(1+\beta^\right) \cdot \frac \cdot \text } \cdot \text \right)+\text }

fβ=(1

+β2)

⋅(β2

⋅precision )+

recall

precision

⋅recall

常用的如f2和f0.5。

tpr:

表示當前分到正樣本中真實的正樣本所佔所有正樣本的比例。

t pr

=tpt

p+fn

tpr=\frac

tpr=tp

+fnt

pfpr:

表示當前被錯誤分到正樣本類別中真實的負樣本所佔所有負樣本總數的比例.

f pr

=fpf

p+tn

fpr=\frac

fpr=fp

+tnf

proc曲線:

對於roc來說，橫座標就是fpr，而縱座標就是tpr，因此可以想見，當 tpr越大，而fpr越小時，說明分類結果是較好的。

roc曲線有個很好的特性，當測試集中的正負樣本的分布變換的時候，roc曲線能夠保持不變。roc曲線可以反映二分類器的總體分類效能，但是無法直接從圖中識別出分類最好的閾值，事實上最好的閾值也是視具體的場景所定。roc曲線對應的auc越大，對正樣本分類效能越好;roc曲線一定在y=x之上，否則就是乙個不好的分類器。

auc:

auc 即roc曲線下的面積，介於0和1之間。計算方式即為roc曲線的微積分值，其物理意義可以表示為：隨機給定一正一負兩個樣本，將正樣本排在負樣本之前的概率，因此auc越大，說明正樣本越有可能被排在負樣本之前，即正樣本分類結果越好。

p-r曲線就是以召回率（recall）為橫座標，精確率（precision）為縱座標的曲線圖。

若乙個學習器p-r曲線被另乙個學習器的p-r曲線完全"包住",則可斷言後者的效能優於前者。如果兩個學習器的p-r曲線發生了交叉，如圖中的a與b，則難以一般性地斷言兩者孰優孰劣，只能在具體的查準率或查全率條件下進行比較。然而，在很多情形下，人們往往仍希望把學習器a與b比出個高低。這時乙個比較合理的判據是比較p-r曲線截面積的大小（面積大者效能更優），但更常用的是平衡點或者是f1值。平衡點（bep）是查準率=查全率時的取值，如果這個值較大，則說明學習器的效能較好。或者使用f1值為度量，f1值越大，我們可以認為該學習器的效能較好。

p-r曲線有乙個缺點就是會受到正負樣本比例的影響。比如當負樣本增加10倍後，在racall不變的情況下，必然召回了更多的負樣本，所以精確度就會大幅下降，所以pr曲線對正負樣本分佈比較敏感。

對於不同正負樣本比例的測試集，p-r曲線的變化就會非常大，而roc曲線則能夠更加穩定地反映模型本身的好壞。所以，roc曲線的適用場景更多，被廣泛用於排序、推薦、廣告等領域。

舉例:

準確率精確率召回率 P R曲線

準確率精確率召回率

精確率召回率準確率

準確率精確率召回率筆記

準確率 精確率 召回率 P R曲線

準確率 精確率 召回率

精確率 召回率 準確率

準確率 精確率 召回率筆記

相關推薦

準確率精確率召回率 P R曲線

準確率精確率召回率

精確率召回率準確率

準確率精確率召回率筆記