分類問題的評價指標

2022-02-13 02:05:11 字數 2896 閱讀 1061

tp、true positive   真陽性:**為正,實際也為正

fp、false positive  假陽性:**為正,實際為負

fn、false negative 假陰性:**與負、實際為正

tn、true negative 真陰性:**為負、實際也為負

以分類問題為例:

真陽性的定義是「**為正,實際也是正」,這個最好理解,就是指**正確,是哪個類就被分到哪個類。對類a而言,tp的個位數為2,對類b而言,tp的個數為2,對類c而言,tp的個數為1。

假陽性的定義是「**為正,實際為負」,就是**為某個類,但是實際不是。對類a而言,fp個數為0,我們**之後,把1和2分給了a,這兩個都是正確的,並不存在把不是a類的值分給a的情況。類b的fp是2,"3"和"8"都不是b類,但卻分給了b,所以為假陽性。類c的假陽性個數為2。

假陰性的定義是「**為負,實際為正」,對類a而言,fn為2,"3"和"4"分別**為b和c,但是實際是a,也就是**為負,實際為正。對類b而言,fn為1,對類c而言,fn為1。

具體情況看如下**:

a

b

c

總計

tp22

15fp02

24fn21

14精確率是計算我們**某類樣本中,有多少是被正確**的,是針對樣本而言的 

召回率是針對原來實際樣本而言的,看有多少樣本被正確**出來 

套用網上的乙個例子:

某池塘有1400條鯉魚,300只蝦,300只鱉。現在以捕鯉魚為目的。撒一大網,逮著了700條鯉魚,200只蝦,100只鱉。那麼,這些指標分別如下:

精確率 = 700 / (700 +200 + 100) = 70%

召回率 = 700 / 1400 =50%

可以把上述的例子看成分類**問題,對於「鯉魚來說」,tp真陽性為700,fp假陽性為300,fn假陰性為700。

precison=tp/(tp+fp)=700(700+300)=70%

recall=tp/(tp+fn)=700/(700+700)=50%

將上述例子,改變一下:把池子裡的所有的鯉魚、蝦和鱉都一網打盡,觀察這些指標的變化。

精確率 = 1400 / (1400 +300 + 300) = 70%

召回率 = 1400 / 1400 =100%

tp為1400:有1400條鯉魚被**出來;fp為600:有600個生物不是鯉魚類,卻被歸類到鯉魚;fn為0,鯉魚都被歸類到鯉魚類去了,並沒有歸到其他類。

precision=tp/(tp+fp)=1400/(1400+600)=70%

recall=tp/(tp+fn)=1400/(1400)=100%

其實就是分母不同,乙個分母是**為正的樣本數,另乙個是原來樣本中所有的正樣本數。

作為**者,我們當然是希望,precision和recall都保持乙個較高的水準,但事實上這兩者在某些情況下有矛盾的。比如極端情況下,我們只搜尋出了乙個結果,且是正確的,那麼precision就是100%,但是recall就很低;而如果我們把所有結果都返回,那麼比如recall是100%,但是precision就會很低。因此在不同的場合中需要自己判斷希望precision比較高或是recall比較高,此時我們可以引出另乙個評價指標—f1-score(f-measure)

f1分數(f1 score),是統計學中用來衡量二分類模型精確度的一種指標。它同時兼顧了分類模型的精確率和召回率。f1分數可以看作是模型精確率和召回率的一種加權平均,它的最大值是1,最小值是0。

數學定義:f1分數(f1-score),又稱為平衡f分數(balancedscore),它被定義為精確率和召回率的調和平均數 

更一般的,我們定義fβ分數為: 

除了f1分數之外,f0.5分數和f2分數,在統計學中也得到了大量應用,其中,f2分數中,召回率的權重高於精確率,而f0.5分數中,精確率的權重高於召回率

最後看micro-f1和macro-f1。在第乙個多標籤分類任務中,可以對每個「類」,計算f1,顯然我們需要把所有類的f1合併起來考慮。

這裡有兩種合併方式:

例如依照最上面的**來計算:precison=5/(5+4)=0.556,recall=5/(5+4)=0.556,然後帶入f1的公式求出f1,這種方式被稱為micro-f1微平均。

例如上式a類:p=2/(2+0)=1.0,r=2/(2+2)=0.5,f1=(2*1*0.5)/1+0.5=0.667。同理求出b類c類的f1,最後求平均值,這種正規化叫做macro-f1巨集平均。

**自:

評價指標 分類演算法中常用的評價指標

對於分類演算法,常用的評價指標有 1 precision 2 recall 3 f score 4 accuracy 5 roc 6 auc ps 不建議翻譯成中文,尤其是precision和accuracy,容易引起歧義。1.混淆矩陣 混淆矩陣是監督學習中的一種視覺化工具,主要用於比較分類結果和例...

分類器評價指標

by the way,classic post like 分類指標準確率 precision 和正確率 accuracy 的區別 精度和召回率是廣泛用於資訊檢索和統計學分類領域的兩個度量值,用來評價結果的質量。其中精度是檢索出相關文件數與檢索出的文件總數的比率,衡量的是檢索系統的查準率 召回率是指檢...

分類演算法評價指標

第一種分析準則 第二種分析準則 0.0 0.20極低的一致性 slight 0.21 0.40一般的一致性 fair 0.41 0.60 中等的一致性 moderate 0.61 0.80 高度的一致性 substantial 0.81 1幾乎完全一致 almost perfect 例如對於眼底影象...