經典回顧模型測試集評價指標（模型泛化能力）

靈敏度(sensitivity)

特異度(specificity)

1 - 特異度

roc曲線

auc(area under curve)

-**為真

**為假

標籤為真

tpfn

標籤為假

fptn

a cc

urac

y=tp

+tnt

p+fp

+fn+

tnaccuracy= \frac

accura

cy=t

p+fp

+fn+

tntp

+tn

該評價指標容易受到正負樣本不平衡影響，若正樣本數量很少，也可以得到高正確率的模型，但是並沒有實際作用（模型基本沒學到正樣本的特徵）。為了解決這一問題，因此提出了準確率和召回率。

p re

cisi

on=t

ptp+

fpprecision= \frac

precis

ion=

tp+f

ptp

該評價指標衡量正確**正樣本佔實際**為正樣本的比例。

r ec

all=

tptp

+fnrecall= \frac

recall

=tp+

fntp

該評價指標可以衡量正確**正樣本佔正樣本的比例。

一般來說模型的召回率越高，模型的準確率越低；模型的準確率越高，召回率越低。（越貪心犯錯的概率就越大）那麼可以看出過高的召回率或者過高的準確率都不是理想的指標，因此就提出了採用召回率和準確率的調和平均值f1值作為評價指標：

f 1=

21pr

ecis

ion+

1rec

allf1= \frac +\frac}

f1=pre

cisi

on1

+rec

all1

2四種平均數大小關係：調和平均數≤幾何平均數≤算術平均數≤平方平均數。可以看出調和平均數最接近較小值。

如果是多分類情況下，在使用f1分數時可以選擇是micro還是macro，macro指對單個類別計算f1值，再用其算數平均值作為最終結果；而micro將全部類別當作乙個整體，只計算1次f1值。因此macro受到樣本較少類別影響大，micro受樣本較多類別影響大。

靈敏度其實就是召回率

s en

siti

vity

=rec

all=

tptp

+fnsensitivity= recall = \frac

sensit

ivit

y=re

call

=tp+

fntp

s pe

cifi

city

=tnt

n+fp

specificity= \frac

specif

icit

y=tn

+fpt

n該評價指標可以衡量正確**負樣本佔負樣本的比例。

1 −s

peci

fici

ty=f

ptn+

fp1-specificity=\frac

1−spec

ific

ity=

tn+f

pfp

該評價指標可以衡量錯誤**負樣本佔負樣本的比例。

靈敏度又稱為真正率，1-特異度又稱為假正率，可以看出真正率和假正率都是基於真實樣本的條件概率，因此可以有效解決正負樣本不平衡的問題。真正率關心的是全體正樣本中有多少被**為真，假正率是關心全體負樣本中有多少被**為真。roc曲線就是在不同的threshold的條件下（**結果大於threshold記為**結果為真，反之為假），將其對應的真正率和假正率作為（y，x）座標繪製而成。如下圖所示：

為roc曲線下的面積，曲線下面積越大越好

經典回顧模型測試集評價指標（模型泛化能力）

模型評價指標

回歸模型評價指標

網路模型評價指標

經典回顧 模型測試集評價指標（模型泛化能力）

模型評價指標

回歸模型評價指標

網路模型評價指標

相關推薦

經典回顧模型測試集評價指標（模型泛化能力）