經典回顧 模型測試集評價指標(模型泛化能力)

2021-10-09 17:30:19 字數 2182 閱讀 8596

靈敏度(sensitivity)

特異度(specificity)

1 - 特異度

roc曲線

auc(area under curve)

-**為真

**為假

標籤為真

tpfn

標籤為假

fptn

a cc

urac

y=tp

+tnt

p+fp

+fn+

tnaccuracy= \frac

accura

cy=t

p+fp

+fn+

tntp

+tn​

該評價指標容易受到正負樣本不平衡影響,若正樣本數量很少,也可以得到高正確率的模型,但是並沒有實際作用(模型基本沒學到正樣本的特徵)。為了解決這一問題,因此提出了準確率和召回率。

p re

cisi

on=t

ptp+

fpprecision= \frac

precis

ion=

tp+f

ptp​

該評價指標衡量正確**正樣本佔實際**為正樣本的比例。

r ec

all=

tptp

+fnrecall= \frac

recall

=tp+

fntp

​該評價指標可以衡量正確**正樣本佔正樣本的比例。

一般來說模型的召回率越高,模型的準確率越低;模型的準確率越高,召回率越低。(越貪心犯錯的概率就越大)那麼可以看出過高的召回率或者過高的準確率都不是理想的指標,因此就提出了採用召回率和準確率的調和平均值f1值作為評價指標:

f 1=

21pr

ecis

ion+

1rec

allf1= \frac +\frac}

f1=pre

cisi

on1​

+rec

all1

​2​四種平均數大小關係:調和平均數≤幾何平均數≤算術平均數≤平方平均數。可以看出調和平均數最接近較小值。

如果是多分類情況下,在使用f1分數時可以選擇是micro還是macro,macro指對單個類別計算f1值,再用其算數平均值作為最終結果;而micro將全部類別當作乙個整體,只計算1次f1值。因此macro受到樣本較少類別影響大,micro受樣本較多類別影響大。

靈敏度其實就是召回率

s en

siti

vity

=rec

all=

tptp

+fnsensitivity= recall = \frac

sensit

ivit

y=re

call

=tp+

fntp

​ s pe

cifi

city

=tnt

n+fp

specificity= \frac

specif

icit

y=tn

+fpt

n​該評價指標可以衡量正確**負樣本佔負樣本的比例。

1 −s

peci

fici

ty=f

ptn+

fp1-specificity=\frac

1−spec

ific

ity=

tn+f

pfp​

該評價指標可以衡量錯誤**負樣本佔負樣本的比例。

靈敏度又稱為真正率,1-特異度又稱為假正率,可以看出真正率和假正率都是基於真實樣本的條件概率,因此可以有效解決正負樣本不平衡的問題。真正率關心的是全體正樣本中有多少被**為真,假正率是關心全體負樣本中有多少被**為真。roc曲線就是在不同的threshold的條件下(**結果大於threshold記為**結果為真,反之為假),將其對應的真正率和假正率作為(y,x)座標繪製而成。如下圖所示:

為roc曲線下的面積,曲線下面積越大越好

模型評價指標

機器學習模型中常見的是分類問題,分類模型的評價指標主要有 1 精確率 2 召回率 3 f值 4 auc值 roc曲線 分類問題可劃分成二分類和多分類問題,其中二分類最為常見,多分類問題大都也是轉化成二分類問題求解,因此本文主要基於二分類模型進行模型評價指標的分析。1 給定標記好的模型訓練資料,經分類...

回歸模型評價指標

回歸模型應用場景 趨勢分析 投資風險分析等 1 mae mean absolute error 平均絕對差值 2 mse mean square error 均方誤差,是回歸任務最常用的效能度量,最小二乘估計也是使用均方誤差 3 log對數損失函式 邏輯回歸 交叉熵損失,其實是由最大似然估計推導而來...

網路模型評價指標

最近看 又發現乙個容易忘記的點,網路的評價指標,就見到乙個乙個的縮寫 ac ja di sp se,dc人是懵的,在這裡寫上乙個筆記,方便自己檢視!accuracy 又稱準確率,中正確的部分佔總 的比重 a c tp tn tp tn f p fn ac tp tn tp tn fp fn ac t...