機器學習模型評價指標 混淆矩陣

2021-07-24 08:47:09 字數 2758 閱讀 8937

在機器學習領域中,混淆矩陣(confusion matrix)是一種評價分類模型好壞的形象化展示工具。其中,矩陣的每一列表示的是模型**的樣本情況;矩陣的每一行表示的樣本的真實情況。

1. 混淆矩陣的舉例

例如用乙個分類模型來判別乙個水果是蘋果還是梨,混淆矩陣將會模型的**結果總結成如下表所示的**。

模型**結果

蘋果

真實結果蘋果10

3

通過上述**可以看出,樣本的數量一共是10+

2+3+

15=30 個樣本。其中蘋果有10+

2=12 個,梨有3+

15=18 個。該模型**的蘋果的數量是10+

3=13 個,有

10 個是**正確的,

3 個是**錯誤的。該模型**的梨的數量是2+

15=17個,其中有

15 個是**正確的,

2 個是**錯誤的。

2. 混淆矩陣

對於乙個二分類的模型,其模型的混淆矩陣是乙個2×

2的矩陣。如下圖所示:

predicted condition

positive

true conditionpositivetrue positive

negativefalse positive

混淆矩陣比模型的精度的評價指標更能夠詳細地反映出模型的」好壞」。模型的精度指標,在正負樣本數量不均衡的情況下,會出現容易誤導的結果。

其中,列是模型**的結果,行是樣本真實的結果。四個矩陣元素的含義分別是:

2.1 true positive

真正類(tp),樣本的真實類別是正類,並且模型**的結果也是正類。

2.2 false negative

假負類(fn),樣本的真實類別是正類,但是模型將其**成為負類。

2.3 false positive

假正類(fp),樣本的真實類別是負類,但是模型將其**成為正類。

2.4 true negative

真負類(tn),樣本的真實類別是負類,並且模型將其**成為負類。

3. 混淆矩陣延伸出的各個評價指標

從混淆矩陣中,可以衍生出各種評價的指標。如下是擷取的wiki上的乙個截圖(

各個指標的定義以及含義如下所示:

3.1 accuracy

模型的精度,即模型**正確的個數 / 樣本的總個數 ac

cura

cy=t

p+tn

tp+f

n+fp

+tn

一般情況下,模型的精度越高,說明模型的效果越好。

3.2 positive predictive value (ppv, precision)

查準率,陽性**值,在模型**為正類的樣本中,真正為正類的樣本所佔的比例。 pr

ecis

ion=

tptp

+fp

一般情況下,查準率越高,說明模型的效果越好。

3.3 false discovery rate (fdr)

錯誤發現率,表示在模型**為正類的樣本中,真正的負類的樣本所佔的比例。 fd

r=fp

tp+f

p 一般情況下,錯誤發現率越小,說明模型的效果越好。

3.4 false omission rate (for)

錯誤遺漏率,表示在模型**為負類的樣本中,真正的正類所佔的比例。即評價模型」遺漏」掉的正類的多少。 fo

r=fn

fn+t

n 一般情況下,錯誤遺漏率越小,模型的效果越好。

3.5 negative predictive value (npv)

陰性**值,在模型**為負類的樣本中,真正為負類的樣本所佔的比例。 np

v=tn

fn+t

n 一般情況下,npv越高,說明的模型的效果越好。

3.6 true positive rate (tpr, recall)

召回率,真正類率,表示的是,模型**為正類的樣本的數量,佔總的正類樣本數量的比值。 re

call

=tpt

p+fn

一般情況下,recall越高,說明有更多的正類樣本被模型**正確,模型的效果越好。

3.7 false positive rate (fpr), fall-out

假正率,表示的是,模型**為正類的樣本中,佔模型負類樣本數量的比值。 fa

ll−o

ut=f

pfp+

tn一般情況下,假正類率越低,說明模型的效果越好。

3.8 false negative rate (fnr), miss rate

假負類率,缺失率,模型**為負類的樣本中,是正類的數量,佔真實正類樣本的比值。 fn

r=fn

fn+t

n 缺失值越小,說明模型的效果越好。

3.9 true negative rate (tnr)

一般情況下,真負類率越高,說明的模型的效果越好 tn

r=tn

fn+t

n

混淆矩陣評價指標 分類效果評價指標一混淆矩陣

1.混淆矩陣 判斷分類模型好壞 混淆矩陣是roc曲線繪製的基礎,同時它也是衡量分型別模型準確度中最基本,最直觀,計算最簡單的方法。一句話解釋版本 混淆矩陣就是分別統計分類模型歸錯類,歸對類的觀測值個數,然後把結果放在乙個表裡展示出來。這個表就是混淆矩陣。混淆矩陣是評判模型結果的指標,屬於模型評估的一...

機器學習(混淆矩陣)

1 混淆矩陣 真實性positive 1 negative 0 值poistive 1 tp true positive 11 fp false positive 01 negative 0 fn false negaative 10 tn true negative 00 2 四種指標 公式意義 ...

機器學習模型評價指標 回歸任務

from sklearn.metrics import mean absolute error 沒找到sklearn怎麼實現,先用python 實現吧from sklearn.metrics import median absolute errorfrom sklearn.metrics impor...