趣談錯誤率精度查準率查全率

筆者剛開始學習ml dl,對於分類任務中的幾個效能度量指標，之前一直有點繞，今天看西瓜書時才明白，尤其是對於查準率與查全率部分，然後記錄下來預防後期自己忘掉。

首先對於錯誤率很好理解，就是分類錯誤的樣本數佔總樣本數的比例，假設你有n個樣本，其中有f個樣本被錯誤分類，那麼錯誤率:

p = f/n ---
----錯誤率

於此對應的正確率也就是精度為：

acc =
1-p

其實對於錯誤率與精度的概念還是很好理解的，這與我們日常中了解的概念沒啥區別，接下來就是對於查準率（準確率）以及查全率（召回率）的理解了。

我們以二分類問題為例，上文提到的精度的概念是有多少樣本被分為了正樣本，而我們更想知道的是被分為正樣本的資料是否真的全部為正樣本呢？其中是否有被錯誤判別為正樣本的資料呢？因此這時單用上述的錯誤率與精度就很難對此進行評價。

對於二分類問題，可將樣本根據其真實類別和學習器**類別的組合劃分為真正例（tp）、假正例（fp）、真反例（tn）、假反例（fn）則顯然有：

tp+fp+tn+fn = 樣例總數

分類結果混淆矩陣：

真實情況/**情況

正例反例

正例tp（真正例）

fn（假反例）

反例fp（假正例）

tn（真反例）

首先給出兩者的定義：

查準率p：

p =t

ptp+

p = \dfrac

p=tp+f

ptp

查全率r:

r =t

ptp+

r = \dfrac

r=tp+f

ntp

查準率顧名思義，要點在與「準」,也就是你分類中的結果，其中正確分類的比例是多少，查全率的重點在於「全」,也就是說你你當前分出的類別，是否在總樣本中還有剩餘，檢測出的樣本佔這一類別樣本的總數的比例是多少，這兩者一般而言是乙個矛盾體，也就是隨這r的增加p會下降，但是在一些簡單分類任務中，如果你的分類器識別效果特別棒，那麼也會出現隨著r的增加p會保持一定的高精度值。

我們以經典的西瓜案例子進行講解,話說小花的導師今天閒來無事，給了小花一堆西瓜，西瓜有好有壞：

a.現在小花的導師對小花說：你給我把好瓜挑出來送到辦公室，如果最後給我的瓜里有壞瓜，那麼這個月的補貼就由100變為50（都是金錢）。這種情況下，小花會怎麼做呢，那肯定是把那種看起來百分百像好瓜的西瓜都挑選出來給boss，而這時那種看起來壞掉但是實際是好瓜的的西瓜可能就會被略掉，次時我們的查準率p就會很高，因為我們的查準率公式中此時的fp基本會很小很小，為了50塊小花真是寧缺勿濫，也就是說查準率p很高的情況下我們會漏檢一部分目標，而此時我們的查全率r自然會較小（對照公式很容易明白）。

b.第二天，小花的老師換了要求（可能回家後師娘發現太浪費），說你把好瓜盡可能都給我挑出來，要是挑完以後我發現剩餘的瓜里還有好瓜，我就給你扣工資，此時的小花又會怎麼做呢？自然這次的小花看到像好瓜的他就挑出來，這樣才能盡可能的保證把所有的好瓜都挑出來。（其實小花如果把所有的瓜都給了導師，那麼此時的我們的查全率r就是100%了，因為眼前的這所有的瓜中一定會包含所有的好瓜，自然而然這時有些壞瓜也被認為了好瓜，自然而然此時的查準率p就會很低。）

總的來說幾個字概括：

查準率高時是漏檢率高，誤檢率低；查全率高時是漏檢率低，誤檢率高

結合上邊的小趣味以及公式，我相信查準率以及查全率的概念會很容易搞懂筆者比較笨，所以寫下來預防自己後期忘掉！！別噴我我第一次寫部落格太能嗶嗶了溜了溜了~~

趣談錯誤率精度查準率查全率

查全率召回率與精度查準率之辨析

錯誤率為什麼Gmat的OG 錯誤率那麼高？

SQL語句統計錯誤率

趣談 錯誤率 精度 查準率 查全率

查全率 召回率 與精度 查準率 之辨析

錯誤率 為什麼Gmat的OG 錯誤率那麼高？

SQL語句統計錯誤率

相關推薦

趣談錯誤率精度查準率查全率

查全率召回率與精度查準率之辨析

錯誤率為什麼Gmat的OG 錯誤率那麼高？