機器學習精簡教程之八 二元分類效果的評估方法

2021-08-04 19:17:11 字數 1544 閱讀 2460

本文**:

效果評估是模型選擇和演算法設計的重要步驟,知道評估優劣才能選擇最佳的模型和演算法,本節介紹一些有關評估方法的定義,凡是在統計或大資料領域都用得到 

true positives, tp

true negatives, tn

false positives, fp

false negatives, fn)

分類器**正確性的比例,可以通過logisticregression.score() 來計算準確率

分類器**出的髒話中真的是髒話的比例

p=tp/(tp+fp)

也叫靈敏度。所有真的髒話被分類器正確找出來的比例。

r=tp/(tp+fn)

知乎大神的通俗解釋:

假設你的女票在過去10年(還沒修成正果?)裡,每年都會送乙份生日禮物給你,有一天,她突然問你:

「記得這十年裡你生日我都送過什麼嗎?」

這不是乙個簡單的問題,或者說這不是乙個問題,這就是一顆雷

為了續命,你隨即對自己的大腦進行了地毯式搜尋,

這時,召回率(recall)就等於你回答正確的禮物數和你女票在你生日時送你的禮物數的總和的比值:

比如,你準確地回答出10件禮物,那麼召回率就為:10/10即100%

如果只準確地回憶起了7件,那麼召回率(recall)就是70%

但是,你所有的回答中可能有錯誤回答,比如,你一共給出了15個答案,其中5個是錯的,這證明,你雖然可以回答出所有禮物,但是卻不那麼精確,因此,精確率這個概念便出現了:

精確率(precision)就是10/15,約為67%

對比一下:

也就是說,儘管你給出了所有的答案,但是你總共回答了15次,雖然100%召回了,但是精確率只有66.67%,如果你回答了不止15次呢,如果是100次呢?(還是買彩票去吧)想一下女票氣得要炸裂的表情吧,你命不久矣,也就說,精確率太低,就算召回率是100%,女票眼裡,你也已經是dead meat了。

f-measure,精確率和召回率的調和均值。精確率和召回率都不能從差的分類器中區分出好的分類器,綜合評價指標平衡了精確率和召回率。

1/f+1/f=1/p+1/r即

f=2*pr/(p+r)

假陽性率,所有陰性樣本中分類器識別為陽性的樣本所佔比例 

f=fp/(tn+fp)

roc曲線畫的是分類器的召回率與誤警率(fall-out)的曲線 

機器學習教程之pandas(二)

這節主要講pandas結構的第2個結構dataframe。我們先來了解下什麼是dataframe?乙個datarame表示乙個 類似電子 的資料結構,包含乙個經過排序的列表集,它們沒乙個都可以有不同的型別值 數字,字串,布林等等 datarame有行和列的索引 它可以被看作是乙個series的字典 ...

機器學習演算法基礎 sklearn求二元線性回歸

直接呼叫sklearn裡面封裝好的函式即可 import numpy as np import matplotlib.pyplot as plt from mpl toolkits.mplot3d import axes3d 可以用來畫3d圖 from sklearn import linear m...

深度學習筆記 邏輯回歸模型和二元分類

在機器學習中,多元分類 是將示例歸類為多個 大於兩個 類別中的一類 將示例歸為兩類中的一類被稱為二元分類 一些分類演算法自然地允許使用超過兩類,另一些自然是二元分類演算法 然而,它們可以通過多種策略轉化為多元分類。多元分類不應該和多標籤分類相混淆,多標籤分類要為每個示例 多個標籤,即乙個示例可以同時...