《資料探勘導論》混淆矩陣

發現有很多資料對混線矩陣以及recall、precision的定義不一致，經過比較發現《資料探勘導論》對其定義比較的正確

混淆矩陣

**值+

-真實值+tp

fn-fptn

所謂的tn，tp都是針對**值闡述的，例如**值為『-』，對應的為『n』，至於是tn還是fn根據真實值的情況判斷，真實值也為『-』，則tn，真實值為『+』，作為fn

recall（召回率） = tp/(tp+fn)，即在真實值為『+』的所有樣本中，model**也為『+』的概率，也被成為tpr（真正率、靈敏度），與之對應的為fpr（假正率） = fp/(fp+tn)。roc曲線的y軸即recall，x軸為fpr。

精度（precision） = tp/(tp+fp），即在所有**為『+』的樣本中，真實值為『+』所佔的比例。

由上可知，假如對於二分類（樣本100，正例50，負例50），model全部**為『+』，則recall = 1，precision = 0.5，所以不見得recall越大越好，我們希望recall高的同時，precision也最好高，由此得出平衡這兩個指標的新的度量：f1，f1 = 2（1/recall + 1/precision），由f1公式可知，當recall和precision值很接近的時候f1才會很大。

最後準確率的概念較簡單，即（tp+tn）/（tn+fn+tp+fp），在sklearn中，model.score(x,y)即可得出。

《資料探勘導論》混淆矩陣

資料探勘導論

資料探勘導論

python資料分析與挖掘實戰的混淆矩陣糾錯

相關推薦