ML筆記分類模型評估

混淆矩陣（confusion matrix）是視覺化工具，特別用於監督學習，在無監督學習中一般叫做匹配矩陣，主要用於比較分類結果和實際測得值，可以把分類結果的精度顯示在乙個混淆矩陣裡面。

tp的定義：實際為正**為正

fp的定義：實際為負但**為正

tn的定義：實際為負**為負

fn的定義：實際為正但**為負

召回率（recall,tnr）：**對的正例數佔真正的正例數的比率

計算公式：recall=tp / (tp+fn)

準確率：反映分類器統對整個樣本的判定能力，能將正的判定為正，負的判定為負

計算公式：accuracy=(tp+tn) / (tp+fp+tn+fn)

精準率：指的是所得數值與真實值之間的精確程度；**正確的正例數佔**為正例總量的比率

計算公式：precision=tp / (tp+fp)

f值：f-score是precision和recall加權調和平均數，並假設兩者一樣重要

計算公式：f1 score=(2recallprecision) / (recall+precision)

**auc（area under curve）**被定義為roc曲線下的面積，顯然這個面積的數值不會大於1。又由於roc曲線一般都處於y=x這條直線的上方，所以auc的取值範圍在0.5和1之間。使用auc值作為評價標準是因為很多時候roc曲線並不能清晰的說明哪個分類器的效果更好，而作為乙個數值，對應auc更大的分類器效果更好。

auc值是乙個概率值，當你隨機挑選乙個正樣本以及乙個負樣本，當前的分類演算法根據計算得到的score值將這個正樣本排在負樣本前面的概率就是auc值。當然，auc值越大，當前的分類演算法越有可能將正樣本排在負樣本前面，即能夠更好的分類。

ks值，正樣本洛倫茲曲線記為f(x)，負樣本洛倫茲曲線記為g(x)，k-s曲線實際上是f(x)與g(x)的差值曲線。k-s曲線的最高點（最大值）定義為ks值，ks值越大，模型分值的區分度越好，ks值為0代表是最沒有區分度的隨機模型。準確的來說，k-s是用來度量陽性與陰性分類區分程度的。

ML筆記分類模型評估

ML筆記分類演算法之SVM

分類模型的評估

ML之模型評估與選擇簡介

ML筆記 分類模型評估

ML筆記 分類演算法之SVM

分類模型的評估

ML之模型評估與選擇簡介

相關推薦

ML筆記分類模型評估

ML筆記分類演算法之SVM