資料建模 分類器效能指標 效能測評

2021-08-10 10:12:23 字數 2069 閱讀 5408

表示分類正確:

true positive:本來是正樣例,分類成正樣例。

true negative:本來是負樣例,分類成負樣例。

表示分類錯誤:

false positive :本來是負樣例,分類成正樣例,通常叫誤報。

false negative:本來是正樣例,分類成負樣例,通常叫漏報。

準確度 :

真正類率(true postive rate)tpr: tp/(tp+fn),代表分類器**的正類中實際正例項佔

所有正例項的比例。sensitivity

負正類率(false postive rate)fpr: fp/(fp+tn),代表分類器**的正類中實際負例項

佔所有負例項的比例。1-specificity

真負類率(true negative rate)tnr: tn/(fp+tn),代表分類器**的負類中實際負例項

佔所有負例項的比例,tnr=1-fpr。specificity

真正類率(true postive rate)tpr就是查全率

分類器給出針對每個例項為正類的概率,那麼通過設定乙個閾值如0.6,概率大於等於0.6的為正類,小於0.6的為負類。對應的就可以算出一組(fpr,tpr),在平面中得到對應座標點。隨著閾值的逐漸減小,越來越多的例項被劃分為正類,但是這些正類中同樣也摻雜著真正的負例項,即tpr和fpr會同時增大。閾值最大時,對應座標點為(0,0),閾值最小時,對應座標點(1,1)。

auc是圖中曲線下方的面積,值越大,分類效果越佳

通常情況下auc越大學習器的效果越好。,即若乙個學習器的roc曲線被另外乙個學習器曲線完全包住,那麼可以斷言,後乙個學習器的效能優於前者。如果發生交叉則難以比較,如果非要比較,比較合理的判斷是比較roc下的面積即auc大小。

附錄:gbdt**

from sklearn.model_selection import train_test_split

from sklearn import ensemble,cross_validation, metrics

x_train, x_test, y_train, y_test = train_test_split(modeldata[allfeatures],modeldata['churn_cust_ind'], test_size=0.5,random_state=9)

y_train.value_counts()

#try 1: using default parameter

gbm0 = gradientboostingclassifier(random_state=10)

gbm0.fit(x_train,y_train)

y_pred = gbm0.predict(x_test)

y_predprob = gbm0.predict_proba(x_test)[:,1]##輸出所有樣本屬於0和1的概率,這裡選擇輸出樣本屬於1的概率

print

"accuracy : %.4g" % metrics.accuracy_score(y_test, y_pred)

print

"auc score (testing): %f" % metrics.roc_auc_score(y_test, y_predprob)

y_pred2 = gbm0.predict(x_train)

y_predprob2 = gbm0.predict_proba(x_train)[:,1]

print

"accuracy : %.4g" % metrics.accuracy_score(y_train, y_pred2)

print

"auc score (testing): %f" % metrics.roc_auc_score(y_train, y_predprob2)

機器學習 分類器效能指標

1.錯誤率 e 錯誤分類個數 總樣本數 2.正確率 tp 分類正確正例 tn 分類正確負例 fp 分類錯誤正例 fn 分類錯誤負例 precision 分類正確的正類 結果中被分為正類的個數 tp tp fp 3.召回率 recall 分類正確的正類 所有正類的個數 tp tp fn 4.f1 sc...

評價分類器效能指標之AUC ROC

本文內容大部分來自於如下兩個部落格 假設有下面兩個分類器,哪個好?樣本中有a類樣本90個,b 類樣本10個。a類樣本 b類樣本 分類精度 分類器c1 a 90 100 a 10 0 90 分類器c2 a 70 b 20 78 a 5 b 5 50 75 分類器c1把所有的測試樣本都分成了a類,分類器...

網路分類及效能指標

廣域網的頻寬不是固定的。判斷是廣域網還是區域網主要依據採用的技術 eg 和鄰居之間通過 adsl 通訊,則是廣域網。若通過乙個網線或者無線網連線,則是區域網。區域網 一般企業自己組建,百兆交換機 千兆交換機,自己購買裝置,自己維護,頻寬固定,距離網線長度 100m 以內。廣域網 花錢買服務,花錢買頻...