機器學習 機器學習常用的模型評估方法

2021-10-10 22:15:36 字數 2768 閱讀 3821

目錄

混淆矩陣

正確率精確率

召回率靈敏度

偽陽性率

特異度p-r曲線:

f1-值

roc曲線

auc面積

均方誤差

均方根誤差

平均絕對誤差

實際值\**值

**值positive

negative

實際值positive

tpfn

negative

fptn

tp真陽性,即實際為陽性,**為陽性

fp:假陽性,即實際為陰性,**為陽性

fn假陰性,即實際為陽性,**為陰性

tn真陰性,即實際為陰性,**為陰性

在資訊檢索領域,精確率和召回率又被稱為查準率和查全率:

查準率=檢索出的相關資訊量/檢索出的資訊總量

查全率=檢索出的相關資訊量/系統中的相關資訊總量

正確率(accuracy)又叫準確率,反映乙個模型能夠**正確的程度。當資料十分不平衡的時候,將會把所有結果**為某一類,如樣本陽性:陰性為100000:1時,可能**為陽性的概率非常高。

精準率(precision)又叫查準率、精準率、精度:是針對我們**結果而言的,它表示的是**為正的樣本中有多少是真正的正樣本。

召回率(recall)又叫查全率:是針對我們原來的樣本而言的,它表示的是樣本中的正例有多少被**正確了。

靈敏度(sensitivity)真陽性率、命中率 (hit rate):**為陽性中佔實際為陽性比重,和召回率同乙個計算方式。值越高,說明漏掉陽性的比例越低,但是有可能出現假陽性。

偽陽性率(fpr, false positive rate) 又稱錯誤命中率,假警報率 (false alarm rate),即假陽性站實際陰性的比重。

特異度(specificity)也稱真陰性率:**為陰性中佔實際為陰性比重。值越高,說明漏掉陰性的比例越低,但是有可能出現假陰性。

即精確率-召回率曲線。橫座標為召回率recall,縱座標為精準率precision。

p-r曲線反映查準率和查全率之間的關係,查準率和查全率是一對矛盾的度量,一般來說,查準率高時,查全率往往偏低,查全率高時,查準率往往偏低。

當用該指標衡量模型好壞時,在多個p-r曲線比較中,在該圖中有兩個指標值能說明該指標的差異:

(1)乙個學習器的p-r曲線被另乙個學習器的p-r曲線完全包住,則可斷言後者的效能優於前者

(2)查準率=查全率時的取值,如果這個值較大,則說明學習器的效能較好

f1-值(f1-measure)也稱f1-sore,是精準率和召回率的調和平均數。用於衡量模型的健壯性,實際中如果對業務不是太熟悉,一般把取該值的最大值作為模型的最好狀態。

接收者操作特徵曲線(receiver operating characteristic curve),是反映敏感性和偽陽性率連續變數的綜合指標,將偽陽性率(fpr)定義為 x 軸,真陽性率(tpr)定義為 y 軸。

從 (0, 0) 到 (1,1) 的對角線將roc空間劃分為左上/右下兩個區域,在這條線的以上的點代表了乙個好的分類結果(勝過隨機分類),而在這條線以下的點代表了差的分類結果(劣於隨機分類)。

完美的**是在左上角的點,在roc空間座標 (0,1)點,x=0 代表著沒有偽陽性,y=1 代表著沒有偽陰性(所有的陽性都是真陽性);也就是說,不管分類器輸出結果是陽性或陰性,都是100%正確。

auc(area under curve)即roc曲線下的面積,是乙個模型評價的指標,只能用於二分類模型的評價。 roc曲線的橫軸是fpr,縱軸是tpr,當二者相等時,即y=x,表示的意義是:對於不論真實類別是陽性還是陰性的樣本,分類器**為陽性的概率是相等的,實際上該模型沒有任何意義。實際訓練模型中應該使tpr盡量大,fpr盡量小,即取auc的極大值。

均方誤差(mse)又稱為二次損失,l2損失(mean square error, quadratic loss, l2 loss),是最常用的回歸損失函式,用於衡量回歸模型,值越小,證明模型越好。損失函式是衡量**模型**期望結果表現的指標。尋找函式最小值。

均方根誤差即rmse(root mean square error),均方誤差(mse)的平方根。

平均絕對誤差又稱為l1損失(mean absolute error, l1 loss),平均絕對誤差(mae)是另一種用於回歸模型的損失函式。mae是目標變數和**變數之間差異絕對值之和。因此,它在一組**中衡量誤差的平均大小,而不考慮誤差的方向。

mse與mae差異:mse越大,如果資料有某些點離資料中心很遠,mse增長得就很快。直觀來說,對觀測資料,如果我們只給乙個**結果來最小化mse,那麼該**值是所有目標值的均值。但是如果我們試圖最小化mae,那麼這個**就是所有目標值的中位數。中位數對於離群點比平均值更魯棒,這使得mae比mse更加魯棒。

在實際業務中,如果離群點是會影響業務、而且是應該被檢測到的異常值,那麼我們應該使用mse。另一方面,如果我們認為離群點僅僅代表資料損壞,那麼我們應該選擇mae作為損失。

機器學習 機器學習模型訓練與測試評估

對於特定任務最優建模方法的選擇或者對特定模型最佳引數的選擇 模型的選擇會盡可能多的選擇演算法進行執行,並比較每個演算法的執行結果 模型的測試一般從以下幾個方面來進行比較 準確率 召回率 精確率 f值 roc auc 準確率 accuracy 提取出的正確樣本數 總樣本數 a cc urac y tp...

機器學習的模型評估

機器演算法有很多,各種模型的在不同的場景下各有優劣。所以需要一些方法來對機器學習的方法有乙個判斷。真實情況 正例反例 正例tp 真正例 fn 假反例 反例fp 假正例 tn 真反例 p tpt p fp r tptp fnroc reciever operating characteristic 是...

機器學習 機器學習目錄

注 後期有時間的話會對每乙個演算法進行講解。1 普通線性回歸 2 廣義線性模型 3 邏輯回歸 4 線性判定分析1 決策樹基本原理與構建 2 cart演算法 3 回歸決策樹 4 分類決策樹1 貝葉斯定理與樸素貝葉斯 2 高斯貝葉斯分類器 3 多項式貝葉斯分類器 4 伯努利貝葉斯分類器 5 遞增式學習1...