模型評估之評估指標的侷限性

2021-10-12 17:08:41 字數 1191 閱讀 8769

問1:準確率的侷限性。

當不同類別的樣本比例非常不均衡時,佔比大的類別往往成為影響準確率的最主要因素。

解決思路之一:每個類別下的樣本準確率的算術平均作為模型評估的指標。

問2:精確率與召回率的權衡。

精確率:指分類正確的正樣本個數佔分類器判定為正樣本的樣本個數的比例。

召回率:指分類正確的正樣本個數佔真正的正樣本個數的比例。

簡單解釋:精確率是「找出來的對的」佔「找出來的」多少,召回是「找出來對的」佔「所有對的」多少。

在排序問題中,通常沒有乙個確定的閾值把得到的結果直接判定為正樣本或負樣本,而是採用top n返回結果的precision值和recall值來衡量排序模型的效能。

精確和召回的拉扯:為了提高精確值,分類器需要盡量在【更有把握】時才把樣本**為正樣本,但此時往往會因為過於保守而漏掉很多【沒有把握】的正樣本,導致recall值降低。

更高階的評估指標來更全面地反映模型在precision值和recall值兩方面的表現?

不僅看模型在不同topn下的precision@n和recall@n,而且最好繪製出模型的p-r曲線。

對於乙個排序模型來說,其p-r曲線上的乙個點代表著,在某一閾值下,模型將大於該閾值的結果判定為正樣本,反之則為負樣本,此時返回結果對應的召回率和精確率。整條p-r曲線是通過將閾值從高到低移動而生成的。原點附近代表當閾值最大時模型精確率和召回率。(閾值越大,越有把握把正樣本選出來,精確率就越高,所以一般p-r曲線呈下降趨勢)

通過p-r曲線可以對不同模型進行更為全面的評估。

除此之外,還有f1 score和roc曲線,也能綜合反映乙個排序模型的效能。

f1 score是精準率和召回率的調和平均值。

問3:平方根誤差的特點

rmse能夠很好地反映回歸模型**值與真實值的偏離程度。但是,如果存在個別偏離程度非常大的離群點時,即使離群點數量非常小,也會讓rmse指標變得很差。

針對這種現象,解決方案有三。第一,資料預處理過濾掉屬於噪點聲的離群點;第二,進一步提高模型的**能力,將離群點產生的機制建模進去;第三,找乙個更合適的指標評估模型,比如 平均絕對百分比誤差(mape):相當於把每個點的誤差進行了歸一化,降低了個別離群點帶來的絕對誤差的影響。

建議:通過一組互補的指標去評估模型,能更好的發現並解決模型存在的問題。

線性模型的侷限性

1.線性模型的侷限性 1 1.線性模型的定義 假設乙個模型的輸出y和輸入xi滿足如下關係,則這個模型就是線性 模型。當模型的輸入只有乙個的時候,x和y形成了二維座標系上的一條直線。當模型的輸入為n個的時候,x和y形成了n 1維空間中的乙個平面。1 2.線性模型的特點 任意線性模型的組合任然是線性模型...

SQLite的侷限性

sql 92特性方面 正如前面提到的,sqlite不支援sql 92的在很多企業資料庫系統中可用的一些特性。如 外來鍵約束 可解析的,但非強制 很多alter table特性 一些trigger相關的特性 right和full outer join 更新乙個view grant和revoke 你可以...

SQLite的侷限性

sqlite和其他大部分現代sql資料庫在基本設計目標上是不同的,它的目標是簡單。sqlite遵循這一目標,即使這樣偶爾會導致某些特性實現的低效化。下面列舉了sqlite的一些缺陷 sql 92特性方面 正如前面提到的,sqlite不支援sql 92的在很多企業資料庫系統中可用的一些特性。如 外來鍵...