小O學習筆記 9講入門機器學習（二）

花費一整天定製ospider_extratools，又用大半天處理gis保研講座的備課，筆記電子化的時間稍微晚了一些。不得不說，堅持做筆記確實不是一件容易的事情。

首先是3個單一指標：

準確率 accuracy=(tp+tn)/(tp+tn+fp+fn) ：準確識別的樣本數佔所有樣本數的比率

精確率（查準率）precision=tp/(tp+fp) ：從**值視角出發，等價於**為陽的可信度

召回率（查全率）recall=tp/(tp+fn) ：從真實值視角出發，等價於模型篩選出陽的完整度

其次是乙個復合指標f1 score，f1 score是precision和recall的調和平均數，即f1=2rp/(r+p)。轉換成有四個基礎值表示的話，f1=2tp/(2tp+fp+fn)。有一種p和r分子分母分別相加的既視感。

對於乙個0-1分類問題，類似邏輯回歸，我們要根據樣本的各個特徵（屬性）計算出乙個概率值p，p越接近1，越有可能為1類（真/陽）。那麼，什麼時候我們認為某個樣本是1類呢？這時，我們需要乙個閾值t。當p>t的時候我們將該樣本劃分為1類，否則劃分為0類。當在0-1間取不同的閾值時，我們注意到4個基本量（tp/np/tf/nf）會發生變化，這意味著一系列單一指標也會發生變化。當評價模型的整體效能而不是特定閾值下的效能的時候，我們引入了新的評價手段——不同的曲線。

一種典型曲線是p-r曲線，以精確率p為縱軸，召回率r為橫軸。

另一種是受試者操作特性曲線（receiver operating characteristic curve，簡稱roc曲線），我們一般直接叫roc。roc曲線以真陽率tpr為縱軸，假陽率fpr為橫軸。

fpr = fp/(fp + tn) 負樣本中的錯判率（假警報率）

tpr = tp/(tp + tn) 判對樣本中的正樣本率（命中率）

acc = (tp + tn) / p+n 判對準確率

roc相對於p-r有當樣本特徵值發生線性變化時，曲線不變的有點，所以一般我們用roc曲線和roc曲線的下的面積auc(area under the curve)帶評價機器學習模型。roc曲線約陡峭，auc越大，說明模型效能越好。

之前記得有一篇文章講roc曲線非常的棒，一下沒找到了，下次找到了再修改當前的文章吧。

概念：度量機器學習模型總的**值與真實值間差距的函式。

就我個人而言，損失函式就是在效能度量指標的求和，運用於模型內部。而效能度量指標某種程度上類似於均值。我的理解不完全對，但是有用。

網課的ppt談了5種常用損失函式：0-1、絕對值、對數、平方、指數損失函式，同時老師口頭提了「交叉熵損失函式」。除交叉熵損失函式外，其他幾個函式都很easy。交叉熵函式的進一步定義可以看部落格：簡單的交叉熵損失函式，你真的懂了嗎？。這裡我只是掃了一眼，之後留作備用。

本來這裡想用latex公式的，但是掌握的不熟悉太費時間了。本週還有其他事情，不宜在文件編輯問題上投入過多精力。記錄幾個講在markdown中用公式的部落格：

markdown 插入數學公式實驗大集合

markdown數學公式語法

監督模型的核心問題就是確定正則化引數的同時最小化經驗風險。

模型過於複雜就可能產生過擬合問題，而正則化是解決模型過擬合問題的一種方法。所謂正則化就是給模型的複雜度增加一些懲罰項。

好吧，說實話這裡我沒弄懂。需要之後再看補充資料。

為了讓模型的評價更可靠。對於同乙份資料，多次選取不同的訓練集和測試集，進行模型的訓練與檢驗，最終評價結果取平均就是交叉驗證。

問題：交叉驗證的情況下，具體該用哪一組引數進行部署？

小O學習筆記 9講入門機器學習（二）

筆記機器學習入門（二）

機器學習第二講

學習小筆記機器學習

小O學習筆記 9講入門機器學習（二）

筆記 機器學習入門（二）

機器學習 第二講

學習小筆記 機器學習

相關推薦

筆記機器學習入門（二）

機器學習第二講

學習小筆記機器學習