機器學習演算法之LR

說起lr要從極大似然估計說起：

1、極大似然估計：

講的比較好)

2、lr模型：

回歸是一種極易理解的模型，就相當於y=f(x)，表明自變數x與因變數y的關係。最常見問題有如醫生治病時的望、聞、問、切，之後判定病人是否生病或生了什麼病，其中的望聞問切就是獲取自變數x，即特徵資料，判斷是否生病就相當於獲取因變數y，即**分類。

求邏輯回歸模型f(θ)，等價於：

採用梯度下降法：

從而迭代θ至收斂即可：

4、正則化

當模型的引數過多時，很容易遇到過擬合的問題。這時就需要有一種方法來控制模型的複雜度，典型的做法在優化目標中加入正則項，通過懲罰過大的引數來防止過擬合：

實際應用時，由於我們資料的維度可能非常高，l1正則化因為能產生稀疏解，使用的更為廣泛一些。

5、模型評估

對於lr分類模型的評估，常用auc來評估，需要提前說明的是，我們這裡只討論二值分類器。對於分類器，或者說分類演算法，評價指標主要有precision，recall，f1-score，以及我們今天要討論的roc和auc。下圖是乙個roc曲線的示例。

正如我們在這個roc曲線的示例圖中看到的那樣，roc曲線的橫座標為false positive rate（fpr），縱座標為true positive rate（tpr）。下圖中詳細說明了fpr和tpr是如何定義的。

精確率;

是針對我們**結果而言，表示的是**為正的樣本中有多少是真正的正樣本。那麼**為正就有兩種可能了，一種就是把正類**為正類(tp)，另一種就是把負類**為正類(fp)

召回率：

是針對我們原來的樣本而言的，它表示的是樣本中的正例有多少被**正確了。那也有兩種可能，一種是把原來的正類**成正類(tp)，另一種就是把原來的正類**為負類(fn)。

6、關於auc 和 logloss

比如 1 1 0 1 **值為 0.5 0.5 0.3 0.5

那麼 auc 是 1

我們提公升**值到 0.7 0.7 0.4 0.7

那麼 auc 依然是1

但是 logloss 有了很大的提公升。