機器學習演算法之LR

2021-08-21 15:16:15 字數 1484 閱讀 2612

說起lr要從極大似然估計說起:

1、極大似然估計:

講的比較好)

2、lr模型:

回歸是一種極易理解的模型,就相當於y=f(x),表明自變數x與因變數y的關係。最常見問題有如醫生治病時的望、聞、問、切,之後判定病人是否生病或生了什麼病,其中的望聞問切就是獲取自變數x,即特徵資料,判斷是否生病就相當於獲取因變數y,即**分類。

求邏輯回歸模型f(θ),等價於:

採用梯度下降法:

從而迭代θ至收斂即可:

4、正則化

當模型的引數過多時,很容易遇到過擬合的問題。這時就需要有一種方法來控制模型的複雜度,典型的做法在優化目標中加入正則項,通過懲罰過大的引數來防止過擬合:

實際應用時,由於我們資料的維度可能非常高,l1正則化因為能產生稀疏解,使用的更為廣泛一些。

5、模型評估

對於lr分類模型的評估,常用auc來評估,需要提前說明的是,我們這裡只討論二值分類器。對於分類器,或者說分類演算法,評價指標主要有precision,recall,f1-score,以及我們今天要討論的roc和auc。下圖是乙個roc曲線的示例。

正如我們在這個roc曲線的示例圖中看到的那樣,roc曲線的橫座標為false positive rate(fpr),縱座標為true positive rate(tpr)。下圖中詳細說明了fpr和tpr是如何定義的。

精確率;

是針對我們**結果而言,表示的是**為正的樣本中有多少是真正的正樣本。那麼**為正就有兩種可能了,一種就是把正類**為正類(tp),另一種就是把負類**為正類(fp)

召回率:

是針對我們原來的樣本而言的,它表示的是樣本中的正例有多少被**正確了。那也有兩種可能,一種是把原來的正類**成正類(tp),另一種就是把原來的正類**為負類(fn)。

6、關於auc 和 logloss

比如 1 1 0 1 **值 為 0.5 0.5 0.3 0.5

那麼 auc 是 1

我們提公升**值到 0.7 0.7 0.4 0.7

那麼 auc 依然是1

但是 logloss 有了很大的提公升。

機器學習面試 之 LR與SVM

svm lr和svm的區別 lr1.lr的損失函式 2.lr的推導過程 請參考第一題 3.lr如何解決共線性,為什麼深度學習不強調 1 pca等降維方法。因為在原始特徵空間中變數之間相關性大,降維可以去除這種共線性。2 正則化。使用l2或者l1或者l1 l2。3 逐步回歸法。深度學習為什麼不強調?因...

機器學習之LR演算法理論和實戰(理論篇)

本文 行向量 都是 w t x i 都是加了t 列向量 都是 w x i y i y i x i 都不加t,也有例外,如 y y 1,y 2,y m 則是行向量,反正這違反這一約定的情況下,一定會在旁邊說明 主要用於二分類演算法,不妨用 1 0 表示兩個類 不妨記sigmoid 為 sigma si...

機器學習lr複習點

lr主要推導 損失函式 為何不用最小二乘法 是否要用最小二乘法取決於在所有未知數中的殘差是否為線性 最大似然 將概率密度估計問題轉化為引數估計問題,極大似然估計就是一種引數估計方法 隨機梯度下降 批量梯度下降是所有的 是在權值更新前對所有樣例彙總誤差,而隨機梯度下降的權值是通過考查某個訓練樣例來更新...