打卡2 邏輯回歸演算法梳理

logistic回歸與多重線性回歸實際上有很多相同之處，最大的區別就在於它們的因變數不同，其他的基本都差不多。正是因為如此，這兩種回歸可以歸於同乙個家族，即廣義線性模型。但是一般的線性回歸是不應用在分類問題之上的。而邏輯回歸則可以面對乙個回歸或者分類問題，建立代價函式求解出最優的模型引數。而邏輯回歸雖然名字裡帶有「回歸」兩字，但是實質上是乙個分類方法。

邏輯回歸假設因變數 y 服從伯努利分布，而線性回歸假設因變數 y 服從高斯分布。因此與線性回歸有很多相同之處，去除sigmoid對映函式的話，邏輯回歸演算法就是乙個線性回歸。邏輯回歸是以線性回歸為理論支援的，但是邏輯回歸通過sigmoid函式引入了非線性因素，因此可以輕鬆處理0/1分類問題。

邏輯回歸的損失函式j(m個樣本，每個樣本有n個特徵)：

cost函式和j函式如下，基於最大似然估計推導得到的

推導過程：

1）求代價函式：

概率綜合函式：

取似然函式為：

對數似然函式為：

最大似然估計就是求使l(θ)取最大值時的θ，其實這裡可以使用梯度上公升法求解，求得的θ就是要求的最佳引數。

在andrew ng的課程中將j(θ)取為下式，即：

2) 梯度下降法求解最小值

θ更新過程可以寫成：

正則化是結構風險最小化策略的實現，是在經驗風險上加乙個正則化項或懲罰項。正則化項一般是模型複雜度的單調遞增函式，模型越複雜，正則化項就越大。

正則項可以取不同的形式，在回歸問題中取平方損失，就是引數的l2範數，也可以取l1範數。取平方損失時，模型的損失函式變為：

lambda是正則項係數：

如果它的值很大，說明對模型的複雜度懲罰大，對擬合資料的損失懲罰小，這樣它就不會過分擬合資料，在訓練資料上的偏差較大，在未知資料上的方差較小，但是可能出現欠擬合的現象；

如果它的值很小，說明比較注重對訓練資料的擬合，在訓練資料上的偏差會小，但是可能會導致過擬合。

正則化後的梯度下降演算法θ的更新變為：

優點：速度快，適合二分類問題

易解釋，可以直接看到模型中各個變數的權重

易調整，能容易地更新模型，吸收新的資料

缺點：

對資料和場景的適應性有限，容易欠擬合，精度一般，不如樹模型、svm、adaboost等一些其他的常用分類模型給力。

1.擴充資料集

2.對資料集進行重取樣

3.人造資料

4.改變分類演算法

5.嘗試其他評價指標

邏輯回歸sklearn引數

打卡2 邏輯回歸演算法梳理

02演算法梳理2 邏輯回歸

邏輯回歸演算法梳理

邏輯回歸演算法梳理

相關推薦