打卡2 邏輯回歸演算法梳理

2021-09-22 12:17:13 字數 1774 閱讀 4229

logistic回歸與多重線性回歸實際上有很多相同之處,最大的區別就在於它們的因變數不同,其他的基本都差不多。正是因為如此,這兩種回歸可以歸於同乙個家族,即廣義線性模型。但是一般的線性回歸是不應用在分類問題之上的。而邏輯回歸則可以面對乙個回歸或者分類問題,建立代價函式求解出最優的模型引數。而邏輯回歸雖然名字裡帶有「回歸」兩字,但是實質上是乙個分類方法。

邏輯回歸假設因變數 y 服從伯努利分布,而線性回歸假設因變數 y 服從高斯分布。 因此與線性回歸有很多相同之處,去除sigmoid對映函式的話,邏輯回歸演算法就是乙個線性回歸。邏輯回歸是以線性回歸為理論支援的,但是邏輯回歸通過sigmoid函式引入了非線性因素,因此可以輕鬆處理0/1分類問題。

邏輯回歸的損失函式j(m個樣本,每個樣本有n個特徵):

cost函式和j函式如下,基於最大似然估計推導得到的

推導過程:

1)求代價函式:

概率綜合函式:

取似然函式為:

對數似然函式為:

最大似然估計就是求使l(θ)取最大值時的θ,其實這裡可以使用梯度上公升法求解,求得的θ就是要求的最佳引數。

在andrew ng的課程中將j(θ)取為下式,即: 

2) 梯度下降法求解最小值 

θ更新過程可以寫成:  

正則化是結構風險最小化策略的實現,是在經驗風險上加乙個正則化項或懲罰項。正則化項一般是模型複雜度的單調遞增函式,模型越複雜,正則化項就越大。

正則項可以取不同的形式,在回歸問題中取平方損失,就是引數的l2範數,也可以取l1範數。取平方損失時,模型的損失函式變為:

lambda是正則項係數: 

如果它的值很大,說明對模型的複雜度懲罰大,對擬合資料的損失懲罰小,這樣它就不會過分擬合資料,在訓練資料上的偏差較大,在未知資料上的方差較小,但是可能出現欠擬合的現象; 

如果它的值很小,說明比較注重對訓練資料的擬合,在訓練資料上的偏差會小,但是可能會導致過擬合。 

正則化後的梯度下降演算法θ的更新變為:  

優點:速度快,適合二分類問題

易解釋,可以直接看到模型中各個變數的權重

易調整,能容易地更新模型,吸收新的資料

缺點: 

對資料和場景的適應性有限,容易欠擬合,精度一般,不如樹模型、svm、adaboost等一些其他的常用分類模型給力。

1.擴充資料集

2.對資料集進行重取樣

3.人造資料

4.改變分類演算法

5.嘗試其他評價指標

邏輯回歸sklearn引數

02演算法梳理2 邏輯回歸

2.邏輯回歸的原理 3.邏輯回歸損失函式推導及優化 4.正則化與模型評估方法 5.邏輯回歸優缺點 6.樣本不均衡問題解決方案 7.sklearn引數 兩者都屬與廣義線性回歸模型。通過sigimoid函式,將線性線性轉化成非線性函式。數值越大越趨向於0,越小越趨向於1.在損失函式後加乙個正則化項,酒時...

邏輯回歸演算法梳理

邏輯回歸演算法梳理 1 邏輯回歸與線性回歸的聯絡與區別 區別 邏輯回歸 值返回的離散值,線性回歸返回的連續值 聯絡 2 邏輯回歸的原理 邏輯回歸就是這樣的乙個過程 面對乙個回歸或者分類問題,建立代價函式,然後通過優化方法迭代求解出最優的模型引數,然後測試驗證我們這個求解的模型的好壞 3 邏輯回歸損失...

邏輯回歸演算法梳理

其原理是將樣本的特徵和樣本發生的概率聯絡起來。優化方法 模型評估指標 在資料極度偏斜的情況下,分類準確度存在問題,比如 癌症,因此只用分類準確度是遠遠不夠的。引入以下指標,優點 缺點 樣本的過取樣和欠取樣 直接基於原始訓練集進行學習,但在用訓練好的分類器進行 時,將y 1 y嵌入到決策過程中,稱為 ...