初級演算法梳理邏輯回歸

1、邏輯回歸與線性回歸的聯絡與區別

線性回歸模型產生的**值是實值y_hat，而考慮二分類問題，輸出標記y∈，可以把線性回歸產生的**值y_hat轉化成0/1值，找到乙個單調可微函式將分類任務的**值y_hat轉化成0和1。

2、邏輯回歸的原理

線性回歸模型產生的**值是實值y_hat，而考慮二分類問題，輸出標記y∈，可以把線性回歸產生的**值y_hat轉化成0/1值，找到乙個單調可微函式將分類任務的**值y_hat轉化成0和1。對數機率函式即「sigmoid"函式，可以講**值y_hat轉化為乙個接近0或1的y_p概率值。該函式表示為：

當h(x)>0時，sigmoid函式大於0.5；當h(x)<0時，sigmoid函式小於0.5。所以，我們可以將擬合曲線的函式值帶入sigmoid函式，觀察h(x)與0.5的大小確定其類標號。

3、邏輯回歸損失函式推導及優化

cost = -ylog(p)-(1-y)log(1-p)

y = 1 時：-log(p) ∈(+

y = 0 時：-log(1-p)∈[0,+

考慮到所有樣本是，邏輯回歸的損失函式為：

損失函式的梯度為：

4、正則化與模型評估指標

4.1 正則化：

為防止過擬合，提公升模型泛化能力，我們需要對所有特徵引數（除θ0θ0外）進行懲罰，即保留所有特徵，減小引數θθ的值，當我們擁有很多不太有用的特徵時，正則化會起到很好的作用。

4.2 模型評估

accuracy，準確率評估方法

5、邏輯回歸的優缺點

優點：直接對分類可能性進行建模，無需事先假設資料分布，這樣就避免了假設分布不準確所帶來的問題，不僅能**類別，還可以得到近似概率**，這對需要利用概率輔助決策的任務很有用。目標函式是任意階可導的凸函式，有許多數值優化演算法都可以用於求取最優解。

6、樣本不均衡問題解決辦法

分類演算法，有乙個基本假設，即不同類別的訓練樣本數目相當，如果不同類別的訓練樣本數目稍有差別，通常影響不大，但若差別很大，則會對學習過程造成困擾。類別不平衡就是指分類任務中不同類別的訓練樣本數目差差別很大的情況。解決方法：

第一類：直接對訓練集裡的反類樣例進行欠取樣，即去除一些反例使得正反例數目接近，然後再進行學習。

第二類：對訓練集裡的正類樣例進行過取樣，即增加一些正例使得正反例數目接近，然後在進行學習。

第三類：直接基於訓練集進行學習，但在用訓練好的分類器進行**時，採取再縮放策略。

7. sklearn引數

fix(x,y[,sample_weight])：訓練模型。

predict(x)：用模型進行**，返回**值。

score(x,y[,sample_weight])：返回（x，y）上的**準確率（accuracy）。

predict_log_proba（x）：返回乙個陣列，陣列的元素一次是 x **為各個類別的概率的對數值。

predict_proba（x）：返回乙個陣列，陣列元素一次是 x **為各個類別的概率的概率值。

sparsify()：將係數矩陣轉換為稀疏格式。

set_params（** params）：設定此估計器的引數。

decision_function（x）：**樣本的置信度分數。

densify()：將係數矩陣轉換為密集陣列格式。

初級演算法梳理 邏輯回歸