邏輯回歸演算法梳理

2021-09-11 18:40:33 字數 1523 閱讀 8806

邏輯回歸演算法梳理

1、邏輯回歸與線性回歸的聯絡與區別

區別:邏輯回歸**值返回的離散值,線性回歸返回的連續值

聯絡:2、 邏輯回歸的原理

邏輯回歸就是這樣的乙個過程:面對乙個回歸或者分類問題,建立代價函式,然後通過優化方法迭代求解出最優的模型引數,然後測試驗證我們這個求解的模型的好壞

3、邏輯回歸損失函式推導及優化

4、 正則化與模型評估指標

正則有l1&l2正則,也有綜合l1&l2的elastic

評估指標:

5、邏輯回歸的優缺點

優點:1)速度快,適合二分類問題

2)簡單易於理解,直接看到各個特徵的權重

3)能容易地更新模型吸收新的資料

缺點:對資料和場景的適應能力有侷限性

6、樣本不均衡問題解決辦法

方案1:賦予正負例不同權重係數

方案2:可使用bagging方法,重複有放回抽樣,訓練多個模型,生成乙個強學習器做**

7. sklearn引數

penalty=』l2』, 引數型別:str,可選:『l1』 or 『l2』, 預設: 『l2』。該引數用於確定懲罰項的範數

dual=false, 引數型別:bool,預設:false。雙重或原始公式。使用liblinear優化器,雙重公式僅實現l2懲罰。

tol=0.0001, 引數型別:float,預設:e-4。停止優化的錯誤率

c=1.0, 引數型別:float,預設;1。正則化強度的導數,值越小強度越大。

fit_intercept=true, 引數型別:bool,預設:true。確定是否在目標函式中加入偏置。

intercept_scaling=1, 引數型別:float,預設:1。僅在使用「liblinear」且self.fit_intercept設定為true時有用。

class_weight=none, 引數型別:dict,預設:none。根據字典為每一類給予權重,預設都是1.

random_state=none, 引數型別:int,預設:none。在打亂資料時,選用的隨機種子。

solver=』warn』, 引數型別:str,可選:, 預設:liblinear。選用的優化器。

max_iter=100, 引數型別:int,預設:100。迭代次數。multi_class=』warn』, 引數型別:str,可選:,預設:ovr。如果選擇的選項是』ovr』,

那麼二進位制問題適合每個標籤。對於「多項式」,最小化的損失是整個概率分布中的多項式損失擬合,即使資料是二進位制的。當solver  ='liblinear』時,'multinomial』不

可用。如果資料是二進位制的,或者如果solver =『liblinear』,『auto』選擇』ovr』,否則選擇』multinomial』。

verbose=0, 引數型別:int,預設:0。對於liblinear和lbfgs求解器,將詳細設定為任何正數以表示詳細程度。

warm_start=false, 引數型別:bool,預設:false。是否使用之前的優化器繼續優化。

n_jobs=none,引數型別:bool,預設:none。是否多執行緒

邏輯回歸演算法梳理

其原理是將樣本的特徵和樣本發生的概率聯絡起來。優化方法 模型評估指標 在資料極度偏斜的情況下,分類準確度存在問題,比如 癌症,因此只用分類準確度是遠遠不夠的。引入以下指標,優點 缺點 樣本的過取樣和欠取樣 直接基於原始訓練集進行學習,但在用訓練好的分類器進行 時,將y 1 y嵌入到決策過程中,稱為 ...

邏輯回歸演算法梳理

區別 線性回歸主要用來解決連續值 的問題,邏輯回歸用來解決分類的問題,輸出的屬於某個類別的概率。面對乙個回歸或者分類問題,建立代價函式,然後通過優化方法迭代求解出最優的模型引數,然後測試驗證我們這個求解的模型的好壞 正則化方法 正則化是結構風險最小化策略的實現,是在經驗風險上加乙個正則化項或懲罰項。...

邏輯回歸演算法梳理

邏輯回歸和線性回歸的聯絡和區別 邏輯回歸和線性回歸都屬於廣義線性回歸模型。二者的區別如下 1.線性回歸要求變數服從正態分佈,邏輯回歸對變數分布沒有要求。2.線性回歸要求因變數是連續性數值變數,而邏輯回歸要求因變數是分型別變數。3.線性回歸要求自變數和因變數呈線性關係,而邏輯回歸不要求。4.線性回歸直...