Logistic回歸百問

logistic優點：

模型簡單，速度快，適合二分類問題

簡單易於理解，直接看到各個特徵的權重

能容易地更新模型吸收新的資料

logistic缺點：

logistic是個弱分類器，對資料和場景的適應能力有侷限性，不如決策樹演算法學習能力那麼強

可以從兩個方面解釋解釋這個問題：

如果使用平方損失，那麼logistic的損失函式會出現較多區域性極小值，這樣在模型迭代過程中，容易陷入較差的區域性極小值，不利於模型迭代。

而交叉熵損失函式在此問題上性質相對較好，具體可參考如下：

邏輯回歸演算法之交叉熵函式理解

sigmoid函式將輸入值擠壓到[0,1]區間，比較適合分類問題

sigmoid函式任意階可導，並且一二階導數不用求導，可以直接通過原sigmoid函式直接計算，性質優異，比較實用

廣義模型推導所得

滿足統計的最大熵模型

可以借助核技巧實現非線性分類，核技巧能將原始的線性輸入空間對映為高維度非線性輸入特徵空間，就像svm借助的高斯核。

在工業界，很少直接將連續值作為特徵餵給邏輯回歸模型，而是將連續特徵離散化為一系列0、1特徵交給邏輯回歸模型，這樣做的優勢有以下幾點：

稀疏向量內積乘法運算速度快，計算結果方便儲存，容易scalable（擴充套件）。

離散化後的特徵對異常資料有很強的魯棒性：比如乙個特徵是年齡》30是1，否則0。如果特徵沒有離散化，乙個異常資料「年齡300歲」會給模型造成很大的干擾。

邏輯回歸屬於廣義線性模型，表達能力受限；單變數離散化為n個後，每個變數有單獨的權重，相當於為模型引入了非線性，能夠提公升模型表達能力，加大擬合。

離散化後可以進行特徵交叉，由m+n個變數變為m*n個變數，進一步引入非線性，提公升表達能力。

特徵離散化後，模型會更穩定，比如如果對使用者年齡離散化，20-30作為乙個區間，不會因為乙個使用者年齡長了一歲就變成乙個完全不同的人。當然處於區間相鄰處的樣本會剛好相反，所以怎麼劃分區間是門學問。

以上解釋參考：邏輯回歸lr的特徵為什麼要先離散化

logistic回歸 logistic回歸

logistic回歸 logistic回歸分析可用於估計某個事件發生的可能性，這是乙個分類模型而不是乙個回歸模型！它的基本思想是利用一條直線將平面上的點分為兩個部分，即兩個類別，要解決的問題就是如何擬合出這條直線，這個擬合的過程就稱之為回歸 logistic模型假設你有乙個需要的內容，要通過三...

logistic分類（logistic回歸 LR）

幾乎所有的教材都是從logistic分類開始的，因為logistic分類實在太經典，而且是神經網路的基本組成部分，每個神經元 cell 都可以看做是進行了一次logistic分類。所謂logistic分類，顧名思義，邏輯分類，是一種二分類法，能將資料分成0和1兩類。logistic分類的流程比較簡單...

Logistic回歸模型

一 logistic回歸模型線性回歸模型要求因變數是連續型正態變數。當因變數是分類變數時，logistic回歸模型是最好的回歸模型。由於y只能取兩個值1或0，y的條件數學期望 e y xi 1 p y 1 xi 0 p y 0 xi p y 1 xi 選擇乙個函式，p y 1 x f x logi...

Logistic回歸百問

logistic回歸 logistic回歸

logistic分類（logistic回歸 LR）

Logistic回歸模型

相關推薦