Logistic回歸百問

2021-10-09 16:38:07 字數 1102 閱讀 5921

logistic優點

模型簡單,速度快,適合二分類問題

簡單易於理解,直接看到各個特徵的權重

能容易地更新模型吸收新的資料

logistic缺點

logistic是個弱分類器,對資料和場景的適應能力有侷限性,不如決策樹演算法學習能力那麼強

可以從兩個方面解釋解釋這個問題:

如果使用平方損失,那麼logistic的損失函式會出現較多區域性極小值,這樣在模型迭代過程中,容易陷入較差的區域性極小值,不利於模型迭代。

而交叉熵損失函式在此問題上性質相對較好,具體可參考如下:

邏輯回歸演算法之交叉熵函式理解

sigmoid函式將輸入值擠壓到[0,1]區間,比較適合分類問題

sigmoid函式任意階可導,並且一二階導數不用求導,可以直接通過原sigmoid函式直接計算,性質優異,比較實用

廣義模型推導所得

滿足統計的最大熵模型

可以借助核技巧實現非線性分類,核技巧能將原始的線性輸入空間對映為高維度非線性輸入特徵空間,就像svm借助的高斯核。

在工業界,很少直接將連續值作為特徵餵給邏輯回歸模型,而是將連續特徵離散化為一系列0、1特徵交給邏輯回歸模型,這樣做的優勢有以下幾點:

稀疏向量內積乘法運算速度快,計算結果方便儲存,容易scalable(擴充套件)。

離散化後的特徵對異常資料有很強的魯棒性:比如乙個特徵是年齡》30是1,否則0。如果特徵沒有離散化,乙個異常資料「年齡300歲」會給模型造成很大的干擾。

邏輯回歸屬於廣義線性模型,表達能力受限;單變數離散化為n個後,每個變數有單獨的權重,相當於為模型引入了非線性,能夠提公升模型表達能力,加大擬合。

離散化後可以進行特徵交叉,由m+n個變數變為m*n個變數,進一步引入非線性,提公升表達能力。

特徵離散化後,模型會更穩定,比如如果對使用者年齡離散化,20-30作為乙個區間,不會因為乙個使用者年齡長了一歲就變成乙個完全不同的人。當然處於區間相鄰處的樣本會剛好相反,所以怎麼劃分區間是門學問。

以上解釋參考:邏輯回歸lr的特徵為什麼要先離散化

logistic回歸 logistic回歸

logistic回歸 logistic回歸分析可用於估計某個事件發生的可能性,這是乙個分類模型而不是乙個回歸模型!它的基本思想是利用一條直線將平面上的點分為兩個部分,即兩個類別,要解決的問題就是如何擬合出這條直線,這個擬合的過程就稱之為 回歸 logistic模型 假設你有乙個需要 的內容,要通過三...

logistic分類(logistic回歸 LR)

幾乎所有的教材都是從logistic分類開始的,因為logistic分類實在太經典,而且是神經網路的基本組成部分,每個神經元 cell 都可以看做是進行了一次logistic分類。所謂logistic分類,顧名思義,邏輯分類,是一種二分類法,能將資料分成0和1兩類。logistic分類的流程比較簡單...

Logistic回歸模型

一 logistic回歸模型 線性回歸模型要求因變數是連續型正態變數。當因變數是分類變數時,logistic回歸模型是最好的回歸模型。由於y只能取兩個值1或0,y的條件數學期望 e y xi 1 p y 1 xi 0 p y 0 xi p y 1 xi 選擇乙個函式,p y 1 x f x logi...