邏輯回歸演算法梳理

2021-09-14 06:47:38 字數 2569 閱讀 9577

**

邏輯回歸和線性回歸的聯絡和區別

邏輯回歸和線性回歸都屬於廣義線性回歸模型。二者的區別如下:

1.線性回歸要求變數服從正態分佈,邏輯回歸對變數分布沒有要求。

2.線性回歸要求因變數是連續性數值變數,而邏輯回歸要求因變數是分型別變數。

3.線性回歸要求自變數和因變數呈線性關係,而邏輯回歸不要求。

4.線性回歸直接分析自變數和因變數的關係,邏輯回歸是分析因變數去某個值的概率和自變數的關係。

邏輯回歸的原理

邏輯回歸的原理的思想基於線性回歸,邏輯回歸演算法是將線性函式的結果對映到了sigmoid函式中。

邏輯回歸的過程大致如下:面對乙個回歸或者分類問題,建立代價函式,然後通過優化方法迭代求解出最優的模型引數,然後對這個模型進行測試驗證它的好壞。

邏輯回歸損失函式推導及優化

損失函式是基於最大似然估計推導的。

正則化與模型評估指標

模型評估指標有以下幾種:

1.誤差平方和

同樣的資料集下,不同的模型求解實際值與理論值的差值的平方之後求和。平方和越小則證明這個模型越好。

2.r-square(決定係數)

分母理解為原始資料的離散程度,分子為**資料和原始資料的誤差,二者相除可以消除原始資料離散程度的影響。

決定係數形象的理解就是通過資料的變化來表徵乙個擬合的好壞。越接近1,則證明擬合能力越強。

3.adjusted r-square(校正決定係數)

n是樣本數量,p是特徵數量,這種方法的優點是消除了樣本數量和特徵數量的影響。

邏輯回歸的優缺點

優點:**結果是在0到1之間的概率;既適用於連續性,也適用於類別性自變數;容易使用,容易解釋。

缺點:準確度並不是很高,很難擬合資料的真實分布;難以處理非線性資料;本身無法篩選特徵。

樣本不均衡問題解決方法

1.過抽樣,欠抽樣

過抽樣(也叫上取樣、over-sampling)方法通過增加分類中少數類樣本的數量來實現樣本均衡,最直接的方法是簡單複製少數類樣本形成多條記錄,這種方法的缺點是如果樣本特徵少而可能導致過擬合的問題;經過改進的過抽樣方法通過在少數類中加入隨機雜訊、干擾資料或通過一定規則產生新的合成樣本,例如smote演算法。

欠抽樣(也叫下取樣、under-sampling)方法通過減少分類中多數類樣本的樣本數量來實現樣本均衡,最直接的方法是隨機地去掉一些多數類樣本來減小多數類的規模,缺點是會丟失多數類樣本中的一些重要資訊。總體上,過抽樣和欠抽樣更適合大資料分布不均衡的情況,尤其是第一種(過抽樣)方法應用更加廣泛。

2.通過正負樣本的懲罰權重解決樣本不均衡

通過正負樣本的懲罰權重解決樣本不均衡的問題的思想是在演算法實現過程中,對於分類中不同樣本數量的類別分別賦予不同的權重(一般思路分類中的小樣本量類別權重高,大樣本量類別權重低),然後進行計算和建模。使用這種方法時需要對樣本本身做額外處理,只需在演算法模型的引數中進行相應設定即可。很多模型和演算法中都有基於類別引數的調整設定,以scikit-learn中的svm為例,通過在class_weight: 中針對不同類別針對不同的權重,來手動指定不同類別的權重。如果使用其預設的方法balanced,那麼svm會將權重設定為與不同類別樣本數量呈反比的權重來做自動均衡處理,計算公式為:n_samples / (n_classes * np.bincount(y))。如果演算法本身支援,這種思路是更加簡單且高效的方法。

3.通過組合/整合方法解決樣本不均衡

組合/整合方法指的是在每次生成訓練集時使用所有分類中的小樣本量,同時從分類中的大樣本量中隨機抽取資料來與小樣本量合併構成訓練集,這樣反覆多次會得到很多訓練集和訓練模型。最後在應用時,使用組合方法(例如投票、加權投票等)產生分類**結果。例如,在資料集中的正、負例的樣本分別為100和10000條,比例為1:100。此時可以將負例樣本(類別中的大量樣本集)隨機分為100份(當然也可以分更多),每份100條資料;然後每次形成訓練集時使用所有的正樣本(100條)和隨機抽取的負樣本(100條)形成新的資料集。如此反覆可以得到100個訓練集和對應的訓練模型。這種解決問題的思路類似於隨機森林。在隨機森林中,雖然每個小決策樹的分類能力很弱,但是通過大量的「小樹」組合形成的「森林」具有良好的模型**能力。如果計算資源充足,並且對於模型的時效性要求不高的話,這種方法比較合適。

sklearn引數

sklearn中的邏輯回歸:

在sklearn的邏輯回歸中提供了2種不同的penalty選擇,其中l1相當於lasso回歸,l2相當於ridge回歸。網上很多介紹其基本原理的大神部落格可供參考。

l1相較於l2會使引數矩陣更稀疏,也就是說包含更多的0。

l2的擬合能力要比l1的擬合能力強。

邏輯回歸演算法梳理

邏輯回歸演算法梳理 1 邏輯回歸與線性回歸的聯絡與區別 區別 邏輯回歸 值返回的離散值,線性回歸返回的連續值 聯絡 2 邏輯回歸的原理 邏輯回歸就是這樣的乙個過程 面對乙個回歸或者分類問題,建立代價函式,然後通過優化方法迭代求解出最優的模型引數,然後測試驗證我們這個求解的模型的好壞 3 邏輯回歸損失...

邏輯回歸演算法梳理

其原理是將樣本的特徵和樣本發生的概率聯絡起來。優化方法 模型評估指標 在資料極度偏斜的情況下,分類準確度存在問題,比如 癌症,因此只用分類準確度是遠遠不夠的。引入以下指標,優點 缺點 樣本的過取樣和欠取樣 直接基於原始訓練集進行學習,但在用訓練好的分類器進行 時,將y 1 y嵌入到決策過程中,稱為 ...

邏輯回歸演算法梳理

區別 線性回歸主要用來解決連續值 的問題,邏輯回歸用來解決分類的問題,輸出的屬於某個類別的概率。面對乙個回歸或者分類問題,建立代價函式,然後通過優化方法迭代求解出最優的模型引數,然後測試驗證我們這個求解的模型的好壞 正則化方法 正則化是結構風險最小化策略的實現,是在經驗風險上加乙個正則化項或懲罰項。...