邏輯斯特回歸和SVM 對比

2021-10-01 20:51:24 字數 2264 閱讀 1530

對於 logisticregression 和 linearsvc,決定正則化強度的權衡引數叫作

c。 c 值越 # 大,對應的正則化越弱。

換句話說,如果引數 c 值較大,那麼 logisticregression 和 # linearsvc 將盡可能將訓練集擬合到最好,而如果 c 值較小,那麼模型更強調使係數向量 # (w)接近於 0。

from sklearn.linear_model import logisticregression

from sklearn.svm import linearsvc

​x, y = mglearn.datasets.make_forge()​

# 畫子圖

fig, axes = plt.subplots(1,

2, figsize=(10

,3))

# 邏輯斯特回歸和svm

for model, ax in

zip(

[linearsvc(

), logisticregression()]

, axes)

: clf = model.fit(x, y)

mglearn.plots.plot_2d_separator(clf, x, fill=

false

, eps=

0.5,

ax=ax, alpha=.7)

mglearn.discrete_scatter(x[:,

0], x[:,

1], y, ax=ax)

ax.set_title(

"{}"

.format

(clf.__class__.__name__)

) ax.set_xlabel(

"feature 0"

) ax.set_ylabel(

"feature 1"

)axes[0]

.legend(

)# 檢視決策邊界

# 我們可以將 logisticregression 和 linearsvc 模型應用到 forge 資料集上,並將線性模型

# 找到的決策邊界視覺化

# 這張圖中, forge 資料集的第乙個特徵位於 x 軸,第二個特徵位於 y 軸,與前面相同。

# 圖中分別展示了 linearsvc 和 logisticregression 得到的決策邊界,都是直線,將頂部歸

# 為類別 1 的區域和底部歸為類別 0 的區域分開了

​# 對於 logisticregression 和 linearsvc,決定正則化強度的權衡引數叫作 c。 c 值越

# 大,對應的正則化越弱。換句話說,如果引數 c 值較大,那麼 logisticregression 和

# linearsvc 將盡可能將訓練集擬合到最好,而如果 c 值較小,那麼模型更強調使係數向量

# (w)接近於 0。

# 引數 c 的作用還有另乙個有趣之處。較小的 c 值可以讓演算法盡量適應「大多數」資料點,

# 而較大的 c 值更強調每個資料點都分類正確的重要性。下面是使用 linearsvc 的圖示

# (圖 2-16):

在左側的圖中, c 值很小,對應強正則化

# 在左側的圖中, c 值很小,對應強正則化。大部分屬於類別 0 的點都位於底部,大部分屬

# 於類別 1 的點都位於頂部。強正則化的模型會選擇一條相對水平的線,有兩個點分類錯

# 誤。在中間的圖中, c 值稍大,模型更關注兩個分類錯誤的樣本,使決策邊界的斜率變大。

# 最後,在右側的圖中,模型的 c 值非常大,使得決策邊界的斜率也很大,現在模型對類

# 別 0 中所有點的分類都是正確的。類別 1 中仍有乙個點分類錯誤,這是因為對這個資料集

# 來說,不可能用一條直線將所有點都分類正確。右側圖中的模型盡量使所有點的分類都正

# 確,但可能無法掌握類別的整體分布。換句話說,這個模型很可能過擬合

邏輯斯特回歸

首先假設得到正樣本的概率為服從形如邏輯斯特分布函式,根據已知的訓練結果及資料,構造聯合概率密度函式,而根據極大似然估計,已經發生的事情為概率最大的事情,所以求對數似然函式的最大,即對數似然函式的負數最小,用梯度下降和擬牛頓法求解,從而得到概率函式的係數,規定概率大於0.5即為正樣本,反之為負樣本。事...

SVM和邏輯回歸的對比

兩種方法都是常見的分類演算法,其中心思想都是增加對分類影響較大的資料點的權重,減少與分類關係較小的資料點的權重。svm的處理方法是只考慮support vectors,也就是和分類最相關的少數點,去學習分類器。而邏輯回歸通過非線性對映,大大減小了離分類平面較遠的點的權重,相對提公升了與分類最相關的資...

邏輯斯蒂回歸

邏輯斯蒂回歸首先研究的是分類問題,所以我們這裡引入的激勵函式是sigmoid函式,所以邏輯斯蒂回歸也叫sigmoid回歸。當然也叫對數機率回歸。邏輯斯蒂回歸是直接對資料的分類的可能性進行建模,而不是假設資料的分布,這就避免了假設資料分布時不均勻所帶來的問題,所以邏輯斯蒂回歸不但可以 類別,還可以得出...