機器學習 邏輯回歸

2021-10-22 21:17:49 字數 1976 閱讀 9375

過擬合定義:模型在訓練集上表現的很好,但在測試集和新資料上的表現很差。

訓練集表現

測試集表現

結論不好

不好欠擬合好不好

過擬合好

好適度擬合

產生原因:

模型複雜度過高,引數過多

數量資料較小

訓練集和測試集分布不一致

樣本中的雜訊資料干擾太大,導致模型過分記住雜訊特徵,反而忽略了真是的輸入輸出特徵。

訓練集和測試集特徵部分不一樣(如果訓練集和測試集使用了不同型別的資料集會出現這種情況)

解決方法:

降低模型複雜度

處理過擬合的第一步就是降低模型複雜度。為了降低複雜度,我們可以簡單地移除層或者減少神經元的數量使得網路規模變小。與此同時,計算神經網路中不同層的輸入和輸出維度也十分重要。雖然移除層的數量或神經網路的規模並無通用的規定,但如果你的神經網路發生了過擬合,就嘗試縮小它的規模。

增加更多資料(使用大資料集訓練模型)

正則化:

在損失函式後面加乙個正則化項(l1正則化和l2正則化)

如果資料過於複雜以至於無法準確地建模,那麼l2是更好的選擇,因為它能夠學習資料中呈現的內在模式。而當資料足夠簡單,可以精確建模的話,l1更合適。對於我遇到的大多數計算機視覺問題,l2正則化幾乎總是可以給出更好的結果。然而l1不容易受到離群值的影響。所以正確的正則化選項取決於我們想要解決的問題。

重新清洗資料

把明顯異常的資料剔除

logisticregression的假設函式怎麼得到的?

其函式曲線如下:

從上圖可以看到sigmoid函式是乙個s形的曲線,它的取值在[0, 1]之間,在遠離0的地方函式的值會很快接近0或者1。

邏輯回歸的假設函式形式如下:

所以:其中x是我們的輸入,theta為我們要求取的引數。

乙個機器學習的模型,實際上是把決策函式限定在某一組條件下,這組限定條件就決定了模型的假設空間。當然,我們還希望這組限定條件簡單而合理。而邏輯回歸模型所做的假設是:

logisticregression的損失函式是什麼?

邏輯回歸中sigmoid函式為,可以用sigmoid函式表示0-1中取1的概率,在這裡用於表示邏輯回歸中的概率。邏輯回歸中的樣本值為,樣本中的是用來求概率的,是樣本的真實值,也就是真實類別。在機器學習中,習慣稱為特徵值,為標籤。

對應於0-1分布中的概率,對應於0-1分布中的,也就是樣本值。這樣我們就把邏輯回歸和0-1分布對應起來了。我們用邏輯回歸來作為分類模型,需要用最大似然估計的方法來評判模型的好壞。讓總體分布盡量與樣本的分布趨同,就是總體的分布與樣本分佈具有最大的相似性,然後再來求取模型中的引數,這樣就可以得到比較符合最大似然估計的模型。這個模型其實就是。

根據0-1分布的似然函式,我們可以寫出邏輯回歸的似然函式

對數形式為

邏輯回歸的損失函式為

損失函式跟對數形式的似然函式很像,只是在前面乘以。最大似然估計的方法要求的最大值,損失函式在其前面加上負號,就是求最小值,這個跟損失函式的特性剛好吻合。1/m是用來對m個樣本值的損失函式值取平均,不會影響函式功能。

因此,邏輯回歸的損失函式求最小值,就是根據最大似然估計的方法來的。

logisticregression用什麼演算法求解?怎麼保證全域性最優解?

梯度下降

機器學習 邏輯回歸

邏輯回歸 線性回歸的式子,作為邏輯回歸的輸入 適用場景 二分類 線性回歸的輸入 sigmoid函式 分類 0,1 概率值 計算公式 當目標值為1時 損失函式的變化 當目標值為0時 損失函式的變化 下面用乙個例項來說明邏輯回歸的用法 癌症概率 部分資料的截圖如下 資料描述 699條樣本,供11列資料,...

機器學習 邏輯回歸

coding utf 8 import pandas as pd import seaborn as sns from sklearn.model selection import train test split import matplotlib.pyplot as plt 用於畫圖 from ...

機器學習 邏輯回歸

lr指的是logistic regression,邏輯回歸。而不是linear regression,線性回歸,不要問為什麼,記住它就好了,haha。它是一種監督學習分類演算法,不是回歸演算法!這裡千萬要注意啦。lr常用於二分類問題,0或者1 假如我們有一堆二維資料,也就是這堆資料有2個特徵x1和x...