機器學習邏輯回歸

過擬合定義:模型在訓練集上表現的很好，但在測試集和新資料上的表現很差。

訓練集表現

測試集表現

結論不好

不好欠擬合好不好

過擬合好

好適度擬合

產生原因:

模型複雜度過高，引數過多

數量資料較小

訓練集和測試集分布不一致

樣本中的雜訊資料干擾太大，導致模型過分記住雜訊特徵，反而忽略了真是的輸入輸出特徵。

訓練集和測試集特徵部分不一樣(如果訓練集和測試集使用了不同型別的資料集會出現這種情況)

解決方法:

降低模型複雜度

處理過擬合的第一步就是降低模型複雜度。為了降低複雜度，我們可以簡單地移除層或者減少神經元的數量使得網路規模變小。與此同時，計算神經網路中不同層的輸入和輸出維度也十分重要。雖然移除層的數量或神經網路的規模並無通用的規定，但如果你的神經網路發生了過擬合，就嘗試縮小它的規模。

增加更多資料(使用大資料集訓練模型)

正則化：

在損失函式後面加乙個正則化項(l1正則化和l2正則化)

如果資料過於複雜以至於無法準確地建模，那麼l2是更好的選擇，因為它能夠學習資料中呈現的內在模式。而當資料足夠簡單，可以精確建模的話，l1更合適。對於我遇到的大多數計算機視覺問題，l2正則化幾乎總是可以給出更好的結果。然而l1不容易受到離群值的影響。所以正確的正則化選項取決於我們想要解決的問題。

重新清洗資料

把明顯異常的資料剔除

logisticregression的假設函式怎麼得到的？

其函式曲線如下：

從上圖可以看到sigmoid函式是乙個s形的曲線，它的取值在[0, 1]之間，在遠離0的地方函式的值會很快接近0或者1。

邏輯回歸的假設函式形式如下：

所以：其中x是我們的輸入，theta為我們要求取的引數。

乙個機器學習的模型，實際上是把決策函式限定在某一組條件下，這組限定條件就決定了模型的假設空間。當然，我們還希望這組限定條件簡單而合理。而邏輯回歸模型所做的假設是：

logisticregression的損失函式是什麼?

邏輯回歸中sigmoid函式為，可以用sigmoid函式表示0-1中取1的概率，在這裡用於表示邏輯回歸中的概率。邏輯回歸中的樣本值為，樣本中的是用來求概率的，是樣本的真實值，也就是真實類別。在機器學習中，習慣稱為特徵值，為標籤。

對應於0-1分布中的概率，對應於0-1分布中的，也就是樣本值。這樣我們就把邏輯回歸和0-1分布對應起來了。我們用邏輯回歸來作為分類模型，需要用最大似然估計的方法來評判模型的好壞。讓總體分布盡量與樣本的分布趨同，就是總體的分布與樣本分佈具有最大的相似性，然後再來求取模型中的引數，這樣就可以得到比較符合最大似然估計的模型。這個模型其實就是。

根據0-1分布的似然函式，我們可以寫出邏輯回歸的似然函式

對數形式為

邏輯回歸的損失函式為

損失函式跟對數形式的似然函式很像，只是在前面乘以。最大似然估計的方法要求的最大值，損失函式在其前面加上負號，就是求最小值，這個跟損失函式的特性剛好吻合。1/m是用來對m個樣本值的損失函式值取平均，不會影響函式功能。

因此，邏輯回歸的損失函式求最小值，就是根據最大似然估計的方法來的。

logisticregression用什麼演算法求解?怎麼保證全域性最優解?

梯度下降

機器學習 邏輯回歸

機器學習 邏輯回歸

機器學習 邏輯回歸

機器學習 邏輯回歸

相關推薦

機器學習邏輯回歸

機器學習邏輯回歸

機器學習邏輯回歸

機器學習邏輯回歸