神經網路和深度學習吳恩達神經網路基礎

簡單的理解就是輸出的結果是兩個離散的值，就像課程中舉的例子：通過輸入一張的資訊，經過一些列的計算，輸出乙個離散的y值，**中是否有貓，當y=1時表示中有貓，反之當y=0時，表示中沒有貓。

我看很多人將這個翻譯成邏輯回歸，而在《機器學習》中，作者認為應該更為準確的叫對數機率回歸，這裡我就不對這兩個翻譯做過多的糾纏，知道就好，我們的重點應該是理解這個概念。

logistic回歸實際上是實現上面所說的二分分類的具體方法，可以這樣理解：線性回歸函式y=wx+b的輸出區間為（-∞，+∞），而二分分類的輸出區間應該是（0，1），用正經的話就是需要乙個函式將區間（-∞，+∞）對映到區間（0，1），當然也可以這樣通俗的理解：需要對線性函式做乙個「整形」手術，而這個「手術刀」就是sigmoid函式，「整形」的過程就是sigmoid（y）。下面給出sigmoid函式的表示式和影象，幫助我們更直觀的理解：

損失函式其實有很多，可能容易想到的就是平方損失函式(y-yˆ)²，但它是乙個非凸的函式，這樣在後面利用梯度下降演算法優化權重引數時，得到的僅僅是區域性的最優解，並不能得到全域性的最優解，如圖所示：

所以在logistic回歸中，我們使用的是對數損失函式：

這是乙個凸函式，可以得到全域性的最優解，那麼怎麼理解這個函式呢？我們可以想這樣2個例子：

①當y=0時，l(yˆ,y) = -log(1-yˆ)，如果要使損失函式盡可能小，即要log(1-y

ˆ)盡可能大，所以y

ˆ要盡可能小，而y

ˆ的取值區間為（0，1），故y

ˆ=0②當y=1時，l(y

ˆ,y) = -logy

ˆ，同樣如果要使損失函式盡可能小，即要log

yˆ盡可能大，所以y

ˆ=1。

所以我們能通過使損失函式盡可能小，來得到我們正確的**值yˆ。

gradient descent optimization（梯度下降）是神經網路訓練中最常用的引數優化演算法。首先要明白梯度是乙個向量，向量我們大家都知道，是能表示方向的，梯度的方向就是函式f增長最快的方向，梯度的反方向即函式f下降最快的方向。比如一元函式的梯度y'（y對x的導數），二元函式的梯度就是（f'x,f'y）（函式f對x、y的偏導），以此可以類推的更多元，這裡給出一元和二元的影象，能夠有更直觀的理解梯度下降：

在logistic回歸中，梯度下降演算法是如何來更新引數w、b的呢？

首先進行正向傳播，得到**結果a，從而計算出損失函式l(a，y)。接下來進行反向傳播，通過求出的dw、db，用w = w - αdw，b = b - αdb來更新引數w、b（α為學習率），當損失函式下降到最小時，引數w、b也就確定下來，模型訓練完成。

向量化在神經網路中非常非常的重要，課程中也花了大量篇幅講為什麼要向量化，但我這裡不想詳細闡述。只需知道：①向量化計算速度更快（for迴圈是線性運算，而向量化後可以並行運算，速度不是乙個數量級的）②編碼更簡單（矩陣的點乘直接用numpy庫中的一行語句就能完成）

這週的課後習題是完成乙個很簡單的神經網路，判斷輸入的中是否有貓，是理論上公升到實踐的乙個很好練手。

神經網路和深度學習吳恩達神經網路基礎

吳恩達神經網路和深度學習

深層神經網路吳恩達神經網路和深度學習學習筆記

吳恩達深度學習神經網路和深度學習

神經網路和深度學習 吳恩達 神經網路基礎

吳恩達神經網路和深度學習

深層神經網路 吳恩達神經網路和深度學習學習筆記

吳恩達 深度學習 神經網路和深度學習

相關推薦

神經網路和深度學習吳恩達神經網路基礎

深層神經網路吳恩達神經網路和深度學習學習筆記

吳恩達深度學習神經網路和深度學習