神經網路和深度學習 吳恩達 神經網路基礎

2021-08-20 18:40:28 字數 1912 閱讀 9431

簡單的理解就是輸出的結果是兩個離散的值,就像課程中舉的例子:通過輸入一張的資訊,經過一些列的計算,輸出乙個離散的y值,**中是否有貓,當y=1時表示中有貓,反之當y=0時,表示中沒有貓。

我看很多人將這個翻譯成邏輯回歸,而在《機器學習》中,作者認為應該更為準確的叫對數機率回歸,這裡我就不對這兩個翻譯做過多的糾纏,知道就好,我們的重點應該是理解這個概念。

logistic回歸實際上是實現上面所說的二分分類的具體方法,可以這樣理解:線性回歸函式y=wx+b的輸出區間為(-∞,+∞),而二分分類的輸出區間應該是(0,1),用正經的話就是需要乙個函式將區間(-∞,+∞)對映到區間(0,1),當然也可以這樣通俗的理解:需要對線性函式做乙個「整形」手術,而這個「手術刀」就是sigmoid函式,「整形」的過程就是sigmoid(y)。下面給出sigmoid函式的表示式和影象,幫助我們更直觀的理解:

損失函式其實有很多,可能容易想到的就是平方損失函式(y-yˆ)²,但它是乙個非凸的函式,這樣在後面利用梯度下降演算法優化權重引數時,得到的僅僅是區域性的最優解,並不能得到全域性的最優解,如圖所示:

所以在logistic回歸中,我們使用的是對數損失函式

這是乙個凸函式,可以得到全域性的最優解,那麼怎麼理解這個函式呢?我們可以想這樣2個例子:

①當y=0時,l(yˆ,y) = -log(1-yˆ),如果要使損失函式盡可能小,即要log(1-y

ˆ)盡可能大,所以y

ˆ要盡可能小,而y

ˆ的取值區間為(0,1),故y

ˆ=0②當y=1時,l(y

ˆ,y) = -logy

ˆ,同樣如果要使損失函式盡可能小,即要log

yˆ盡可能大,所以y

ˆ=1。

所以我們能通過使損失函式盡可能小,來得到我們正確的**值yˆ

gradient descent optimization(梯度下降)是神經網路訓練中最常用的引數優化演算法。首先要明白梯度是乙個向量,向量我們大家都知道,是能表示方向的,梯度的方向就是函式f增長最快的方向,梯度的反方向即函式f下降最快的方向。比如一元函式的梯度y'(y對x的導數),二元函式的梯度就是(f'x,f'y)(函式f對x、y的偏導),以此可以類推的更多元,這裡給出一元和二元的影象,能夠有更直觀的理解梯度下降:

在logistic回歸中,梯度下降演算法是如何來更新引數w、b的呢?

首先進行正向傳播,得到**結果a,從而計算出損失函式l(a,y)。接下來進行反向傳播,通過求出的dw、db,用w = w - αdw,b = b - αdb來更新引數w、b(α為學習率),當損失函式下降到最小時,引數w、b也就確定下來,模型訓練完成。

向量化在神經網路中非常非常的重要,課程中也花了大量篇幅講為什麼要向量化,但我這裡不想詳細闡述。只需知道:①向量化計算速度更快(for迴圈是線性運算,而向量化後可以並行運算,速度不是乙個數量級的)②編碼更簡單(矩陣的點乘直接用numpy庫中的一行語句就能完成)

這週的課後習題是完成乙個很簡單的神經網路,判斷輸入的中是否有貓,是理論上公升到實踐的乙個很好練手。

吳恩達神經網路和深度學習

課程名稱 神經網路和深度學習 andrew ng 神經網路和深度學習 1 什麼是神經網路 傳送門 神經網路和深度學習 2 啟用函式 傳送門 神經網路和深度學習 3 神經網路輸入的表示 傳送門 神經網路和深度學習 4 符號約定 傳送門 神經網路和深度學習 5 邏輯回歸 傳送門 神經網路和深度學習 6 ...

深層神經網路 吳恩達神經網路和深度學習學習筆記

l2正則化又被稱作權重衰減,因為相當於在為正則化的基礎上將之前的 正則化為啥能降低過擬合?正則化會使一部分引數接近於0,相當於降低了一些隱藏層單元的影響,相對是模型變得簡單 因為神經網路使用了非線性啟用函式,但是當w比較小時,z通常也會比較小,對有些啟用函式來說會相對集中在近線性區,例如tanh中紅...

吳恩達 深度學習 神經網路和深度學習

二分類問題是一種簡單分類問題,其輸出結果是兩個離散值。假如給定一副貓的,那麼二分類問題就可描述為 判別這幅影象中是否有貓?分類結果也只有1 表示存在 0 表示不存在 兩種。符號定義 x 表示乙個nx維資料,為輸入資料,維度為 nx,1 y 表示輸出結果,取值為 0,1 x i y i 表示第i組資料...