吳恩達機器學習筆記三

梯度下降是乙個用來求函式最小值的演算法，我們將使用梯度下降演算法來求出代價函式j(θ

0,θ1

)j(\theta_0,\theta_1)

j(θ0,

θ1)

的最小值。

這裡可以想象一下下山的畫面

假如你正站立在你想象的公園這座紅色山上，在梯度下降演算法中，我們要做的就是旋轉 360 度，看看我們的周圍，並問自己要在某個方向上，用小碎步盡快下山。這些小碎步需要朝什麼方向？如果我們站在山坡上的這一點，你看一下周圍，你會發現最佳的下山方向，你再看看周圍，然後再一次想想，我應該從什麼方向邁著小碎步下山？然後你按照自己的判斷又邁出一步，重複上面的步驟，從這個新的點，你環顧四周，並決定從什麼方向將會最快下山，然後又邁進了一小步，並依此類推，直到你接近區域性最低點的位置（區域性最優）。

批量梯度下降的公式：

其中α

\alpha

α是學習率它決定了我們沿著能讓代價函式下降程度最大的方向向下邁出的步子有多大，在批量梯度下降中，我們每一次都同時讓所有的引數減去學習速率乘以代價函式的導數。

在梯度下降演算法中，還有乙個更微妙的問題，梯度下降中，我們要更新θ

0\theta_0

θ0和θ

1\theta_1

θ1 ，當 j= 0和j = 1時，會產生更新，所以你將更新j(θ

0)j(\theta_0)

j(θ0)

和j (θ

1)j(\theta_1)

j(θ1)

。實現梯度下降演算法的微妙之處是，在這個表示式中，如果你要更新這個等式，你需要同時更新θ

0\theta_0

θ0和θ

1\theta_1

θ1，更新方法如下圖所示：

梯度下降演算法

讓我們看看這條紅色直線的斜率，就是這條剛好與函式曲線相切的這條直線，這條直線的斜率正好是這個三角形的高度除以這個水平長度，現在，這條線有乙個正斜率，也就是說它有正導數，因此，我得到的新的θ

0\theta_0

θ0， θ

1\theta_1

θ1更新後等於θ

1\theta_1

θ1減去乙個正數乘以α

\alpha

α。假設 θ

1\theta_1

θ1在左邊的時候，我得到的新的θ

0\theta_0

θ0， θ

1\theta_1

θ1更新後等於θ

1\theta_1

θ1減去乙個負數數乘以α

\alpha

α，最終的目的就是求最小值。

其中α

\alpha

α是學習速率，相當於下山的時候邁的步子，當然如何選取乙個合適的學習速率是非常重要的：1.如果α

\alpha

α太小了，即我的學習速率太小，結果就是只能這樣像小寶寶一樣一點點地挪動，去努力接近最低點，這樣就需要很多步才能到達最低點，所以如果α

\alpha

α太小的話，可能會很慢，因為它會一點點挪動，它會需要很多步才能到達全域性最低點。

2.如果α

\alpha

α太大，那麼梯度下降法可能會越過最低點，甚至可能無法收斂，下一次迭代又移動了一大步，越過一次，又越過一次，一次次越過最低點，直到你發現實際上離最低點越來越遠，所以，如果α

\alpha

α太大，它會導致無法收斂，甚至發散。

梯度下降演算法和線性回歸演算法比較如圖：

對我們之前的線性回歸問題運用梯度下降法，關鍵在於求出代價函式的導數，即：

這種演算法也稱為批量梯度下降（因為在每次一次更新中，都要對m個訓練樣本求和）。

吳恩達機器學習筆記三

吳恩達機器學習筆記

吳恩達機器學習筆記

吳恩達機器學習筆記（1）

相關推薦