線性回歸與梯度下降

本次課程分為幾個部分：

1）模型概述

如圖，下圖是乙個房間大小和房子**的dataset，我們可以使用一條直線來模擬這些資料，以便給定指定的x值，可以得到相應的y值

將資料抽象為以下回歸的問題的dataset

首先規定以下數學符號

m 訓練樣本的數量

x 代表特徵/輸入變數

y 代表目標變數/輸出變數

x(i) 代表第乙個樣本

y(i) 代表第i個樣本的輸出

(x(i),y(i)) 代表第i個樣本輸入與輸出

h 代表演算法模型，也成為假設

監督學習演算法的一般模型如下：給定一些輸入，然後輸出一些，換句話說h建立了x到y的對映

對於單變數線性回歸來說，可以給定h為：

2) 損失函式

對於給定的資料集，如何選擇最好的直線（或者超平面）來擬合這個資料，此時需要引進損失函式

從公式來看代表了輸出值與樣本實際值的差的平方和，也就是反映了**與實際相差多少，從這一方面來看，這是比較合理的乙個損失函式

3）梯度下降

梯度下降是用來求最小值的演算法，可以很方便的求出凸函式的最值（極值）

梯度下降基本思想是：開始時我們隨機選擇乙個引數的組合（θ0,θ1,...,θn），計算代價函式，然後我們尋找下乙個能讓代價函式值下降最多的引數組合，我們持續這麼做直到找到乙個區域性最小值，或者達到迭代次數

上圖展示了在不同初試位置，沿著不同的梯度下降路線，找到不同的區域性最優解。所有乙個初始值不同，對於不同的數學函式可能得到不同的區域性最優解，但是幸運的是，上面出現的損失函式是乙個凸函式，所有無論在什麼初試位置，最後的結果都是一樣。

批梯度下降公式為：

其中α是指學習速率，它決定了我們沿著能讓代價函式下降程度最大的方向向下邁出的步子有多大，在批量梯度下降中，我們每一次都同時讓所有的引數減去學習速率乘以代價函式的導數，其偽**如下

4）α討論

梯度下降規則是

1. 如果α太小，那麼每次在開始位置只移動一小步，需要迭代很多次，花費很長時間才能收斂。

5）梯度下降與線性回歸

現在將梯度下降和線性回歸結合起來有

現在的目標是求的min j(θ),採用梯度下降演算法，故關鍵是求的j(θ)對θ的導數，其推導過程如下

演算法更新為