機器學習 單變數線性回歸

2021-10-14 11:21:07 字數 2148 閱讀 1971

線性回歸問題

以房屋交易問題為例,知道房屋平方數,然後估算房屋的**。

這是個回歸問題,其符號標記如下:

m 代表訓練集中樣本的數量

x 代表特徵/輸入變數

y 代表目標變數/輸出變數

(x,y) 代表訓練集中的乙個樣本

(x((i)),y((i))) 代表第i 個樣本

h 代表學習演算法的解決方案或函式也稱為假設(hypothesis)

乙個監督學習演算法的工作方式如下圖所示

training set(訓練集):房價訓練集 ——>餵給learning algorithm(學習演算法)-——>然後輸出乙個函式(h)。最後輸入房屋尺寸大小,讓 h 根據輸入的 x值來得出 y 值,y 值就是對應房子的** 。因此h 是乙個從x 到 y 的函式對映。總的來說,要解決房價**問題,實際上是要將訓練集「喂」給學習演算法,進而學習得到乙個假設h,然後將我們要**的房屋的尺寸作為輸入變數輸入給h,**出該房屋的交易**作為輸出變數輸出為結果

h的 一種可能的表達方式為:h_θ (x)=θ_0+θ_1 x,因為只含有乙個特徵/輸入變數,因此這樣的問題叫作單變數線性回歸問題

代價函式

為模型選擇合適的引數(parameters)θ0 和 θ1。在房價問題這個例子中便是直線的斜率和在y 軸上的截距。

我們選擇的引數決定了這個模型的準確度。模型所**的值與訓練集中實際值之間的差距就是建模誤差(modeling error)。我們的目標就是選擇出使建模誤差的平方和最小的模型引數。 即使得代價函式(cost function)最小。代價函式也被稱作平方誤差函式,誤差平方代價函式是解決回歸問題最常用的手段。

梯度下降

使用梯度下降演算法來求出代價函式j(θ0,θ1) 的最小值。梯度下降主要思想是:開始時隨機選擇乙個引數的組合(θ0,θ1,…,θn ),計算代價函式,然後尋找下乙個能讓代價函式值下降最多的引數組合。持續這麼做直到發現乙個區域性最小值(local minimum),因為並沒有嘗試完所有的引數組合,所以不能確定得到的區域性最小值是否便是全域性最小值(global minimum),選擇不同的初始引數組合,可能會找到不同的區域性最小值

批量梯度下降演算法公式:

在上面公式中 " := "相當於賦值。」=「 是判斷符號。a是學習率(learning rate),它決定了代價函式下降的步伐大小,a越大下降的步子就越大。在批量梯度下降中,每一次都同時讓所有的引數減去學習速率乘以代價函式的導數。 更新θ_0和θ_1 。

關於學習率a的問題?

a太小了,即學習速率太小,步子很小,這樣就需要很多步才能到達全域性最低點。a太大,步子太大。那麼梯度下降法可能會越過最低點,甚至可能無法收斂,甚至發散。但是如果θ1初始化在區域性最低點。那麼意味著區域性最優點的導數將等於零,不管a的大小,梯度下降可以收斂到區域性最低點。

線性回歸演算法

這個演算法有時也稱為批量梯度下降。指在梯度下降的每一步中,都用到了所有的訓練樣本,在計算微分求導項時,我們需要進行求和運算,所以,在每乙個單獨的梯度下降中,我們最終都要計算所有m個訓練樣本求和。

機器學習 單變數線性回歸

1.模型描述 1 常見的字元的意義 2 乙個監督學習演算法的工作方式 2.代價函式 1 什麼是代價函式 平方誤差函式 目標函式 我在網上找了很長時間代價函式的定義,但是準確定義並沒有,我理解的代價函式就是用於找到最優解的目的函式,這也是代價函式的作用。注意 上面的代價函式是二變數的,事實上代價函式可...

機器學習 單變數線性回歸

你有乙個10000平方英呎的房子,現在要進行轉買,能賣多少錢呢?單變數線性回歸,顧名思義是乙個變數對結果產生的影響,例如上題房屋面積對房屋 的影響 回歸是統計學的乙個重要概念,其本意是根據之前的資料 乙個準確的輸出值,解題思路如下 1 定義乙個模型 h x 0 1x,並初始化 0 1的值就會產生乙個...

機器學習 單變數線性回歸

給定房屋面積和房屋 的資料,然後以房屋面積為橫座標,房屋 為縱座標,繪製資料點。通過繪製曲線,獲得房屋房價的模型,根據房屋面積獲得房屋 這就是乙個regression problem 回歸問題 regression指的是根據之前的資料 出乙個準確的輸出值,即predict real valued o...