一次線性回歸分析詳解及推導

我們需要根據乙個人的工作年限來**他的薪酬（我們假設乙個人的薪酬只要工作年限有關係）。

首先引入必要的類庫，並且獲得trainning data。

import tensorflow as tf
import pandas as pd
import numpy as np

unrate = pd.read_csv('sd.csv')
print(unrate)

year salary 0 1.0 39451 1 1.2 46313 2 1.4 37839 3 1.9 43633 4 2.1 39999 .. ... ... 85 12.0 106247 86 12.5 117634 87 12.6 113300 88 13.3 123056 89 13.5 122537 [90 rows x 2 columns]

接著，我們用matplotlib繪製出工作年限和薪酬之間的關係的點狀圖，方便我們更加直觀的感受他們之間的關係。

根據上圖的關係，我們可以看到：他們基本上還是成正相關的。考慮到只有一維資料，我們假定存在乙個函式，可以描述工作年限和薪酬之間的關係。我們假定該函式為：$$ \hat = wx+b $$

$ \hat $即為我們根據模型**出來的數值。 $ \hat(y) $ 和實際數值y 之間的距離，即為我們**的偏差值。即：$$ loss = \sum_^ (y_i- \hat y_i)^2$$

我們先隨機的挑選w 和b ，並且計算一下loss。同時繪製出來**的數值與原來的數值。

我們可以看到差距還是比較大的。

那麼該怎麼求w和b呢？

而我們工作的本質上就在尋找合適的w和b，從而達到loss最小。也就是找 $ loss = \sum_^ (y_i- \hat y_i)^2$的最小值。

單純的從數學上來看。尋找乙個函式的極值，就是找到它導數為0的駐點，然後去判斷哪些駐點為最小值。

我們把 $ \hat(y)$的計算公式帶入 loss中，我們得到

\[loss = \sum_^ (y_i-wx-b)^2

\]我們對這個函式求導函式得到

\[\frac=\frac}*\frac}

\]\[\frac=-2\sum_^((y_i-\hat_i)*\frac}) = -2\sum_^((y_i-\hat_i)x_i)

\]\[\frac = -2\sum_^(\frac_i}* \frac_i})=-2\sum_^(y_i-\hat_i)

\]如果直接這樣解方程，求出最小值，當然也可以，但是通用性不夠。所以用了另外一種方式：叫做梯度下降的方式去求解。

關於梯度下降，我後面再進行**和學習，現在只是簡單的理解其中的含義。

簡單的理解，就是在乙個凸函式中，隨機的選擇乙個點，然後算出這個點的斜率，然後讓這個點減去斜率*乙個速率，然後這個點就會向著最低點移動，直到到達最低點的時候，斜率=0，所以便不再變化。這樣的話，我們得到乙個通用的辦法，就不用解方程了，任何函式，只要我們得到他的導函式，然後隨機乙個點，重複梯度下降的步驟，就可以得到最合適的數值。

def train(w, b):
learning_rate = 0.0001
dw = np.sum((np.power(unrate['year'],2)* w -np.transpose(unrate['salary']-b)*unrate['year']))
db = np.sum(unrate['salary']-(unrate['year']*w-b))
temp_w = w - learning_rate * dw
temp_b = b - learning_rate * db
w = temp_w
b = temp_b
return w, b

我們先來train一次，看看效果

w,b = train(w,b)

y_pred = (unrate['year']*w + b)
loss = np.power((unrate['year']*w + b)-unrate['salary'],2).sum()
plt.scatter(unrate['year'],unrate['salary'])
plt.plot(unrate['year'],y_pred)
plt.show()
print(w)
print(b)
print(loss)

[5430.27093385]
[-755.1422668]
246914588144.68262

看到有明顯的效果，我們來多嘗試幾次試試

我們可以看到已經擬合出來一條直線，基本擬合了訓練的資料，這個時候，給定乙個x值，我們都可以**乙個$\hat$

x = 20
y_hat = w*x+b
print(y_hat)

[250902.4109859]

但是從圖中，我們可以看出來，擬合出來的直線，很明顯不能非常完美的貼合所有的資料。可能這些資料的分布，不是呈簡單線性相關。有可能是乙個曲線或者拋物線的形式。隨後，我講嘗試進行多元的擬合。

一次線性回歸分析詳解及推導

一次線性回歸擬合二次線性回歸擬合

線性回歸模型原理及推導

python一元一次線性回歸

一次線性回歸分析詳解及推導

一次線性回歸擬合 二次線性回歸擬合

線性回歸模型原理及推導

python一元一次線性回歸

相關推薦

一次線性回歸擬合二次線性回歸擬合