回歸最佳擬合直線與區域性線性回歸

回歸可以做任何事，例如銷售量**或者製造缺陷**。

具體的做法是用回歸係數乘以輸入值，再將結果全部加在一起，就得到了**值。其中，求回歸係數的過程就是回歸，一旦有了回歸係數，再給定輸入，做**就很容易了。

1. 收集資料

2. 準備資料

3. 分析資料

4. 訓練演算法：找到回歸係數

5. 測試演算法：可使用**值和資料的擬合度，來分析模型的效果

6. 使用演算法：使用回歸，可在給定輸入的時候**出乙個數值

怎樣求出回歸方程？假設手裡有一些x和對應的y，怎樣才能找到回歸係數w呢？乙個常用的方法就是找出使**值和實際值誤差最小的w。這裡的誤差即**y值和實際y值之間的差值，即 y-wx ,但若使用該誤差的簡單累加將使得正差值和負差值相互抵消，所以在此我們採用平方誤差，計算所有點的平方誤差之和，即：

用矩陣表示還可以寫做：

如果對w求導，便可得到：

令其等於0，解出w如下：

（上述過程可由最小二乘法解出）

從現有資料上估計出的w可能並不是資料中的真是w值，w上方的小標記表示它僅是w的乙個最佳估計。

上述公式中包含求逆矩陣，因此此方程僅在逆矩陣存在時使用。逆矩陣可能並不存在，因此需要在**中做出判斷。

具體執行**如下：

1.匯入需要使用的庫：

from numpy import *
import numpy as np

2.讀取資料：

def loaddataset(filename):
numfeat = len(open(filename).readline().split('\t')) - 1
print(numfeat)
datamat = ; labelmat = 
fr = open(filename)
for line in fr.readlines():
linearr = 
curline = line.strip().split('\t')
for i in range(numfeat):
return datamat,labelmat

3.計算回歸係數：

def standregres(xarr, yarr):
xmat = mat(xarr); ymat = mat(yarr).t
xtx = xmat.t*xmat
if linalg.det(xtx) == 0.0:
print("this matrix is singular,cannot do inverse")
return
ws = xtx.i*(xmat.t*ymat)
return ws

4.依據回歸方程**資料值：

xmat = mat(xarr)
ymat = mat(yarr)
yhat = xmat * ws

5.計算相關係數，測試演算法：

yhat = xmat * ws
corrcoef(yhat.t,ymat)

6.用matplotlib繪出圖表：

import matplotlib.pyplot as plt
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(xmat[:,1].flatten().a[0],ymat.t[:,0].flatten().a[0])
xcopy = xmat.copy()
xcopy.sort(0)
yhat = xcopy * ws
ax.plot(xcopy[:,1],yhat)
plt.show()

7.最終輸出圖表：

至此，完整的最佳擬合直線線性回歸結束。

優點：計算簡單，結果易於理解

缺點：對非線性的資料擬合不好

適用資料型別：數值型和標稱型資料

因為線性回歸最佳擬合直線的方法求的是具有最小均方誤差的無偏估計，對於非線性資料，有可能出現欠擬合的現象，無法取得最好的**效果，因此，允許在估計中引入一些偏差，從而降低**的均方誤差。

其中乙個方法是區域性加權線性回歸，在該演算法中，我們給待**點附近的每個點賦予一定的權重，然後與最佳擬合直線回歸類似，在這個子集上基於最小均方差來進行普通的回歸。該演算法對應的回歸係數w的形式如下：

在此，我們使用核來對附近的點賦予更高的權重。核的型別可自由選擇，最常用的是高斯核，高斯核對應的權重如下：

這樣就構建了乙個權重矩陣w，並且點 x 與 x(i) 越近，w(i,i) 越大。上述公式包含了乙個需使用者指定的引數k，它決定了對附近的點賦予多大的權重。若選取k值過大，則會導致欠擬合，k值過小則考慮了太多的雜訊，進而導致過擬合現象，在此案例中，我們選擇k=0.003。

具體的執行**只需在最佳擬合直線的基礎上改用新的方法去求回歸係數w，並且最終**資料值：

1.定義乙個函式，可求出回歸係數與輸入資料的積：

def lwlr(testpoint , xarr , yarr ,k = 1.0):
xmat = np.mat(xarr); ymat = np.mat(yarr).t
m = np.shape(xmat)[0]
weights = np.mat(eye((m)))
for j in range(m):
diffmat = testpoint - xmat[j,:]
weights[j,j] = exp(diffmat * diffmat.t / (-2.0 * k ** 2))
xtx = xmat.t * (weights * xmat)
if linalg.det(xtx) == 0.0:
print('this matrix is singular , cannot do inverse')
return
ws = xtx.i * (xmat.t * (weights * ymat))
return testpoint * ws

2.呼叫函式，**資料值：

def lwlrtest(testarr,xarr,yarr,k = 1.0):
m = np.shape(testarr)[0]
yhat = np.zeros(m)
for i in range(m):
yhat[i] = lwlr(testarr[i],xarr,yarr,k)
return yhat

3.呼叫函式，用matplotlib畫出圖表：

yhat = lwlrtest(xarr,xarr,yarr,0.003)
srtind = xmat[:,1].argsort(0)
xsort = xmat[srtind][:,0,:]

fig = plt.figure()
ax = fig.add_subplot(111)
ax.plot(xsort[:,1],yhat[srtind])
ax.scatter (xmat[:,1].flatten().a[0],np.mat(yarr).t.flatten().a[0],s=2,c='red')
plt.show()

4.最終輸出區域性加權回歸函式圖：

區域性加權線性回歸也存在乙個問題，即增加了計算量，因為它對每個點做**時都必須使用整個資料集。我們選取k=0.01可以得到很好的估計，但同時可以發現大多數資料點的權重都接近零。如果避免這些計算將可以減少程式執行時間，從而緩解因計算量增加帶來的問題。

回歸 最佳擬合直線與區域性線性回歸

線性回歸 4 欠擬合 過擬合與區域性加權線性回歸

區域性線性回歸

區域性線性回歸

相關推薦

回歸最佳擬合直線與區域性線性回歸

線性回歸 4 欠擬合過擬合與區域性加權線性回歸