LOESS（區域性加權回歸）

一般來說，兩個變數之間的關係是十分微妙的，僅僅採用簡單的直線、曲線引數方程去描述是不夠的，所以這時候就需要非引數回歸。關於非引數和引數方法的區別，就是在分析之前有沒有對**做一些限制，比如認為特徵和響應變數之間具有線性關係，可以通過線性方程擬合，我們只需要求出方程的係數就是引數方法，比如之前提到的線性回歸、多項式回歸等等，而如果直接從資料出發進行分析就是非引數方法。正正因為沒有限制，所以非引數方法擬合得到的曲線可以更好地描述變數之間的關係，不管是多麼複雜的曲線關係都能擬合得到。

loess（locally weighted regression）是一種用於區域性回歸分析的非引數方法，它主要是把樣本劃分成乙個個小區間，對區間中的樣本進行多項式擬合，不斷重複這個過程得到在不同區間的加權回歸曲線，最後再把這些回歸曲線的中心連在一起合成完整的回歸曲線，具體過程如下：

· 決定擬合點的數量和位置

· 以擬合點為中心，確定k個最接近的點

· 通過權重函式計算這k個點的權重

· 通過加權線性回歸進行多項式擬合（一次或者二次）

· 對所有擬合點重複以上步驟

關於權重的確定，這裡需要說明一下，首先它需要確定區間內的點到擬合的點的距離，這個距離指x軸的距離，我們還要找到區間內最大的距離，然後對其他距離做歸一化處理：

w i ( x 0 ) = w ( ∣ x 0 − x i ∣ δ ( x 0 ) ) w_i(x_0) = w(\frac)wi(x0)=w(δ(x0)∣x0−xi∣)

這個權重是離擬合點的距離越近就越小，所以我們就需要做乙個轉化，比如用tricube weight function：

w ( u ) = ( 1 − u 3 ) 3 w(u) = (1 - u^3)^3w(u)=(1−u3)3

指數可以選擇二次（b函式）或三次（w函式），三次方對周圍權值的降速更快，平滑效果更好，切適用於大多數分布，但增加了殘差的方差，一般來說，第一次迭代會更多實用w函式，第二次迭代會選擇b函式。

關於對區間內的散點進行加權線性回歸進行擬合，之所以我們這裡採取加權線性回歸而不是普通的線性回歸，是因為考慮到對擬合點，它附近的點的取值對擬合線的影響應該更大，遠一點的點的影響更小，所以我們要定義損失函式的時候，應該優先降低附近的點與擬合直線的誤差，這也就是我們對普通的最小二乘法要加上權重的原因，實際上這就是加權最小二乘法：

j ( a , b ) = 1 n ∑ i = 1 n w i ( y i − a x i − b ) 2 j(a,b) = \frac \sum_^n w_i(y_i -ax_i -b)^2j(a,b)=n1i=1∑nwi(yi−axi−b)2

可以看到，損失函式加上權重之後，我們在最小化損失函式時，就會更多地考慮權重大的點，希望他們更優，這樣擬合出來的結果，自然就更加偏向權重大的點了，也就是說，距離擬合點更近距離的散點，對擬合直線的影響更大。

以上就是loess的基本思路。

LOESS（區域性加權回歸）

區域性加權回歸LOESS

區域性加權回歸

區域性加權回歸

相關推薦