為什麼回歸直線過平均值點 一元線性回歸分析

2021-10-16 11:24:46 字數 2351 閱讀 9817

回歸模型是一種**性的建模技術,它研究的是因變數(目標)和自變數(**器)之間的關係。這種技術通常用於**分析,時間序列模型以及發現變數之間的因果關係

回歸模型最重要的兩個應用場景就是**分析和因果關係分析,比如我們上學的時候學過的一元一次方程組y = kx + b就是乙個最簡單的回歸模型,當我們知道乙個x時,比如此時的x是月份,就可以通過方程求出這個這個x對應的y,這裡的y可以是銷量,這個通過x求取y的過程就是乙個**的過程。

引數估計是做什麼的呢?是估計什麼引數呢?就是用來估計方程y = kx + b中的k和b的。可能有的人會有這樣的疑問,為什麼要估計呢?而不是直接去算。我們在上學的時候是可以直接去算的,那是因為只有兩個點,通過這兩個點的直線是確定的,所以對應的引數也是固定的。

而在實際應用中,我們的資料點往往都是多個,這多個點往往不在一條直線上,但是呢,我們又希望這些點盡可能的都在一條直線上,所以我們需要找到這麼一條直線,這條直線到每個資料點的距離都很近(接近於0),這樣我們就可以用這條距離每個點都盡可能近的直線來近似表示這些點的乙個趨勢。這條線對應的 k 和 b 就是我們估計出來的引數。

我們在找這一條直線的有乙個原則,就是每個點到這條線的距離盡可能的小,最後讓所有點到直線的距離最小,我們把這種方法稱為最小二乘法,最小二乘法是引數估計的一種方法。

通過上面的引數估計,我們已經得到了一條可以反映資料點趨勢的線,可是這條線到底準確度如何,也就是和實際資料點走勢的擬合程度是怎麼樣的,我們需要來判斷一下。

這裡介紹幾個關於判斷擬合程度的概念。

總平方和(sst):實際值與其平均值之間距離的平方和,可以理解為方差(而非實際方差),用來反映實際值y波動大小的。

回歸平方和(ssr):回歸值(即**出來的y值)與實際值均值之間距離的平方和。這一部分變化是由於自變數的變化引起的,是可以由回歸直線來解釋的。

殘差平方和(sse):回歸值與實際值之間距離的平方和。這一部分是除了自變數影響之外的其他影響因素造成的,屬於不可解釋部分。

sst = ssr + sse,

上述公式表面實際值y的波動情況由兩部分因素決定,一部分是由於自變數x不一樣導致的y的變動(回歸平方和),另一部分是由於除自變數以外的因素決定(殘差平方和)。

我們理想情況下,實際值y的波動盡可能都可能都是因為自變數x變化引起的,而且這個佔比越高越可以說明我們的回歸直線擬合的好。我們把這個指標稱為 r^2 = ssr/sst。

r^2越大,說明擬合度越好,介於[0,1]之間。

通過前面的步驟引數也求出來了,也就是y = kx + b中的 k 和 b 求出來了,那我們是不是就可以直接拿來用了呢?很顯然不太能,為什麼呢?因為你引數估計是根據你現有樣本資料估計出來的,所以直線反映的也是現有資料情況下的趨勢,這些資料的趨勢能否代表全量資料的趨勢呢?我們需要檢驗一下,這就是顯著性檢驗。

回歸直線其實是用來反映 x 和 y 之間的線性關係的,所以我們首先要檢驗的就是線性關係是否顯著,那怎麼來檢驗,還是用我們之前講過的假設檢驗的方法。

我們先假設 x 和 y 之間是沒有線性關係的,如果沒有線性關係是不是k就等於0,那既然這樣總平方和的的波動是不是就完全由殘差平方和決定了,那是不是意味著 ssr/sse 基本為0,這是我們通過如果沒有線性關係這個假設得出來的結論。

還是前面方差分析中提到的,平方和會隨著樣本資料的增加而增加,所以我們就需要把平方和轉換成均方,即平方和/自由度。

在一元線性回歸中,回歸平方和的自由度為1(即自變數的個數),殘差平方和的自由度為n-2。

統計量f

=(ssr/1)/(sse/(n-2))

=msr/mse。

根據樣本資料計算得出f值,確定顯著性水平,查顯著性水平對應的f邊界值,如果f>f邊界值,則拒絕原假設,否則不拒絕原假設。

一元回歸方差主要用來做**,分為點**與區間**,點**就是通過回歸方程**今年12月份的具體銷量是多少;區間**是通過回歸方程得到今年12月份銷量的範圍大概是在哪一區間內。

點**比較簡單,直接把x代入到方程中就可以得出結果。區間**稍微比較複雜一些,但是區間**的本質還是我們之前講過的置信區間聊聊置信度與置信區間的求取,關鍵點就兩個,乙個是樣本均值,乙個是標準差。樣本均值也比較簡單,標準差的公式如下:

福利時刻:

為什麼邏輯回歸要用sigmoid函式

為什麼邏輯回歸要用sigmoid函式 sigmoid是推導出來的,不是假設出來的,lr的假設是兩個類服從均值不等,方差相等的高斯分布,然後通過貝葉斯決策推導 為什麼假設服從高斯分布 1 因為高斯分布是比較容易處理的分布 2 從資訊理論的角度上看,當均值和方差已知時 儘管你並不知道確切的均值和方差,但...

邏輯回歸為什麼使用對數損失函式

在前面介紹的 邏輯回歸是個什麼邏輯 中,我們構建的邏輯回歸模型是 p y 1 x 11 e t x 在模型的數學形式確定後,剩下的就是如何去求解模型中的引數 而在已知模型和一定樣本的情況下,估計模型的引數,在統計學中常用的是極大似然估計方法。即找到一組引數 使得在這組引數下,樣本資料的似然度 概率 ...

神經網路多輸出回歸 為什麼線性回歸也是神經網路

今天我們來講講線性回歸和神經網路的關係。首先說結論,線性回歸其實也是個神經網路,其實不光是線性回歸,多項式回歸,邏輯回歸等等也都可以看成是乙個神經網路。考慮到大家可能對線性回歸或者神經網路的概念有那麼點疑惑,這裡簡單的講講什麼是線性回歸和神經網路。如圖所示,我們可以很輕易的看出來,y軸上的變數正隨著...