線性回歸基礎知識

理解什麼是線性回歸

線性回歸也被稱為最小二乘法回歸（linear regression, also called ordinary least-squares (ols) regression）。它的數學模型是這樣的：

y = a+ b* x＋e

其中，a被稱為常數項或截距；b被稱為模型的回歸係數或斜率；e為誤差項。a和b是模型的引數。

當然，模型的引數只能從樣本資料中估計出來：

y'= a' + b'* x

我們的目標是選擇合適的引數，讓這一線性模型最好地擬合觀測值。擬合程度越高，模型越好。

模型估計出來後，我們要回答的問題是：

1. 我們的模型擬合程度如何？或者說，這個模型對因變數的解釋力如何？（r2）

2. 整個模型是否能顯著**因變數的變化？（f檢驗）

3. 每個自變數是否能顯著**因變數的變化？（t檢驗）

ssa代表由自變數x引起的y的離差平方和，即回歸平方和，代表回歸模型的解釋力；sse代表由隨機因素引起的y的離差平方和，即剩餘平方和，代表回歸模型未能解釋的部分；sst為總的離差平方和，即我們僅憑y的平均值去估計y時所產生的誤差。

用模型能夠解釋的變異除以總的變異就是模型的擬合程度：

r2=ssa/sst=1-sse

r2（r的平方）也被稱為決定係數或判定係數。

第二個問題，我們的模型是否顯著**了y的變化？

假設y與x的線性關係不明顯，那麼ssa相對sse占有較大的比例的概率則越小。換句話說，在y與x無線性關係的前提下，ssa相對sse的佔比越高的概率是越小的，這會呈現一定的概率分布。統計學家告訴我們它滿足f分布，就像這樣：

如果ssa相對sse佔比較大的情況出現了，比如根據f分布，這個值出現的概率小於5%。那麼，我們最好是拒絕y與x線性關係不顯著的原始假設，認為二者存在顯著的線性關係較為合適。

第三個問題，每個自變數是否能顯著**因變數的變化？換句話說，回歸係數是否顯著？

回歸係數的顯著性檢驗是圍繞回歸係數的抽樣分布（t分布）來進行的，推斷過程類似於整個模型的檢驗過程，不贅言。

實際上，對於只有乙個自變數的一元線性模型，模型的顯著性檢驗和回歸係數的檢驗是一致的，但對於多元線性模型來說，二者就不能等價了。

from：