多元線性回歸模型檢驗 續上篇

2021-10-04 13:13:13 字數 1219 閱讀 8272

只要有p值的出現,樣本量不超過5000,比如線性回歸和邏輯回歸;搞清楚演算法背後的邏輯才是比較重要的。

多元線性回歸需要關注一些什麼點?r2和模型穩定性,也就是那些β是不是穩定的,檢驗模型是不是穩定需要對模型進行診斷。

多元線性回歸的輸出變數是連續變數,輸入變數中如果包含離散變數需要做啞變數或one-hot編碼,連續變數可以直接用來建模。

如果擾動項是右偏,那麼殘差圖肯定是異方差分布,取對數即可,所以下圖中假設5和假設4可以說是一致的。

(1)殘差分析:實際上當殘差不包含任何資訊的時候是最好的,如果還包含一些資訊,需要把這個資訊提取出來。殘差圖的縱座標是殘差,橫座標可以是各個解釋變數x,實際上在做單變數分析,解釋變數x被解釋變數y做相關性分析的時候就知道了;比如某個解釋變數x和被解釋變數y都是右偏,那麼殘差圖肯定是異方差,同時取對數重新建模;如果某個解釋變數x和被解釋變數y存在拋物線關係,那麼加入二次項重新進行建模;自相關一般在時間序列資料中比較常見。

(2)強影響點分析

為什麼要做強影響點分析???因為有了強影響點的存在之後,會把本來沒有關係的資料帶出關係來,而且這個關係特別不穩定。比如下圖,本來資料點之間沒有什麼關係,但是因為強影響點的存在之後,給資料帶出來了這麼乙個線性關係出來,但這個關係是非常不穩定的,不具有大眾性。

怎麼解決強影響點分析問題???學生化殘差(只做一次)。

|sr| = (殘差 - 殘差均值) / 殘差標準差。

|sr| > 2,剔除掉滿足條件的記錄(幾百個樣本)

|sr| > 3,剔除掉滿足條件的記錄(幾千個樣本)

(3)共線性問題

多元線性回歸模型的F檢驗

f檢驗 對於多元線性回歸模型,在對每個回歸係數進行顯著性檢驗之前,應該對回歸模型的整體做顯著性檢驗。這就是 f檢驗。當檢驗被解釋變數 yt與一組解釋變數 x1,x2 xk 1是否存在回歸關係時,給出的零假設與備擇假設分別是 h0 b 1 b 2 bk 1 0 h1 bi i 1,k 1不全為零。首先...

多元線性回歸資料集 多元線性回歸函式的檢驗

假設有原始資料集 擬合之後有以下常用定義 值得注意的是 自由度 在統計學中,自由度指的是計算某一統計量時,取值不受限制的變數個數。相似的 以及調整後的 通常認為 越接近1,模型擬合的效果越好,其定義為回歸平方和與總離差平方和的比值。調整後的 會考慮自由度的影響,懲罰過多的引數數量 防止模型過擬合 t...

線性模型 1 多元線性回歸

提綱 線性模型的基本形式 多元線性回歸的損失函式 最小二乘法求多元線性回歸的引數 最小二乘法和隨機梯度下降的區別 疑問學習和參考資料 1.線性模型的基本形式 線性模型是一種形式簡單,易於建模,且可解釋性很強的模型,它通過乙個屬性的線性組合來進行 其基本的形式為 式 1 轉換成向量形式之後寫成 式 2...