廣義線性模型和線性回歸

2021-10-06 07:46:13 字數 1713 閱讀 4192

首先術語廣義線性模型(glm)通常是指給定連續和/或分類**變數的連續響應變數的常規線性回歸模型。它包括多元線性回歸,以及anova和ancova(僅具有固定效果)。形式為

yi〜n(xβ,σ2),其中xi包含已知的協變數,β包含要估計的係數。這些模型使用最小二乘和加權最小二乘擬合。

術語廣義線性模型(glim或glm)是指由mccullagh和nelder(1982,第二版,1989)推廣的一類更大的模型。在這些模型中,假設響應變數yi遵循均值為μi的指數族分布,並假定為xβ的某些(通常是非線性)函式。有些人會稱它們為「非線性」,因為μi通常是協變數的非線性函式,但是mccullagh和nelder認為它們是線性的,因為協變數僅通過線性組合xtiβ影響yi的分布。第乙個廣泛使用的適合這些模型的軟體包稱為glim。

廣義線性模型(glm)是一類廣泛的模型,包括線性回歸,anova,泊松回歸,對數線性模型等。下表提供了遵循agresti(2023年第4章)的glm的簡要概述:

任何glm都有三個組成部分:

隨機分量–指響應變數的概率分布(y); 例如 線性回歸中y的正態分佈,或二進位制邏輯回歸中y的二項分布。 也稱為雜訊模型或誤差模型。

系統元件-在模型中指定解釋變數(x1,x2,… xk),更具體地說,在建立所謂的線性**變數時將其線性組合。

鏈結函式,η或g(μ)-指定隨機和系統分量之間的鏈結。 它表示響應的期望值如何與解釋變數的線性**變數相關; 例如,對於線性回歸,η= g(e(yi))= e(yi);對於邏輯回歸,η= logit(π)。

glm與傳統(ols)回歸相比的優勢

我們不需要將響應y轉換為具有正態分佈

鏈結的選擇與隨機分量的選擇是分開的,因此我們在建模方面具有更大的靈活性

如果鏈結產生加性效應,則我們不需要恆定的方差。

通過最大似然估計擬合模型; 因此,估計器的最佳屬性。

我們將討論對數線性和邏輯回歸模型的所有推理工具和模型檢查也適用於其他glm。 例如偏差,殘差,置信區間,過度分散。

線性回歸嘗試通過將線性方程序擬合到觀測資料來模擬兩個變數之間的關係。乙個變數被認為是解釋性變數,另乙個被認為是因變數。例如,建模者可能希望使用線性回歸模型將個體的體重與其身高相關聯。

在嘗試將線性模型擬合到觀測資料之前,建模者應首先確定目標變數之間是否存在關係。這並不一定意味著乙個變數會導致另乙個變數(例如,較高的sat分數不會導致較高的大學成績),但是這兩個變數之間存在一定的顯著相關性。散點圖可能是確定兩個變數之間關係強度的有用工具。如果建議的解釋變數和因變數之間似乎沒有關聯(即散點圖未指示任何增加或減少的趨勢),則將線性回歸模型擬合到資料可能不會提供有用的模型。相關變數的乙個有價值的數值度量是相關係數,它是乙個介於-1和1之間的值,表示兩個變數所觀察到的資料的相關強度。

線性回歸線的方程式為y = a + bx,其中x是解釋變數,y是因變數。線的斜率是b,a是截距(x = 0時y的值)。

最小二乘回歸

擬合回歸線的最常見方法是最小二乘法。此方法通過最小化每個資料點到該線的垂直偏差的平方和來計算觀測資料的最佳擬合線(如果點正好位於擬合線上,則其垂直偏差為0)。因為偏差首先被平方,然後求和,所以在正值和負值之間沒有抵消(具體介紹參見我的另一篇文章)。

至於為什麼最小二乘是線性回歸時的最優方法,參見我的另一篇推導過程(『最小二乘誤差及其概率解釋』)。

logistic回歸和廣義線性模型

logistic回歸 logistic回歸一般是用來解決二元分類問題,它是從貝努力分布轉換而來的 h x g z 1 1 e z z tx 最大似然估計l p y x p y i x i h x y i 1 h x 1 y i l logl y i logh x i 1 y i log 1 h x ...

廣義線性模型之線性回歸(一)

注 本文若沒特殊宣告,所有截圖均來自cs229 machine learning lecture notes 1 監督學習中,最常見的是線性回歸和分類問題。然而,我們熟知的linear regression和logistic regression這兩個機器學習演算法其實只是乙個更廣泛的模型famil...

廣義線性模型

廣義線性模型是線性模型的擴充套件,主要是對非正態因變數的分析 廣義線性擬合的核心是最大似然估計,而不是最小二乘 擬合模型如下 y 0 pj 1 jx j 其中,beta是係數,mu是優勢比的對數,beta係數是對優勢比的影響。通過擬合求得的就是 我們可以通過兩個例子看一下兩種變數 類別型 自變數x ...