常見的七種回歸技術

2021-07-04 16:49:53 字數 2569 閱讀 7596

根據受歡迎程度,線性回歸和邏輯回歸經常是我們做**模型時,且第乙個學習的演算法。但是如果認為回歸就兩個演算法,就大錯特錯了。事實上我們有許多態別的回歸方法可以去建模。每乙個演算法都有其重要性和特殊性。

什麼是回歸分析?

我們為什麼要使用回歸分析?

回歸有哪些型別 ?

如何去選擇回歸模型?

回歸分析是研究自變數和因變數之間關係的一種**模型技術。這些技術應用於**,時間序列模型和找到變數之間關係。例如可以通過回歸去研究超速與交通事故發生次數的關係。

這裡有一些使用回歸分析的好處:

回歸分析允許我們比較不同尺度的變數,例如:**改變的影響和宣傳活動的次數。這些好處可以幫助市場研究者/資料分析師去除和評價用於建立**模型裡面的變數。

我們有很多種回歸方法用**。這些技術可通過三種方法分類:自變數的個數、因變數的型別和回歸線的形狀。

線性回歸可謂是世界上最知名的建模方法之一,也是應該是我們第乙個接觸的模型。在模型中,因變數是連續型的,自變數可以使連續型或離散型的,回歸線是線性的。

線性回歸用最適直線(回歸線)去建立因變數y和乙個或多個自變數x之間的關係。可以用公式來表示:

y=a+b*x+e
a為截距,b為回歸線的斜率,e是誤差項。

簡單線性回歸與多元線性回歸的差別在於:多元線性回歸有多個(>1)自變數,而簡單線性回歸只有乙個自變數。到現在我們的問題就是:如何找到那條回歸線?

我們可以通過最小二乘法把這個問題解決。其實最小二乘法就是線性回歸模型的損失函式,只要把損失函式做到最小時得出的引數,才是我們最需要的引數。

我們一般用決定係數(r方)去評價模型的表現。

重點

邏輯回歸是用來找到事件成功或事件失敗的概率。當我們的因變數是二分類(0/1,true/false,yes/no)時我們應該使用邏輯回歸。

重點

如果乙個回歸,它的自變數指數超過1,則稱為多項式回歸。可以用公式表示:

y = a + b * x^2
在這個回歸技術中,最適的線不是一條直線,而是一條曲線。

重點

當我們要處理多個自變數時,我們就需要這個回歸方法。在這個方法中選擇變數都是通過自動過程實現的,不需要人的干預。

這個工程是通過觀察統計值,比如判定係數,t值和最小資訊準則等去篩選變數。逐步回歸變數一般是基於特定的標準加入或移除變數來擬合回歸模型。一些常用的逐步回歸方法如下:

這個模型技術的目的是為了用最少的變數去最大化模型的**能力。它也是一種降維技術。

重點

和嶺回歸類似,lasso(least absolute shrinkage and selection operator)也是通過懲罰其回歸係數的絕對值。看下面的公式:

lasso回歸和嶺回歸不同的是,lasso回歸在懲罰方程中用的是絕對值,而不是平方。這就使得懲罰後的值可能會變成0.

重點

elasticnet回歸是lasso回歸和嶺回歸的組合。它會事先訓練l1和l2作為懲罰項。當許多變數是相關的時候,elastic-net是有用的。lasso一般會隨機選擇其中乙個,而elastic-net則會選在兩個。

與lasso和嶺回歸的利弊比較,乙個實用的優點就是elastic-net會繼承一些嶺回歸的穩定性。

重點

除了這7個常用的回歸技術,你也可以看看貝葉斯回歸、生態學回歸和魯棒回歸。

面對如此多的回歸模型,最重要的是根據自變數因變數的型別、資料的維數和其他資料的重要特徵去選擇最合適的方法。以下是我們選擇正確回歸模型時要主要考慮的因素:

資料探索是建立**模型不可或缺的部分。它應該是在選擇正確模型之前要做的。

為了比較不同模型的擬合程度,我們可以分析不同的度量,比如統計顯著性引數、r方、調整r方、最小資訊標準、bic和誤差準則。另乙個是mallow『s cp準則。

交叉驗證是驗證**模型最好的方法。你把你的資料集分成兩組:一組用於訓練,一組用於驗證。

如果你的資料集有許多讓你困惑的變數,你就不應該用自動模型選擇方法,因為你不想把這些變數放在模型當中。

不強大的模型往往容易建立,而強大的模型很難建立。

回歸正則方法在高維度和多重共線性的情況下表現的很好。

常見的七種回歸技術

根據受歡迎程度,線性回歸和邏輯回歸經常是我們做 模型時,且第乙個學習的演算法。但是如果認為回歸就兩個演算法,就大錯特錯了。事實上我們有許多態別的回歸方法可以去建模。每乙個演算法都有其重要性和特殊性。1.什麼是回歸分析?2.我們為什麼要使用回歸分析?3.回歸有哪些型別 4.線性回歸 5.邏輯回歸 6....

常見的七種排序

排序演算法大體可分為兩類 非線性時間比較類排序 交換類排序 快速排序和氣泡排序 插入類排序 簡單插入排序和希爾排序 選擇類排序 簡單選擇排序和堆排序 歸併排序 二路歸併排序和多路歸併排序 線性時間非比較類排序 計數排序,桶排序,和基數排序 氣泡排序 重複地走訪過要排序的元素列,依次比較兩個相鄰的元素...

七種最常見的逃避藉口

1 放縱自己,做一些自己真正喜歡的事 2 社交活動 3 閱讀 4 自己做所有的事情 5 過度做某些事情 6 逃跑 7 做白日夢 其它 花大段的時間在細節上,卻沒有真正做核心的內容。還有情緒逃避,產生罪惡感,焦慮和憤怒感。利用時間最好方式是完成 a 1任務。相比之下,其它都是浪費時間。每當要逃避 a ...