r語言多重共線性 統計基礎 多重共線性

2021-10-17 23:44:19 字數 1244 閱讀 4505

--------僅用於個人學習知識整理和sas/r語言/python**整理

--------該文章首發於csdn 正在遷移優化文章中

1.定義

則稱自變數間存在完全多重共線性

2.影響

3.診斷

另外找到乙個比較詳細的診斷方法的列舉:[線性回歸多重共線性的診斷方法和r語言實現](線性回歸多重共線性的診斷方法和r語言實現 - 資料分析與資料探勘技術-煉數成金-dataguru專業資料分析社群)

1) 方差擴大因子法

理論來自於何曉群書本上

r語言實現

資料來自何曉群書本p150例5.6

y###這裡有乙個疑問:老師給的例子其實是沒有標準化資料的,那vif計算的時候會自動標準化嗎?還是說不需要標準化?

當vif大於等於10時,說明自變數x可能和其他自變數有多重共線性,這裡的x2,x4,x5,x6可能導致多重共線性

2) 特徵根判別法

理論來自於何曉群書本上

有多少個特徵根接近0,設計矩陣x就有多少個多重共線性關係

3) 條件數

理論來自於何曉群書本上、

可以得到最大的條件數為60.31679,所以存在較強的多重共線性

4) 直觀判定法

4.解決辦法

1) 剔除一些不顯著的變數

2) 增大樣本量

3) 回歸係數的有偏估計

如嶺回歸,主成分法,偏最小二乘法等,後續會繼續整理

多重共線性

多重共線性的概念 模型解釋變數之間存在完全線性相關或不完全線性相關關係 產生的原因 1 特徵變數之間的內在聯絡 2 特徵變數在時間上有同方向變動的趨勢 3 某些變數的滯後 檢驗的方法 1 相關性分析 2 方差膨脹因子 方差膨脹因子 variance inflation factor,vif 容忍度的...

多重共線性處理方法

自變數 解釋變數 之間彼此相關的現象,我們稱這種現象為多重共線性。手動移除出共線性的變數 先做下相關分析,如果發現某兩個自變數x 解釋變數 的相關係數值大於0.7,則移除掉乙個自變數 解釋變數 然後再做回歸分析。此方法是最直接的方法,但有的時候我們不希望把某個自變數從模型中剔除,這樣就要考慮使用其他...

Python 多重共線性檢驗

共線性問題指的是輸入的自變數之間存在較高的線性相關度。共線性問題會導致回歸模型的穩定性和準確性大大降低,另外,過多無關的維度計算也很浪費時間。樣本量太少,導致部分資料以外的呈現線性關係 由於某些原因,導致多個變數的變化趨勢一致 vif是容忍度的倒數,值越大則共線性問題越明顯,通常以10作為判斷邊界。...