R資料分析 一般線性回歸的做法和解釋

2021-10-19 11:00:33 字數 2309 閱讀 7505

發現大家做分析做的最多的還是線性回歸,很多人諮詢的都是線性回歸的問題,今天專門出乙個線性回歸的文章。

在r語言中我們可以非常方便地用基礎包中的lm方法做出線性回歸。引數的書寫也和數學方程一樣一樣的y~x+x2,只不過將等號換成了~。我們用summary+回歸物件就可以得到回歸結果,如果要看模型的殘差直接$resid就可以。

我們有如圖的資料集,我想要用回歸分析做month, spend對sales的關係。

dataset = read.csv("data-marketing-budget-12mo.csv", header=t,

colclasses = c("numeric", "numeric", "numeric"))

在我們的例子中,因變數是sales,如果我只用乙個自變數,比如spend來做**,此時就是簡單線性回歸;如果我用兩個或者兩個以上的自變數來做**就是多元線性回歸,做法都很簡單:

對於模型,首先我們應該看整個模型的顯著性,也就是模型的f檢驗,可以看到兩個模型都有意義,然後我們再看r方和調整的r方,可以看到我們的模型賊好,然後我們再看每個變數的顯著性。

首先有乙個residuals:

這個是模型的殘差,就是模型**值和實際值之間的差異,應該是越小越好。

接著就是coefficients:

這個是模型中自變數的係數,這個係數又包含4個部分,分別是estimate,std,t和p

estimate解釋為相應的自變數改變乙個單位,應變數的改變量。std. error為它的標準誤,t value為檢驗係數顯著性的t統計量,pr(>|t|)為p值,通過pr(>|t|)我們可以知道該係數是不是顯著地不等於0。

還有模型整體表現的指標:

這個是殘差的變異,越小越好。

然後是r方和調整的r方,r方為這個模型能解釋的變異比例,調整的r方考慮了自變數個數。如果我們做簡單線性回歸的話r方和調整的r方就是一樣的。

還有模型表現的f-statistic:

f統計量是來看整個模型是不是有意義的,如果模型整體沒意義相應的別的係數也就不用看了。

對於線性模型我們有四個假設:

我們的模型滿不滿足這4個假設呢?我先畫圖看看:

layout(matrix(c(1,1,2,3),2,2,byrow=t))

plot(******.fit$resid~dataset$spend[order(dataset$spend)],

main=" 簡單線性回歸的自變數和殘差變化",

xlab="marketing spend", ylab="residuals")

abline(h=0,lty=2)

hist(******.fit$resid, main="殘差的直方圖",

我們可以從兩個圖中來判斷殘差是否正態:

首先是直方圖,直方圖是近似鐘形的就為正態,qq圖中的點都和線靠得近就為正態。

但是我們資料量太少,看圖似乎看不出來,我們考慮做個統計檢驗:

檢驗結果告訴我們殘差確實是正態的。

檢驗結果告訴我們殘差的自相關很大。

對於這個假設,通常情況下我們也是看殘差圖,如果殘差圖沒有明顯的離群值我們就可以認為殘差是齊的。

資料分析一般流程

資料分析的真正價值在於發現問題,解決問題,創造價值。使用什麼軟體 工具並不是重要。現在市面上的出現的好多機構,解決的更多的是入門使用工具的問題,演變成手段問題。資料分析是把現實的問題轉化為資料能夠解決的問題,使用我們學習到的知識和經驗,將資料提煉出來的資訊應用,創造價值的過程。分為三部 從問題到資料...

資料分析的一般流程和方法

賣家資料顯示 胸最大的是新疆妹子,國內內衣消費最多的size是b 其中75b銷量最好,佔比41.45 其次是a,佔比 25.26 各種顏色中,黑色最為暢銷,因為百搭。這些早已應用在內衣生產 備貨 銷售等關鍵環節。網易雲 資料顯示 90後使用者佔比高達59 其次是80後 12 除了流行歌曲,使用者最喜...

資料分析與挖掘 R語言 多元線性回歸

乙個簡單的例子!環境 centos6.5 hadoop集群 hive r rhive,具體安裝及除錯方法見部落格內文件。線性回歸主要用來做 模型。1 準備資料集 x y 0.10 42.0 0.11 43.5 0.12 45.0 0.13 45.5 0.14 45.0 0.15 47.5 0.16 ...