R資料分析一般線性回歸的做法和解釋

發現大家做分析做的最多的還是線性回歸，很多人諮詢的都是線性回歸的問題，今天專門出乙個線性回歸的文章。

在r語言中我們可以非常方便地用基礎包中的lm方法做出線性回歸。引數的書寫也和數學方程一樣一樣的y~x+x2，只不過將等號換成了~。我們用summary+回歸物件就可以得到回歸結果，如果要看模型的殘差直接$resid就可以。

我們有如圖的資料集，我想要用回歸分析做month, spend對sales的關係。

dataset = read.csv("data-marketing-budget-12mo.csv", header=t,
colclasses = c("numeric", "numeric", "numeric"))

在我們的例子中，因變數是sales，如果我只用乙個自變數，比如spend來做**，此時就是簡單線性回歸；如果我用兩個或者兩個以上的自變數來做**就是多元線性回歸，做法都很簡單：

對於模型，首先我們應該看整個模型的顯著性，也就是模型的f檢驗，可以看到兩個模型都有意義，然後我們再看r方和調整的r方，可以看到我們的模型賊好，然後我們再看每個變數的顯著性。

首先有乙個residuals：

這個是模型的殘差，就是模型**值和實際值之間的差異，應該是越小越好。

接著就是coefficients:

這個是模型中自變數的係數，這個係數又包含4個部分，分別是estimate，std，t和p

estimate解釋為相應的自變數改變乙個單位，應變數的改變量。std. error為它的標準誤，t value為檢驗係數顯著性的t統計量，pr(>|t|)為p值，通過pr(>|t|)我們可以知道該係數是不是顯著地不等於0。

還有模型整體表現的指標：

這個是殘差的變異，越小越好。

然後是r方和調整的r方，r方為這個模型能解釋的變異比例，調整的r方考慮了自變數個數。如果我們做簡單線性回歸的話r方和調整的r方就是一樣的。

還有模型表現的f-statistic：

f統計量是來看整個模型是不是有意義的，如果模型整體沒意義相應的別的係數也就不用看了。

對於線性模型我們有四個假設：

我們的模型滿不滿足這4個假設呢？我先畫圖看看：

layout(matrix(c(1,1,2,3),2,2,byrow=t))
plot(******.fit$resid~dataset$spend[order(dataset$spend)],
main=" 簡單線性回歸的自變數和殘差變化",
xlab="marketing spend", ylab="residuals")
abline(h=0,lty=2)
hist(******.fit$resid, main="殘差的直方圖",
我們可以從兩個圖中來判斷殘差是否正態：
首先是直方圖，直方圖是近似鐘形的就為正態，qq圖中的點都和線靠得近就為正態。
但是我們資料量太少，看圖似乎看不出來，我們考慮做個統計檢驗：
檢驗結果告訴我們殘差確實是正態的。
檢驗結果告訴我們殘差的自相關很大。
對於這個假設，通常情況下我們也是看殘差圖，如果殘差圖沒有明顯的離群值我們就可以認為殘差是齊的。
 資料分析一般流程
資料分析的真正價值在於發現問題，解決問題，創造價值。使用什麼軟體 工具並不是重要。現在市面上的出現的好多機構，解決的更多的是入門使用工具的問題，演變成手段問題。資料分析是把現實的問題轉化為資料能夠解決的問題，使用我們學習到的知識和經驗，將資料提煉出來的資訊應用，創造價值的過程。分為三部 從問題到資料...
資料分析的一般流程和方法
賣家資料顯示 胸最大的是新疆妹子，國內內衣消費最多的size是b 其中75b銷量最好，佔比41.45 其次是a，佔比 25.26 各種顏色中，黑色最為暢銷，因為百搭。這些早已應用在內衣生產 備貨 銷售等關鍵環節。網易雲 資料顯示 90後使用者佔比高達59 其次是80後 12 除了流行歌曲，使用者最喜...
資料分析與挖掘 R語言 多元線性回歸
乙個簡單的例子！環境 centos6.5 hadoop集群 hive r rhive，具體安裝及除錯方法見部落格內文件。線性回歸主要用來做 模型。1 準備資料集 x y 0.10 42.0 0.11 43.5 0.12 45.0 0.13 45.5 0.14 45.0 0.15 47.5 0.16 ...

R資料分析 一般線性回歸的做法和解釋

資料分析一般流程

資料分析的一般流程和方法

資料分析與挖掘 R語言 多元線性回歸

相關推薦

R資料分析一般線性回歸的做法和解釋

資料分析與挖掘 R語言多元線性回歸