R語言資料分析系列之五

2021-09-07 11:13:41 字數 2895 閱讀 9050

本節來討論一下r語言的基本圖形展示,先來看一張效果圖吧。

這是一張用r語言生成的,虛擬的wordcloud雲圖,詳細實現細節請參見我的github專案:

好了我們開始今天的旅程吧:

本節用到的包有:rcolorbrewer用來生成序列顏色值, plotrix三維圖形

本節用到的資料集:vcd包中的arthritis資料集

install.packages("vcd")

library('vcd')

install.packages(plotrix) #將圖形包也一併安裝了

library(plotrix)

data(package='vcd') # 檢視vcd包得所有資料集

class(arthritis) # 檢視資料集型別

names(arthritis) # 檢視列名

arth

arth[1:10,] #檢視前10行資料

#該資料集最後一列improved為因子型資料。

table(arth$improved) #檢視因子水平的count值

col

barplot(table(arth$improved),col=col,xlab='improved',ylab='count',main='statisticsof improved') #繪製柱狀圖

barplot(table(arth$improved),col=col,horiz=t,xlab='count',ylab='improved',main='statisticsof improved')  #水平柱狀圖

barplot(counts,col=col,legend=rownames(counts),width=0.1)  #堆砌條形圖

barplot(counts,col=col[1:3],legend=rownames(counts),width=0.1,beside=t)#分組條形圖

par(mfrow=c(1,2)) # 定義橫向畫布,兩格布局

label

ages

pie(table(ages),family='stkaiti') # 畫出餅圖

pie(table(ages),labels=paste(levels(ages),':',round(table(ages)/sum(table(ages))*100,2),'%'),family='stkaiti',main='關節炎發病率年齡段佔比')

pie3d(table(ages),labels= paste(round(table(ages)/sum(table(ages))*100,2),'%'),family='stkaiti',main='關節炎發病率年齡段佔比',explode=0.1)# 3d 餅圖

我們採用mtcars資料集來進行圖形繪製:

h 

lines(density(mtcars$mpg),col='blue',lwd=2)#加入核密度圖

假設要單獨繪製和密度圖的話能夠這樣:

plot(density(mtcars$mpg),main='densityof  car gallon')
圖中我們能夠看到,我們得核密度函式採用的高斯核,方差為2.477。樣本取樣為32個。

箱線圖。通過繪製連續型變數的五數總括,即最小值(相應圖中最以下那條線)、下四分位數(相應第二條線)、中位數(相應最中間那條線)、上四分位數(相應箱子上邊沿) 以及最大值(相應最上面那條線),描寫敘述了連續型變數的分布。

而且能夠將離群點列出。

比如我們還拿mtcars資料集,當中mpg是每百公里油耗。cyl是發動機汽缸數。要對照不同得汽缸數對每加侖汽油行駛的公里數的影響就能夠這樣作圖:

boxplot(mpg ~ cyl,data=mtcars,main='car milage data',xlab='number of cylinder',ylab='miles per gallon')
從圖中我們能夠明顯看到。4缸發動機有效利用率最高。6缸的最穩定,8缸利用率低且不夠穩定。

R語言資料分析系列之五

本節來討論一下r語言的基本圖形展示,先來看一張效果圖吧。這是一張用r語言生成的,虛擬的wordcloud雲圖,具體實現細節請參見我的github專案 好了我們開始今天的旅程吧 本節用到的包有 rcolorbrewer用來生成序列顏色值,plotrix三維圖形 本節用到的資料集 vcd包中的arthr...

R語言資料分析系列六

上一節講了r語言作圖,本節來講講當你拿到乙個資料集的時候怎樣下手分析,資料分析的第一步。探索性資料分析。統計量,即統計學裡面關注的資料集的幾個指標。經常使用的例如以下 最小值,最大值,四分位數,均值,中位數,眾數,方差,標準差。極差,偏度,峰度 先來解釋一下各個量得含義,淺顯就不說了,這裡主要說一下...

R語言資料分析系列之九 邏輯回歸

本節將一下邏輯回歸和r語言實現,邏輯回歸 lr,logisticregression 其實屬於廣義回歸模型,根據因變數的型別和服從的分布可以分為,普通多元線性回歸模型,和邏輯回歸,邏輯回歸是指因變數是離散並且取值範圍為兩類,如果離散變數取值是多項即變為 multi class classificat...