R語言的視覺化

2022-09-04 09:18:11 字數 2680 閱讀 1533

1. 完整的資料分析流程

2. 變數的型別:

1. 數值變數特徵和視覺化

集中趨勢測量(均值、中位數、眾數)

均值=(數值之和)/(數值個數)

中位數=排序後位於正中間的乙個數(奇數)、排序後位於正中間的兩個數的均值(偶數)

眾數=出現次數最多的數

分散趨勢測量(值域、方差、標準差、四分位距)

舉個例子:

其中,中位數、四分位距是穩健統計量,受極端值影響小。

乙個數值變數的視覺化

柱狀圖:橫座標表示**值所有可能的取值,縱座標表示頻數。

點圖:橫座標表示**值所有可能的取值,縱座標表示出現的次數。比如出現了一次,就會對應乙個點。

箱圖:展示25%分位點、50%分位點、75%分位點。在範圍(25%分位點-1.5四分位距,75%分位點+1.5四分位距)之外的點命異常點。

兩個數值變數的關係2. 分類變數的特徵和視覺化

乙個分類變數視覺化

頻率表:**的形式展現資料的分類水平出現的頻率。

條形圖:橫座標表示分類變數的每乙個水平。

兩個分類變數的關係

關聯表相對頻率表

分段條形圖、相對頻率的分段條形圖

馬賽克圖

3.乙個分類變數乙個數值變數

併排箱圖:橫軸分類變數取值,縱軸為每個分類變數下對應的數值變數。

3. 三大繪圖系統

基本繪圖系統

藝術家的調色盤,繪圖始於空白畫布。分為兩個步驟 = 圖+修飾新增 = 執行一系列的函式。適於繪製2d圖。

繪圖函式(graphics包)---plot/ hist / boxplot /points /lines /text /title / axis,呼叫函式的時候會啟動乙個圖形裝置。

plot(x,y,...),其中重要的引數有:xlab / ylab:x軸y 軸的標籤,lwd線寬,lty線的型別(2為虛線),pch點,col顏色。

par(),用於設定全域性引數,bg:背景顏色,mar邊距,las標籤排版,mfrow行列,mfcol列行。

舉例子:

hist(airquality$wind,xlab = "wind")

#乙個數值變數的直方圖

#乙個數值變數的箱圖

#乙個數值變數乙個分類變數的併排箱圖,橫軸為分類水平。

plot(airquality$wind,airquality$temp)

#風速與溫度的散點圖,也可以寫成with函式:

不同月份的點用不同顏色繪製

fit

abline(fit,lwd=2)

#做一條擬合線

#做圖例

#將螢幕分為兩個部分作圖。

R語言 R hive mysql php 視覺化

接觸r語言一段時間,在遊戲行業裡面採用r對大資料處理與分析似乎還不那麼普片,由於r語言的開源性質給我們帶來了很多方便與靈活。最近一段時間在構建挖掘分析平台上運用了r語言,也感覺開闢了乙個新的天地。基於分布式的hadoop在資料儲存讀取過程已經有了一定的優勢,依靠這樣的優勢直接運用r語言的rjdbc包...

R語言視覺化(十)

提取碼 95n7 library ggplot2 library rcolorbrewer library cairo library showtext mydata mydata team mydata 0,team,na label2 ifelse difference 0,na,team my...

R語言視覺化 顏色

rcolorbrewer包 三類調色盤 sequential diverging qualitative 調色盤的資訊可以與colorramp colorramppalette結合使用 從乙個極端到另乙個極端,慢慢過渡呈現順序 兩邊的顏色比較亮,中間的顏色比較暗,適合凸顯處在極端的數值,想進行高低對...