大資料分析R語言7種資料視覺化方式

2021-10-25 01:50:42 字數 3487 閱讀 8615

這篇大資料分析r語言7種資料視覺化方式文章介紹了7種基本資料視覺化的方式,以及如何結合使用基本r函式和一些常見軟體包來重新建立它們。

資料視覺化是乙個創新而令人興奮的領域。儘管它需要很長時間才能在計算機螢幕後進行操作,並且需要掌握數字,但它是一項非常有價值的職業,它處於早期階段,並且每天都在增長。

儘管幾乎沒有專門的程式用於視覺化資料,但是許多資料科學家使用一種稱為r的程式語言,並且該程式及其許多可用的包為幾乎可以想象到的每種情況提供了許多不同形式的視覺化。

以下是7種基本資料視覺化的方式,以及如何結合使用基本r函式和一些常用軟體包來重新建立它們。所有示例均使用預設r base安裝中包含的資料集。

一、資料視覺化方式:條形圖

您可能已經熟悉小學,中學和大學的基本條形圖。r中的條形圖的概念與過去的方案相同,以顯示兩個或多個變數之間的分模擬較。但是,有幾種不同型別的條形圖需要了解和理解。

水平和垂直條形圖已經很常見並且很熟悉-它們是大多數學術或專業演講中的標準格式。但是r提供了乙個堆積的條形圖,可讓您為每個類別引入不同的變數。

數字barplot(numbers,main = '按汽缸數量分組的汽車汽缸編號',

col = c('red','orange','steelblue'),legend =行名(數字),xlab = '齒輪數',

二、資料視覺化方式:直方圖

直方圖在某些學術領域是標準的,但通常保留給最高端別的學生。這些圖表最適合r中具有高度精確或準確的數字。

它最終提供了變數的概率估計,例如,在專案完成之前的時間段。r也為此提供了乙個簡單的功能。

#``空氣質素''資料集中的臭氧值頻率直方圖

hist(空氣質素$ temp,col = 'steelblue',main = '最高每日溫度',

xlab = '溫度(華氏度)')

三、資料視覺化方式:熱圖

熱圖是r中 最創新的資料視覺化之一,它強調顏色強度以視覺化多個變數之間的關係。

結果是易於解釋的有吸引力的2d影象。作為乙個基本示例,熱圖通過根據競爭產品的原始投放市場日期對其進行排名來突出顯示競爭產品的受歡迎程度。它通過提供一段時間內的銷售統計資料和數字來進一步細分。

#模擬10個點的資料集

x < -rnorm(10,平均值= rep(1 :5,每個= 2),sd = 0.7)

ÿ < - rnorm(10,平均值=代表(c(1,9),每個= 5),sd = 0.1)

dataframe < -data.frame(x = x,y = y)

set.seed(143)

datamatrix < - as.matrix(資料幀)的樣品(1 :10),] #轉換到類「矩陣」,然後洗牌矩陣的行

熱圖(資料矩陣)通過熱圖#形象化分級聚類

四、資料視覺化方式:散點圖

繪圖是圖表或圖形的一種流行替代方法。它提供了涉及各種點的獨特視覺化效果。最標準的迭代-散點圖-在一段時間內跟蹤兩個連續變數。散點圖的基本應用涉及跟蹤多年來兒童的身高和體重。

當試圖避免視覺化中的錯誤資訊時,散點圖很有用。僅當您確定受眾熟悉該型別的圖表並且始終謹慎使用時,才使用圖表。如有疑問,請選擇其他選項之一。

#僅繪製九月月份的臭氧和溫度測量圖,

其中(subset(airquality,month == 9),plot(wind,ozone,col = 'steelblue',pch = 20,cex = 1.5))

標題(「 2023年9月紐約市的風和溫度」)

五、資料視覺化方式:箱形圖

該箱線圖類似於在許多方面的柱狀圖。箱形圖不再關注分類資料,而是提供分類資料和連續變數資料的視覺化。

在現實世界中,箱形圖提供了有關天氣模式及其隨時間變化的詳細資訊。

mtcars < -變換(mtcars,cyl =因子(cyl)) #轉換'cyl'從類'數字'類'因子'列

類(mtcars $ cyl) #'cyl'現在是乙個分類變數

箱線圖(mpg 〜 cyl ,mtcars,xlab = '氣缸數',ylab = '每加侖英里',

main = 「汽車中不同氣缸的每加侖英里數」,cex.main = 1.2)

library(dplyr)#資料處理

library(ggplot2)#資料視覺化

庫(corrplot)#相關圖

六、資料視覺化方式:相關圖

相關資料最好通過corrplot視覺化。2d格式類似於熱圖,但突出顯示直接相關的統計資訊。

大多數相關圖會突出顯示各個時間點的資料集之間的相關程度。比較不同月份或年份之間的銷售資料是乙個基本示例。

#data(「 mtcars」)

corr_matrix < -cor(mtcars)

#帶圓圈

corrplot(corr_matrix)

#帶數字及以下

corrplot(corr_matrix,

方法= '數字',

七、資料視覺化方式:面積圖

區域圖表示不同變數或資料集之間的連續性。它類似於您從小學就知道的傳統折線圖,並且以類似的方式使用。

大多數面積圖會突出顯示趨勢及其隨時間的演變,從而在試圖揭示潛在趨勢(無論是正面還是負面)時非常有效。

#data(「 airquality」)#使用的資料集

空氣質素%>%

group_by(day)%>%

摘要(mean_wind =平均值(風))%>%

ggplot()+

geom_area(aes(x = day,y = mean_wind))+

labs(title = 「平均面積圖每天風」,

副標題= 「使用空氣質素資料」,

y = 「平均風」)

資料視覺化正在進入主流

研究表明,與單調的電子**和過時的報告相比,圖表,圖形和其他視覺化提供了一種輕鬆記住資料的方式。

不僅在專業領域如此,而且許多學術機構也在學生**,演示文稿和**中採用了下一代資料視覺化。

資料視覺化似乎幾乎沒有觸及的領域,而且該領域仍處於起步階段。

摘自:

Python 資料分析視覺化

1 畫圖需要使用 matplotlib這個包 如下 importmatplotlib.pyplotasplt year 1950,1970,1990,2010 pop 2.519,3.692,5.263,6.972 values 0,0.6,1.4,1.6,2.2,2.5,2.6,3.2,3.5,3...

資料分析與視覺化

1.pip包管理 1 內建庫 包 庫 別人寫好的 直接引用,加快開發效率。內建包 python直譯器內建常用功能庫。直譯器安裝目錄 lib資料夾下,os time urllib等 資料夾裡有 init py 就成了乙個包。2 關於http模擬和html源 解析 python時代 urllib url...

R語言之資料視覺化

不同領域的資料科學家需要的技能是有所側重的 變數間的關係 對應不同的視覺化方法和統計分析方法 兩個數值變數 兩個分類變數 乙個數值變數 乙個分類變數 with airquality,plot wind,temp,main wind and temp in nyc type n with subset...