r語言資料變數分段 R語言之資料彙總

我們在分析資料的時候，除了資料結構上的調整之外，很多時候也需要將資料進行彙總處理，比如最簡單的計算行列均值、方差等，同時，資料彙總的結果也可以幫助進行一些實驗設計和視覺化顯示，下面我們說一下如何使用r進行資料彙總處理。

一、簡單的行列彙總

1.可以使用colmean()、colsums()對列計算均值和求和，使用rowsmean()、rowsums()對行計算均值和求和，這裡我們可以使用或:選擇資料的一部分，如果行或列沒有設定名稱，則會結果也會是一行沒有命名的數字，如果資料中包含na項，那麼結果也會是na，對此，可以設定na.rm=true選項遮蔽na。

該命令將乙個彙總函式應用到所選擇的資料框或矩陣的所有列，格式為：

其中x為所選擇的資料區域，margin=1為行，=2為列，fun為彙總函式，也可以使用na.rm=true來遮蔽na項。

二、複雜的彙總函式

這裡的複雜，指的是資料結構的複雜，比如資料中包含多個分類變數的情況。

1.rowsum()命令

該命令可計算資料框或矩陣的行的合計，它有乙個group選項，用於選擇分組變數，但是只能選擇乙個分組變數，對於多分組變數的資料不適用

該命令可以作用於多分組變數情況下，但是用於彙總的向量只能選擇乙個，如：

第乙個選項為彙總向量，第二個為分組向量，如果存在多個分組向量，可使用list()指定：

如果指定的分組變數超過2個，則結果會被細分為多個二維表。

3.aggregate()命令

該命令的通用格式如下：

aggregate(x,by,fun...)

x為要彙總的資料，by為分組變數，必須使用list()命令指定，fun為彙總函式。

aggregate()命令更常使用的是公式語法：

aggregate(y~x,bu,fun....)

其中y為因變數也就是彙總變數，x為分組變數，這樣做的好處是可以指定多個彙總變數和分組變數，如：

> aggregate(cbind(daisy,poa)~time,data=flwr,fun=mean)：指定兩個彙總變數

> aggregate(daisy~time*cutting,data=flwr,fun=mean)：指定兩個分組變數

> aggregate(cbind(daisy,poa)~time*cutting,data=flwr,fun=mean)：指定兩個分組變數和兩個彙總變數。

aggregate()命令十分強大，不僅是因為它可以使用公式語法，指定多個彙總變數和分組變數，還有乙個原因是其結果輸出是乙個**，便於進一步選取和檢視。

r語言資料變數分段 R語言之資料彙總

R語言之建立資料集

r語言隨機抽取資料框 R語言之資料處理一

R語言之for迴圈

r語言資料變數分段 R語言之資料彙總

R語言之建立資料集

r語言隨機抽取資料框 R語言之資料處理 一

R語言之for迴圈

相關推薦

r語言隨機抽取資料框 R語言之資料處理一