r語言資料變數分段 R語言之資料彙總

2021-10-19 22:33:39 字數 1239 閱讀 7790

我們在分析資料的時候,除了資料結構上的調整之外,很多時候也需要將資料進行彙總處理,比如最簡單的計算行列均值、方差等,同時,資料彙總的結果也可以幫助進行一些實驗設計和視覺化顯示,下面我們說一下如何使用r進行資料彙總處理。

一、簡單的行列彙總

1.可以使用colmean()、colsums()對列計算均值和求和,使用rowsmean()、rowsums()對行計算均值和求和,這裡我們可以使用或:選擇資料的一部分,如果行或列沒有設定名稱,則會結果也會是一行沒有命名的數字,如果資料中包含na項,那麼結果也會是na,對此,可以設定na.rm=true選項遮蔽na。

該命令將乙個彙總函式應用到所選擇的資料框或矩陣的所有列,格式為:

其中x為所選擇的資料區域,margin=1為行,=2為列,fun為彙總函式,也可以使用na.rm=true來遮蔽na項。

二、複雜的彙總函式

這裡的複雜,指的是資料結構的複雜,比如資料中包含多個分類變數的情況。

1.rowsum()命令

該命令可計算資料框或矩陣的行的合計,它有乙個group選項,用於選擇分組變數,但是只能選擇乙個分組變數,對於多分組變數的資料不適用

該命令可以作用於多分組變數情況下,但是用於彙總的向量只能選擇乙個,如:

第乙個選項為彙總向量,第二個為分組向量,如果存在多個分組向量,可使用list()指定:

如果指定的分組變數超過2個,則結果會被細分為多個二維表。

3.aggregate()命令

該命令的通用格式如下:

aggregate(x,by,fun...)

x為要彙總的資料,by為分組變數,必須使用list()命令指定,fun為彙總函式。

aggregate()命令更常使用的是公式語法:

aggregate(y~x,bu,fun....)

其中y為因變數也就是彙總變數,x為分組變數,這樣做的好處是可以指定多個彙總變數和分組變數,如:

> aggregate(cbind(daisy,poa)~time,data=flwr,fun=mean):指定兩個彙總變數

> aggregate(daisy~time*cutting,data=flwr,fun=mean):指定兩個分組變數

> aggregate(cbind(daisy,poa)~time*cutting,data=flwr,fun=mean):指定兩個分組變數和兩個彙總變數。

aggregate()命令十分強大,不僅是因為它可以使用公式語法,指定多個彙總變數和分組變數,還有乙個原因是其結果輸出是乙個**,便於進一步選取和檢視。

R語言之建立資料集

資料集通常是由資料構成的乙個矩形陣列,行表示觀測,列表示變數。r中有許多用於儲存資料的結構,包括標量 向量 陣列 資料框和列表。在r中,物件 object 是指可以賦值給變數的任何事物,包括常量 資料結構 函式 甚至是圖形。因子 factor 是名義型變數或有序型變數,在r中被特殊地儲存和處理。r中...

r語言隨機抽取資料框 R語言之資料處理 一

一 資料清洗 資料清洗簡單說就是處理缺失值和異常值的判斷,當然要根據實際情況來定義資料清洗的任務。1.缺失值處理 當我們面對的資料是比較大量的時候,就需要了解資料集中那些變數有缺失值 缺失的數量 屬於那種組合方式等有用資訊。此時可以使用mice包中的md.pattern 函式,該函式可生成乙個以矩陣...

R語言之for迴圈

程式示例 資料集 id t1 t2 t3 1 1 52.56441 10.074323 18.81786 2 1 50.18791 10.058374 18.30228 3 1 47.68246 10.476636 21.96603 4 1 48.52158 10.005308 20.05809 5...