R語言之建立資料集

2021-07-10 16:02:42 字數 3101 閱讀 2097

資料集通常是由資料構成的乙個矩形陣列,行表示觀測,列表示變數。

r中有許多用於儲存資料的結構,包括標量、向量、陣列、資料框和列表。

在r中,物件(object)是指可以賦值給變數的任何事物,包括常量、資料結構、函式、甚至是圖形。因子(factor)是名義型變數或有序型變數,在r中被特殊地儲存和處理。

r中的資料結構:

1.1向量

向量是用於儲存數值型、字元型或邏輯型資料的一維陣列。建立向量使用函式c(),如下例所示:

數值型向量:a

字元型向量:b

邏輯型向量:c

注:單個向量中的資料必須擁有相同的型別或模式。

標量是只含乙個元素的向量,例如f

訪問向量中的元素,可在方括號中給定元素所處位置的數值,如:a[c(2,4)]用於訪問向量a中的第二個和第四個元        素。

1.2矩陣

矩陣是乙個二維陣列,只是每個元素都擁有相同的模式(數值型、字元型或邏輯型),可以通過matrix建立矩陣

一般使用格式為:

mymatrix

char_vector_rownames,char_vector_colnames)) ,其中vector包含了矩陣的元素,nrow和ncol用以指定

行和列的維數,dimnames包含了可選的以字元型向量表示的行名和列名。選項byrow則表明矩陣應當按行

填充(byrow=true)還是按列填充(byrow=false),預設情況下按列填充。**演示如下:

> cells

> rnames

> cnames

> mymatrix

> mymatrix

c1 c2

r1 1 23

r2 56 485

1.3陣列陣列與矩陣類似,但是維數可以大於2。陣列可通過array函式建立,形式如下:

myarray

> dim

> dim1

> dim2

> dim3

> z

> z

, , c1

b1 b2 b3

a1 1 3 5

a2 2 4 6

, , c2

b1 b2 b3

a1 7 9 11

a2 8 10 12

, , c3

b1 b2 b3

a1 13 15 17

a2 14 16 18

, , c4

b1 b2 b3

a1 19 21 23

a2 20 22 24

1.4資料框資料框中不同的列可以包含不同模式(數值型、字元型等)的資料,是r中最常處理的資料結構。資料框可以通過函式data.frame()建立:mydata

> age

> patientid

> diabetes

> status

> patientdata

> patientdata

patientid age diabetes status

1 1 25 type1 poor

2 2 34 type2 improved

3 3 28 type1 excellent

4 4 53 type1 poor

> patientdata$age

[1] 25 34 28 53> table(patientdata$diabetes,patientdata$status)

excellent improved poor

type1 1 0 2

type2 0 1 0

$被用來選取乙個給定資料框中的某個特定變數,上面

table(patientdata$diabetes,patientdata$status)

生成了       diabetes和status的列聯表。

函式attach()可將資料框新增到r的搜尋路徑中。

函式detach()將資料框從搜素路徑中移除。

相對於attach。多數的r書籍更推薦使用函式with()。

1.5因子

變數可歸結為名義型、有序型或連續型變數。類別(名義型)變數和有序類別(有序型)變數在r中稱為因子。因子在r中非常重要,因為它決定了資料的分析方式以及如何進行視覺呈現。

函式factor()以乙個整數向量的形式儲存類別值,整數的取值範圍是[1...k](其中k是名義變數中唯一值得個數),同時乙個由字串(原始值)組成的內部向量將對映到這些整數上。

名義型eg:

假設有向量:diabetes

語句diabetes

有序型eg:   對於給定變數status

語句status

1.6列表(list)

列表是r的資料型別中最為複雜的一種。列表就是一些物件的(或成分,component)的有序集合。列表允許你整合若干(可能無關)的物件到單個物件名下。例如,某個列表中可能是若干向量、矩陣、資料框,甚至是其他列表的組合。可以使用函式list()建立列表:

mylist

注:列表成為了r中的重要資料結構。

1.列表允許以一種簡單的方式組織和重新呼叫不相干的資訊;

2.許多r函式的執行結果都是以列表的形式返回的。

R語言學習筆記(一) 建立R語言資料集

r是一種用於資料處理和統計分析的指令碼語言。今天簡單練習了r語言的各種資料集包括向量 矩陣 陣列和資料框建立及使用。1.向量 1 向量是用於儲存數值型 字元型或邏輯型資料的一維陣列 2 如何用r語言建立向量呢?字元型 輸入 a c h e l l o a 得到結果 1 h e l l o 數值型 b...

r語言資料變數分段 R語言之資料彙總

我們在分析資料的時候,除了資料結構上的調整之外,很多時候也需要將資料進行彙總處理,比如最簡單的計算行列均值 方差等,同時,資料彙總的結果也可以幫助進行一些實驗設計和視覺化顯示,下面我們說一下如何使用r進行資料彙總處理。一 簡單的行列彙總 1.可以使用colmean colsums 對列計算均值和求和...

r語言electricity資料集 R語言 資料集

第二章 建立資料集 1.r語言的資料型別 數值型 字元型 邏輯型 複數型 虛數 和原生型 位元組 2.資料結構 a.向量 儲存數值型 字元型和邏輯型資料的一維陣列 a c 1,2,3,4,5 建立 組合功能的函式c a 1 1 2 3 4 5 a c 1,4 訪問 方括號 向量中指定的元素 1 1 ...