rstudio中讀取資料 R語言讀取外部資料檔案

2021-10-16 21:23:42 字數 2576 閱讀 8653

使用r語言的時候,如果是少量資料,不妨使用c()或其他函式進行建立;但是對於大量資料,最好還是先通過其他更方便的軟體建立資料檔案,然後使用r讀入這個檔案。

前文說,.csv是非常好的資料檔案格式,跨平台支援非常好。我在excel或者spss中建立的資料,只要存為csv格式,就可以使用幾乎任何資料處理軟體對這些資料進行處理了。使用通用格式在多人合作、不同版本相容等常見行為中,優勢十分明顯。另外,之所以使用不同的資料處理軟體,第一,可以取長補短。比如有些工作spss很複雜的,可以用r語言幾行命令搞定。第二,可以進行軟體間處理結果對照,發現問題。

r語言中讀取外部檔案的最基本函式是read.table(),先介紹read.table(),然後再介紹專門用來讀csv的read.csv()。

敲入?read.table命令,就看到了關於資料輸入函式的說明。對read.table,使用格式是這樣的;

read.table(file, header = false, sep =

"", quote = "\"'",

dec = ".", row.names,

col.names,

as.is = !stringsasfactors,

na.strings = "na", colclasses = na,

nrows = -1,

skip = 0, check.names = true, fill =

!blank.lines.skip,

strip.white = false, blank.lines.skip =

true,

comment.char = "#",

allowescapes = false, flush =

false,

stringsasfactors =

default.stringsasfactors(),

fileencoding = "", encoding = "unknown",

text)

引數很多,最常用的也就幾個,重寫如下:

read.table(file, header = false, sep =

"", quote = "\"'",

dec = ".", skip = 0,

strip.white = false, blank.lines.skip =

true,

comment.char = "#")

file表示要讀取的檔案。file可以是①絕對路徑或者相對路徑,但是一定要注意,因為在r語言中\是轉義符,所以路徑分隔符必須寫成\\,比如「c:\\myfile\\myfile.txt」。②可以使剪下板的內容。③使用file.choose(),彈出對話方塊,讓你選擇檔案位置。強烈推薦使用第三種方法,免去了記憶和書寫檔案路徑的麻煩,特別是能夠避免因資料檔案位置移動帶來的錯誤!例如:read.table(file.choose(),...)。

header來確定資料檔案中第一行是不是標題。預設f,即認為資料檔案沒有標題,也即認為第一行就開始是資料了!例如:

姓名年齡收入

小六12 350

如果header=f,讀進來的第一行資料是「姓名

年齡收入」,header=t,讀進來的第一行是「小六 12 350」。

sep指定分隔符,預設是空格。quote是引號,預設就是雙引號。dec是小數點的表示,預設就是乙個點。skip是確定是否跳過某些行。strip.white確定是否消除空白字元。blank.lines.skip確定是否跳過空白行。comment.char指定用於表示注釋的引導符號。

一般情況下,我們只需要預設值就夠了。

下面是乙個簡單的例子,本例子中,首行是標題而不是資料,使用\t進行分割而不是空格。讀取後的資料變數設為mydata。所以,可以寫出讀取方式為:

mydata

其中,t和true的效果是一樣的,正如f和false的效果是一樣的。

和read.table有所不同的,是read.csv的預設引數有別。注意看,header和sep的預設值。

read.csv(file, header = true, sep = ",",

quote="\"", dec=".",

fill = true,

comment.char="")

因為csv就是逗號分割的意思,當然sep必須是逗號。header也是預設有標題的。fill是預設填充的,即遇到行不相等的情況,空白域自動新增既定值。如果使用預設的設定,可以寫出:

mydata2

十分簡單。

對於讀取剪下板的方式,不推薦使用。我們之所以使用讀取檔案,就是增加程式的可復用性,而讀剪下板顯然是破壞了這種初衷的。因此,不到萬不得已,盡量使用檔案路徑或者檔案選擇的形式。

對於其他軟體的專用格式,是要使用擴充套件包的,比如常見的foreign包引入之後,可以讀minitab,

s, sas, spss, stata, systat,

dbase等軟體專用格式的資料檔案。這個操作此處就不談了。

最後,提醒大家一定要勤使用、多使用help。rstudio的布局,讓help檢視十分便捷。很多時候,忘了某個命令怎麼玩,只要在命令視窗輸入「?某函式」,就可以邊看右側的提示,邊在左側命令欄繼續工作,只需要左右晃動幾下眼睛而已,將不會再為命令單詞怎麼拼、共有哪些引數可選等問題而困擾!看圖:

R語言 Rstudio 中文支援

sudo ln s usr lib dpkg architecture qdeb build multiarch qt5 plugins platforminputcontexts libfcitxplatforminputcontextplugin.so usr lib rstudio bin p...

R語言入門心得 2 RStudio

rstudio是較早的跨平台的r語言開發ide,其包含開源版和商業版,這兩個版本對大多數的桌面系統都有很好的支援 在linux的系統上,rstudio還支援搭建基於網路的rstudio server或者rstudio server pro。rstudio具有如下特性 1 針對r的語法高亮,自動完成和...

R語言第一課 R和Rstudio

r是一種程式語言,也是統計計算和繪圖的環境,它匯集了許多函式,能夠提供強大的功能。r語言軟體介面簡陋,通常不直接使用,而是用圖形介面的rstudio。rstudio是免費提供的開源整合開發環境 ide rstudio提供了乙個具有很多功能的環境,使r更容易使用,是在終端中使用r的絕佳選擇。第一次上手...