《R語言資料分析》 3 4 彙總函式

2021-09-23 16:45:56 字數 1351 閱讀 8101

3.4 彙總函式

正如我們之前討論過的一樣,所有聚集函式都能對資料子集應用任意合法的r函式。一些r開發包為使用者提供了非常方便的實現,而有少部分函式也確實要求讀者要理解整個開發包的內容、特定的語法格式以及引數調優方法。

現在,我們將專注於簡單的彙總函式,這些內容在一般的資料分析物件中應用非常普遍,例如,計算每個分組的案例數目。下面的樣例也會對本章介紹的替代方法的差異進行特別說明。

統計子分組樣例數

現在我們已經清楚週六從休斯頓出發的航班相對較少,那麼我們真的有必要對這樣乙個簡單的問題給出這樣的回答?另外,我們還需要給樣例個數變數進行命名嗎?結果是已知的:

簡而言之,不必從data.frame選擇乙個變數來獲取它的長度,因為查詢資料子集的行數更簡單也更快。

當然,我們還可以找到更簡單和更快的方法來獲得同樣的結果。也許,讀者們早已想到要使用基本的table函式來執行這樣乙個簡單的任務:

使用這個方法唯一的問題就是我們還需要對結果進行轉換,例如大多數情況下是轉換成data.frame。plyr包也早已實現了乙個輔助函式來完成這個任務,函式的名字非常直觀:

我們在結束的時候給出了一些非常簡單的資料統計樣例,不過仍有必要介紹如何使用dplyr對**進行彙總。如果讀者僅僅想修改之前dplyr命令,馬上就會發現我們前面在plyr包中改變length或nrow函式的方法在這裡行不通。stackoverf?low給出的一些說明指出我們需要使用乙個名為n的輔助函式:

不過,老實說,我們真的有必要使用這樣一種相對複雜的方法嗎?如果讀者們還記得hflights_dayofweek的結構,就馬上會想到另外一種查詢航班數的更簡單和更快的方法:

為了確保我們還沒忘記data.table的特定(美觀的)語法,我們可以使用另外乙個輔助函式來計算結果:

R語言 資料分析

二 大資料分析 三 資料分析常用工具 資料分析是指用適當的統計方法對收集來的大量第一手資料和第二手資料進行分析,以求最大化地開發資料資料的功能,發揮資料的作用。資料分析是為了驗證假設的問題,需要提供必要的資料驗證。分析模型構建完成後,需要利用測試資料驗證模型的正確性。資料分析是為了挖掘更多的問題,並...

R語言 基本資料分析

本文基於r語言進行基本資料統計分析,包括基本作圖,線性擬合,邏輯回歸,bootstrap取樣和anova方差分析的實現及應用。不多說,直接上 中有注釋。1.基本作圖 盒圖,qq圖 basic plot boxplot x qqplot x,y 2.線性擬合 linear regression n 1...

R語言 TCGA資料分析一

我最近在做tcga資料分析,在處理中遇到的問題及其收穫。主要包括 涉及到的函式有 小寫 大寫 單一的區域性匹配 多個全域性匹配 保留固定長度的字元在ranseqgene中case id 為大寫的,而clincial中為小寫的。需要對case id 做轉換。方案一 大寫變小寫tolower colna...