R語言基本統計分析 抽樣

2021-08-28 19:11:34 字數 1348 閱讀 4426

簡單隨機抽樣是指從資料總體中任意抽取指定數量的資料作為樣本,其中每個可能被抽取中的樣本概率相等。可以用r語言中的sample()函式進行隨機抽樣。抽取方法分為:重置抽樣,不重置抽樣。

r語言命令為:

sample(x, size, replace = false, prob = null)

其中,x為樣本資料,size為抽取個數,replace為是否開啟重置抽樣,prob資料被抽中的權重值。如,從x=c(1,2,3)中抽取2個樣本,若想被抽中的概率為40%,30%,30%,則應該設定為size=2,prod=c(4,3,3)

從1~100賦以不同的權重的資料中的抽取3個資料,抽樣結果為:

分層抽樣將分成不同子總體(或稱為層)的總體中,按規定的比例從不同層中隨機抽採樣品(個體)的方法。這種方法的優點是,樣本的代表性比較好,抽樣誤差比較小。缺點是抽樣手續較簡單隨機抽樣還要繁雜些。

r語言sampling包的sampling::strata()可以實現,其命令為:

strata(data, stratanames=null, size, method=c(「srswor」,「srswr」,「poisson」,

「systematic」), pik,description=false)

其中,x為樣本資料, stratanames為分層抽樣要使用的變數,size為各層抽取個數,method指的是抽樣方法,「srswor」、「srswr」、「poisson」、"systematic"分別指不重置簡單抽樣、重置簡單抽樣、泊松抽樣、系統抽樣,pik指的是各資料報含在樣本中的概率,description預設為false,若設定為true則輸出樣本個數和總體個數。

返回值id_unit(被菜單元的標誌符)、stratum(單元層)、prob(包含單元的概率)

從iris資料集的三個品質分別抽取2,3,4個樣本的抽樣結果:

先將總體的全部單元按照一定順序排列,採用簡單隨機抽樣抽取第乙個樣本單元(或稱為隨機起點),再順序抽取其餘的樣本單元,這類抽樣方法被稱為等距抽樣(systematic sampling)。等距抽樣又稱為機械抽樣、系統抽樣。等距抽樣往往不能給出估計量的估計方差。

r語言sampling包的sampling::strata()可以實現,其命令為:

sampleby(formula, frac = 0.1, replace = false, data = parent.frame(),

systematic = false)

其中formula為資料分組公式的定義, frac為抽取比例,replace為是否開啟重置抽樣,data為資料框,systematic取true時啟用系統抽樣

R語言的基本統計分析

描述性統計分析 利用 mtcars 資料集,我們提取出英里數 mpg 馬力 hp 車重 wt myvars c mpg hp wt head mtcars myvars mpg hp wt mazda rx4 21.0 1102.620 mazda rx4 wag 21.0 1102.875 dat...

R之基本統計分析

此部落格主要評述用於生成基本的描述性統計量和推斷統計量的r函式。library hmisc vars c mpg hp wt describe mtcars vars a describe mtcars vars 通過a 來獲取結果 a counts 1 即為觀測數量的值pastecs包中有乙個名為...

r語言與統計分析考試題 R語言與統計分析第四章答案

第四章習題 4.1 xhist x,main c 1000 個引數為 0.3的伯努利分布隨機數 4.2 xhist x,probability t,xlim c min x max x nclass max x min x 1,col lightblue main c 1000 個正態分佈隨機數 l...