R語言 資料抽樣的實現

2021-07-23 11:52:05 字數 2205 閱讀 9835

這裡主要介紹簡單隨機抽樣、分層抽樣、整群抽樣三種基本抽樣方法。

用到的軟體包及函式

軟體包函式

函式意義

base(無需載入,預設含有)

sample()

簡單隨機抽樣

stratr()

分層抽樣

cluster()

整群抽樣

實現簡單的三七原則分割資料集和驗證集

x: 帶抽取物件

size: 想要抽取的樣本數量

replace: 是否為有放回,預設為false,即無放回

prob: 設定個抽取樣本的抽樣概率,預設為無取值,即等概率抽樣

例子,以mass包中的insurance資料集為例:

實現無放回抽樣時,只需不對replace引數進行設定即可,此時size的取值不可以超過x的長度。

strata(data, stratanames=null, size, method=c("srswor","srswr","poisson","systematic"),pik,description=false)

data: 帶抽樣資料

stratanames: 進行分層所依據的變數名稱

size: 各層中要抽出的觀測樣本數

method: 選擇4中抽樣方法,分別為無放回、有放回、泊松、系統抽樣,預設為srswor

pik: 設定各層中樣本的抽樣概率

description: 選擇是否輸出含有各層基本資訊的結果

令description = t, 會給出共有多少層,每層中帶抽樣本總數及實際抽採樣本數。

clustername: 用來劃分群的變數名稱

size:需要抽取的群數

抽中了district = 2,4的兩個整群(下圖只顯示了一部分)

x為輸入變數,y為輸出變數。利用訓練集中的x,y建立模型。

將測試集中的x帶入模型,來**測試集目標輸出變數y的值,設為y』,將訓練集的x帶入模型,來**訓練集目標輸出變數y的值,設為y』』。那麼y』』與y的誤差評價了模型的擬合程度,即自己對自己的契合程度;而y』與y的誤差則評價了模型的推廣程度,即與別人的契合程度。當我們說乙個模型相對較好時,往往指該模型的擬合程度和推廣程度綜合最優。

一般控制訓練集與測試集之比為3:1:

R實現資料抽樣

訓練集與測試集x為輸入變數,y為輸出變數。利用訓練集中的x,y建立模型。將測試集中的x帶入模型,來 測試集目標輸出變數y的值,設為y 將訓練集的x帶入模型,來 訓練集目標輸出變數y的值,設為y 那麼y 與y的誤差評價了模型的擬合程度,即自己對自己的契合程度 而y 與y的誤差則評價了模型的推廣程度,即...

R語言 PPS抽樣

今天有朋友諮詢我怎麼寫pps抽樣的 試著找了下,找到乙個實現pps抽樣的r包。pps 抽樣是指按概率比例抽樣,屬於概率抽樣中的一種。是指在多階段抽樣中,尤其是二階段抽樣中,初級抽樣單位被抽中的機率取決於其初級抽樣單位的規模大小,初級抽樣單位規模越大,被抽中的機會就越大,初級抽樣單位規模越小,被抽中的...

R語言抽樣的問題

sample x,size,replace f t x是資料集,size規定了從物件中抽出多少個數 replace 為f時候,表示每次 抽取後的數就不能在下一次被抽取 t表示抽取過的數可以繼續拿來被抽取。以某兩類資料為目標做抽樣,其中一類樣本數量特別小,一類樣本數特別大,這就是不平衡的情況。對應處理...