R語言資料抽樣的實現

這裡主要介紹簡單隨機抽樣、分層抽樣、整群抽樣三種基本抽樣方法。

用到的軟體包及函式

軟體包函式

函式意義

base(無需載入，預設含有)

sample()

簡單隨機抽樣

stratr()

分層抽樣

cluster()

整群抽樣

實現簡單的三七原則分割資料集和驗證集

x: 帶抽取物件

size: 想要抽取的樣本數量

replace: 是否為有放回，預設為false，即無放回

prob: 設定個抽取樣本的抽樣概率，預設為無取值，即等概率抽樣

例子，以mass包中的insurance資料集為例：

實現無放回抽樣時，只需不對replace引數進行設定即可，此時size的取值不可以超過x的長度。

strata(data, stratanames=null, size, method=c("srswor","srswr","poisson","systematic"),pik,description=false)

data: 帶抽樣資料

stratanames: 進行分層所依據的變數名稱

size: 各層中要抽出的觀測樣本數

method: 選擇4中抽樣方法，分別為無放回、有放回、泊松、系統抽樣，預設為srswor

pik: 設定各層中樣本的抽樣概率

description: 選擇是否輸出含有各層基本資訊的結果

令description = t, 會給出共有多少層，每層中帶抽樣本總數及實際抽採樣本數。

clustername: 用來劃分群的變數名稱

size：需要抽取的群數

抽中了district = 2,4的兩個整群（下圖只顯示了一部分）

x為輸入變數，y為輸出變數。利用訓練集中的x,y建立模型。

將測試集中的x帶入模型，來**測試集目標輸出變數y的值，設為y』，將訓練集的x帶入模型，來**訓練集目標輸出變數y的值，設為y』』。那麼y』』與y的誤差評價了模型的擬合程度，即自己對自己的契合程度；而y』與y的誤差則評價了模型的推廣程度，即與別人的契合程度。當我們說乙個模型相對較好時，往往指該模型的擬合程度和推廣程度綜合最優。

一般控制訓練集與測試集之比為3:1：

R語言資料抽樣的實現

R實現資料抽樣

R語言 PPS抽樣

R語言抽樣的問題

R語言 資料抽樣的實現

R實現資料抽樣

R語言 PPS抽樣

R語言抽樣的問題

相關推薦

R語言資料抽樣的實現