Rscript 資料框的統計量彙總

2021-08-14 17:24:17 字數 1150 閱讀 1830

1、向量是有名字的,可以使用names()檢視或者unname()去除

2、構建空的向量或者空的資料框接收迴圈結果的時候,必須把構建步驟放在循壞之外,否則每次迴圈都會生成新的空的資料框,最終得到的資料框會有很多零值。

setwd("e:/天睿teradata/data_analysis")

rawdata

#篩選出待分析資料(只挑選數值型變數),並用p_1與p_99替換異常值:

data_prepare

newdata

for(i in 1:ncol(dta))

return(dta)

}#匯出新錶:

newdata

write.csv(newdata,"newdata.csv")

#得到統計量資料框statistic_framework

statistic_framework

statistic_vector

return(statistic_vector)

} ncol_result

result

rownames(result)

for(i in 1:ncol(dta))

colnames(result)

"p_15","p_20","p_25","p_30","p_35","p_40","p_45","p_50","p_55","p_60","p_65",

"p_70","p_75","p_80","p_85","p_90","p_91","p_92","p_93","p_94","p_95","p_96","p_97",

"p_98","p_99","p_100")

return(result)

}#檢視測試資料結果:

statistic_result

write.csv(statistic_result,"statistic_result.csv")

資料的統計量 方差

上一節我們聊過 四分位數,其實還有十分位數,都是一樣的計算方法。他們都是獲取資料的分散性。通過箱線圖來體現。但有的時候,我們可能會對資料要求更高,希望 獲取其中的變異性,如工資變化差異到底多大,屌絲公司基本都是1.5 3k,土豪公司可能1w,5w,8w各種都有。那麼如果知道公司的工資是有很多檔位呢?...

順序統計量的選擇

在選擇順序統計量中,期望的時間複雜度是o n 主要是對於給定的陣列,從其中選擇出第k小的值。其與原理 利用了快速排序中的隨機分割區間的函式,將第k小的值分割到乙個區域裡面,相當於把該問題劃分的時候只劃分了乙個子問題,就沒有o lgn 根據快速排序的時間複雜度為o nlgn 可知,其時間複雜度為o n...

常用的統計量和抽樣分布

一 統計量 樣本均值 即在總體中的樣本資料的均值,反映樣本資料的集中趨勢。樣本方差 每個樣本值與全體樣本值平均數之差的平方值的平均數 方差是用來衡量隨機變數和其數學期望 均值 之間的偏離程度。樣本變異係數 變異係數又稱為離散係數,定義為標準差與平均值之比,樣本變異係數即樣本資料的標準差與其均值之比。...