一 R 語言 資料預處理 方法和步驟

2021-08-18 07:09:06 字數 2433 閱讀 2078

一、分析單變數常用的函式

用r 自帶的資料bjsales

#基本資料檢視

#均值view(bjsales)

mean(bjsales)

mean(bjsales,trim = 0.1)

#中位數

median(bjsales)

#分位數

quantile(bjsales)

quantile(bjsales,c(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9))

#分布圖

par(mfrow= c(2,2))

hist(bjsales)

#離散度

#極值range(bjsales)

#方差(方差越大越離散)平方

var(bjsales)

#標準差(方差的標準化)開平方

sd(bjsales)

#標準化(標準化以後可以比較兩個變數的方差和標準差)

scale(bjsales)

#標準誤(和標準差相比消除了長度的影響)

error <- sqrt(var(bjsales)/length(bjsales))

error

#偏度峰度函式

mystats <- function(x,na.omit=f)

mystats(bjsales)

二、r 提供的統計彙總函式

用r 自帶的資料attenu

#檢視資料集(**觀測站的資訊)

#event:編號mag:級數station:站台號dist:震源距accel:最大加速度

library(datasets)

view(attenu)

attributes(attenu)

str(attenu)

#基本函式

summary(attenu)

library(hmisc)

describe(attenu)

library(fbasics)#金融領域的軟體包

basicstats(attenu$accel)

#分布指數

library(timedate)#金融領域的軟體包

三、異常值檢視和處理

#異常值

#箱線圖

boxplot(attenu$dist)

boxplot.stats(attenu$dist)

#處理方法:簡單粗暴的刪除法

n <- which(attenu$dist %in% boxplot.stats(attenu$dist)$out)

boxplot(attenu[-n,]$dist)#還存在異常值說明方法錯誤

#蓋帽法(不多說)

#多峰異常值處理lof演算法

library(dmwr)

lofactor(attenu$dist,k=5)

四、缺失值的檢視和處理

用r 自帶的資料airquality

#缺失值

library(mice)

md.pattern(airquality)

#含缺失值的行

notna <- complete.cases(airquality)

nrow(airquality[which(notna==f),])

#刪除方法:簡單粗暴

airquality_n <- na.omit(airquality)

#均值填寫

airquality[is.na(airquality$ozone),"ozone"] <- mean(airquality$ozone,na.rm = t)

#中位數填寫

airquality[is.na(airquality$ozone),"ozone"] <- median(airquality$ozone,na.rm = t)

#按照相關性進行填寫(歐氏距離)

library(dmwr)

airquality <- knnimputation(airquality,k=10,meth = "mean")

#回歸方法(後續補充)

五、相關性分析

#相關性

library(rattle)

airquality_n <- na.omit(airquality)

cor_airquality_n <- cor(airquality_n)

#圖形展示

library(ellipse)

plotcorr(cor_airquality_n,col = rep(c("white","black"),5))

plotcorr(cor_airquality_n,diag = t,type = "lower",col = rep(c("white","black"),5))

R語言 資料預處理

資料預處理的常見做法 寫完 閒來無事,想寫寫部落格!這是我寫的第一篇文章,請多多支援!謝謝!data read.csv data.csv 讀入資料 dim data 看資料中有多少行,多少列 str data 看資料中變數型別 summary iris 數值型的變數給出最大,最小,中位數,均值,上下...

R語言 實驗三 資料探索和預處理

計算缺失值個數 計算缺失率 簡單統計量 計算最值 箱形圖分析 分布分析 畫出頻率直方圖 統計量分析 對於連續屬性值,求出均值以及標準差 缺失值處理 刪除法 去除無用屬性 刪除 id 屬性 或者 離散化 把 children 屬性轉換成分型別的兩個值 yes 和 no 把income屬性按照節點126...

資料預處理的步驟

資料清理 資料整合 資料歸約 資料變換 1.資料清理 就是處理髒資料,包括填寫缺失值 清除雜訊資料 降噪 糾正不一致資料 識別或刪除離群點等。常用工具例如 etl工具 2.資料整合 data integration 整合多個資料庫資料。將資料由多個資料來源合併成乙個一致資料儲存,如 資料倉儲。注意 ...