R中異常值檢測

2021-09-02 16:59:00 字數 1509 閱讀 2710

data1=complete.cases(selectdata)  #布林判斷

# true代表1,false代表0

sum(complete.cases(selectdata)) #完整資料200條

sum(!complete.cases(selectdata)) #不完整資料1條

mean(!complete.cases(selectdata)) #缺失比例 1/201

selectdata[!complete.cases(selectdata),] #布林條件篩選

sp=boxplot(selectdata$銷量,boxwex=0.7)

sp$out

title("銷量異常值檢測箱形圖")

xi=1.1

sd.s=sd(selectdata[complete.cases(selectdata),]$銷量)

mn.s=mean(selectdata[complete.cases(selectdata),]$銷量)

points(xi,mn.s,col='red',pch=19)

arrows(xi,mn.s-sd.s,xi,mn.s+sd.s,code = 3,col = 'pink',angle = 60,length = .1)

text(rep(c(1.05,0.95),length(sp$out)/2),sp$out,sp$out,col = 'green')

**資料如下:

第一步檢測資料缺失情況,利用complete.case()函式

第二步篩選完整資料作箱型圖,判斷異常值

這裡用到第二種

各引數含義:

x資料range 須從盒子伸出多遠

width 箱體寬度

varwidth : 邏輯值,控制箱體的寬度, 只有圖中有多個箱體時才發揮作用,預設為false

notch:中位值處切口邏輯值

names:分組標籤

border:箱體中線條顏色

pars:比例係數

輸出值

conf:切口的上下

out:須兩端外的值

k用於計算區域性離群因子的鄰域數

stl()

時間序列的季節分解

異常值檢測(Outlier Detection)

什麼是異常值?對於定性變數來說,異常值是出現次數非常少的類別 對於定量變數來說,異常值是明顯大於或小於其他觀測值的數值。異常值產生的原因 a.人為錯誤 在資料收集,記錄或輸入過程中導致的錯誤。c.實驗誤差 d.資料處理錯誤 某些操作或提取錯誤。e.抽樣錯誤 f.自然異常值 不是人為的 由於錯誤 導致...

對Dataframe中異常值檢測求助

工程中檢測很多個閥門的開關,並且按照時間順序對閥門進行排序。剛用python,純小白,還請大家不吝賜教 挑選出閥門開 關的電訊號,並選擇他相對應的時間,然後將所有的時間排序,因此能看出按照時間順序的開關順序。現在主要是想通過pandas裡的dataframe來處理資料,csv的資料如圖,第一列就是時...

常用異常值檢測方法

方法 1 均方差 在統計學中,如果乙個資料分布近似正態,那麼大約 68 的資料值會在均值的乙個標準差範圍內,大約 95 會在兩個標準差範圍內,大約 99.7 會在三個標準差範圍內。方法 2 箱形圖 箱形圖是數字資料通過其四分位數形成的圖形化描述。這是一種非常簡單但有效的視覺化離群點的方法。考慮把上下...