有時候資料集中會包含乙個或多個異常大或小的觀測值,這些極端值稱為異常值。
標準化數值(z-分數)可以用來確認異常值。
什麼是(z-分數):利用平均數和標準差,我們可以確定任何觀察值的相對位置。任何觀測值的z-分數都被認為是對資料集中觀測值相對位置的量度。
計算公式為:
z i=
(xi−
xˉ)/
s.z_ =(x_-\bar x)/s.
zi=(x
i−x
ˉ)/s
.其中ziz_
zi代表z-分數,x
ˉ\bar x
xˉ為樣本平均數;s為樣本標準差。
經驗法則:對具有鐘形分布的資料,幾乎所有的資料值與平均數的距離都在3各標準差之內。因此,利用z-分數來檢測異常時,建議把z-分數小於-3或大於+3的任何數值都視為異常值。
另一種方法:
確認異常值的另一種方法是以第一四分位數和第三四分位數(q1q_
q1和q3q_
q3)以及四分位數間距(iqr
iqriq
r)為依據。利用這種方法,我們首先計算如下的下限和上限:
下 限=
q1−1.5×i
qr上限
=q3+
1.5×iq
riqr
=q3−
q1.下限=q_-1.5\times iqr\\ 上限=q_+1.5\times iqr\\ iqr = q_-q_.
下限=q1
−1.5
×iqr
上限=q
3+1
.5×i
qriq
r=q3
−q1
.如果乙個觀測值的數值小於下限或者大於上限,則被歸於異常值。
四分位數(quartile)也稱四分位點,是指在統計學中把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值。多應用於統計學中的箱線圖繪製。它是一組資料排序後處於25%和75%位置上的值。四分位數是通過3個點將全部資料等分為4部分,其中每部分包含25%的資料。很顯然,中間的四分位數就是中位數,因此通常所說的四分位數是指處在25%位置上的數值(稱為下四分位數)和處在75%位置上的數值(稱為上四分位數)。與中位數的計算方法類似,根據未分組資料計算四分位數時,首先對資料進行排序,然後確定四分位數所在的位置,該位置上的數值就是四分位數。五數概括法使用下面五個數來彙總資料:
(1)最小值
(2)第一四分位數
(3)中位數(第二四分位數)
(4)第三四分位數
(5)最大值
箱型圖:基於五數概括法的資料圖形彙總。
《商務與經濟統計》Python實現筆記(一)
import pandas as pd import numpy as np from scipy import stats 傳資料 data pd.read excel r c users liuhao desktop python work python資料分析與挖掘實戰 chapter8 te...
統計學習筆記一 統計學習三要素
統計學習的三要素為 模型 策略 演算法。一 模型 1 在監督學習當中,我們的目的是學習乙個由輸入到輸出的對映,這個對映就是模型。一般來說,模型有兩種形式,一種是概率模型 條件概率分布p y x 另一種形式是非概率模型 決策函式y f x 2 假設空間是一集合 由輸入空間到輸出空間所有對映的集合。即 ...
統計學習 統計學習三要素
模型是所要學習的條件概率分布或者決策函式。統計學習的目的在於從假設空間中選取最優模型。故需要引入損失函式與風險函式。損失函式 衡量模型一次 的好壞。風險函式 衡量平均意義模型 的好壞。l y,f x begin 1,y neq f x 0,y f x end l y,f x y f x 2 l y,...