《商務與經濟統計》學習筆記(三)

2021-10-04 23:18:42 字數 1459 閱讀 2428

有時候資料集中會包含乙個或多個異常大或小的觀測值,這些極端值稱為異常值。

標準化數值(z-分數)可以用來確認異常值。

什麼是(z-分數):利用平均數和標準差,我們可以確定任何觀察值的相對位置。任何觀測值的z-分數都被認為是對資料集中觀測值相對位置的量度。

計算公式為:

z i=

(xi−

xˉ)/

s.z_ =(x_-\bar x)/s.

zi​=(x

i​−x

ˉ)/s

.其中ziz_

zi​代表z-分數,x

ˉ\bar x

xˉ為樣本平均數;s為樣本標準差。

經驗法則:對具有鐘形分布的資料,幾乎所有的資料值與平均數的距離都在3各標準差之內。因此,利用z-分數來檢測異常時,建議把z-分數小於-3或大於+3的任何數值都視為異常值。

另一種方法:

確認異常值的另一種方法是以第一四分位數和第三四分位數(q1q_

q1​和q3q_

q3​)以及四分位數間距(iqr

iqriq

r)為依據。利用這種方法,我們首先計算如下的下限和上限:

下 限=

q1−1.5×i

qr上限

=q3+

1.5×iq

riqr

=q3−

q1.下限=q_-1.5\times iqr\\ 上限=q_+1.5\times iqr\\ iqr = q_-q_.

下限=q1​

−1.5

×iqr

上限=q

3​+1

.5×i

qriq

r=q3

​−q1

​.如果乙個觀測值的數值小於下限或者大於上限,則被歸於異常值。

四分位數(quartile)也稱四分位點,是指在統計學中把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值。多應用於統計學中的箱線圖繪製。它是一組資料排序後處於25%和75%位置上的值。四分位數是通過3個點將全部資料等分為4部分,其中每部分包含25%的資料。很顯然,中間的四分位數就是中位數,因此通常所說的四分位數是指處在25%位置上的數值(稱為下四分位數)和處在75%位置上的數值(稱為上四分位數)。與中位數的計算方法類似,根據未分組資料計算四分位數時,首先對資料進行排序,然後確定四分位數所在的位置,該位置上的數值就是四分位數。

五數概括法使用下面五個數來彙總資料:

(1)最小值

(2)第一四分位數

(3)中位數(第二四分位數)

(4)第三四分位數

(5)最大值

箱型圖:基於五數概括法的資料圖形彙總。

《商務與經濟統計》Python實現筆記(一)

import pandas as pd import numpy as np from scipy import stats 傳資料 data pd.read excel r c users liuhao desktop python work python資料分析與挖掘實戰 chapter8 te...

統計學習筆記一 統計學習三要素

統計學習的三要素為 模型 策略 演算法。一 模型 1 在監督學習當中,我們的目的是學習乙個由輸入到輸出的對映,這個對映就是模型。一般來說,模型有兩種形式,一種是概率模型 條件概率分布p y x 另一種形式是非概率模型 決策函式y f x 2 假設空間是一集合 由輸入空間到輸出空間所有對映的集合。即 ...

統計學習 統計學習三要素

模型是所要學習的條件概率分布或者決策函式。統計學習的目的在於從假設空間中選取最優模型。故需要引入損失函式與風險函式。損失函式 衡量模型一次 的好壞。風險函式 衡量平均意義模型 的好壞。l y,f x begin 1,y neq f x 0,y f x end l y,f x y f x 2 l y,...