資料質量分析

2022-06-29 22:15:08 字數 2080 閱讀 1424

本文讀取了csv檔案,完成了下列要求

import

pandas as pd

from matplotlib import

pyplot as plt

import

matplotlib as mpl

#讀取檔案資料

csv_file = r"

c:/users/sun tianwen/desktop/catering_sale.csv

"csv_data = pd.read_csv(csv_file, low_memory=false,encoding='

gbk'

)csv_df =pd.dataframe(csv_data)

print

(csv_df)

結果

日期      銷量

0 2015/3/1 51.0

1 2015/2/28 2618.2

2 2015/2/27 2608.4

3 2015/2/26 2651.9

4 2015/2/25 3442.1.. ... ...

196 2014/8/6 2915.8

197 2014/8/5 2618.1

198 2014/8/4 2993.0

199 2014/8/3 3436.4

200 2014/8/2 2261.7

#

求最大值、最小值及平均值

print("

最小值:")

print

(csv_data.min())

print("

最大值:")

print

(csv_data.max())

print("

平均值:")

print(csv_data.mean())

結果

最小值:

日期 2014/10/1銷量 22.0dtype: object

最大值:

日期 2015/3/1銷量 9106.44

dtype: object

平均值:

銷量 2755.2147dtype: float64

#

統計缺失變數個數

print("

缺失變數個數:")

print

(csv_df.isnull().sum())

#樣本個數

print("

樣本個數:")

print(csv_df["

銷量"].shape[0])

結果

缺失變數個數:

日期 0

銷量 1dtype: int64

缺失樣本個數:

201

#

繪製箱形圖

mpl.rcparams['

font.sans-serif

'] = ['

fangsong

'] #

指定預設字型

mpl.rcparams['

axes.unicode_minus

'] =false

y=csv_df["銷量"

]plt.title(

"箱型圖

",fontsize=20) #

設定標題

plt.ylabel("

銷量") #

設定y軸標籤

plt.grid(linestyle='

--',alpha=0.5) #

設定**線型別,透明度為0.5

plt.boxplot(y) #

畫圖plt.show()

結果

圖中單獨的點即為異常值,看圖可知有6個異常值

資料質量分析和特徵分析

1.資料質量分析包括缺失值分析,異常值分析 1.1資料質量分析之異常值分析 資料質量驗證最常用的方法是最大值和最小值,用來判斷這個變數的範圍是否超出了合理區間。如果資料服從正態分佈,在3 原則下,異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值,在正態分佈的假設下距離平均值3 之外的值出現...

系統質量分析

的效能測試。從不同角度看待 的效能例如 使用者角度,直觀的反映出 的執行速度,在開發 系統時,只有自己進行測試,能夠通順的完成測試,效能不穩定,穩定 行較差,使用者測試滿意度較低,只是不足之處。開發人員角度測試 的穩定性,只有考錄周全,新增合理構造,使之完善。的高可用性 要保障萬無一失。為客戶服務,...

資料探索之資料質量分析

資料質量分析的主要任務是檢查原始資料中是否存在髒資料,髒資料一般指的是不符合要求,以及不能直接進行相應分析的資料。資料的質量分析側重於髒資料的發現,而資料清洗則是對這些髒資料的修正或者丟棄。一般情況下,資料的質量分析與資料清洗是相伴而行的,在分析出髒資料的時候伴隨著資料的清洗。常見的髒資料報括如下 ...