資料質量分析

本文讀取了csv檔案，完成了下列要求

import
pandas as pd
from matplotlib import
pyplot as plt
import
matplotlib as mpl
#讀取檔案資料
csv_file = r"
c:/users/sun tianwen/desktop/catering_sale.csv
"csv_data = pd.read_csv(csv_file, low_memory=false,encoding='
gbk'
)csv_df =pd.dataframe(csv_data)
print
(csv_df)

結果

日期銷量

0 2015/3/1 51.0

1 2015/2/28 2618.2

2 2015/2/27 2608.4

3 2015/2/26 2651.9

4 2015/2/25 3442.1.. ... ...

196 2014/8/6 2915.8

197 2014/8/5 2618.1

198 2014/8/4 2993.0

199 2014/8/3 3436.4

200 2014/8/2 2261.7

#
求最大值、最小值及平均值
print("
最小值：")
print
(csv_data.min())
print("
最大值:")
print
(csv_data.max())
print("
平均值：")
print(csv_data.mean())

結果

最小值：

日期 2014/10/1銷量 22.0dtype: object

最大值:

日期 2015/3/1銷量 9106.44

dtype: object

平均值：

銷量 2755.2147dtype: float64

#
統計缺失變數個數
print("
缺失變數個數:")
print
(csv_df.isnull().sum())
#樣本個數
print("
樣本個數：")
print(csv_df["
銷量"].shape[0])

結果

缺失變數個數:

日期 0

銷量 1dtype: int64

缺失樣本個數：

201

#
繪製箱形圖
mpl.rcparams['
font.sans-serif
'] = ['
fangsong
'] #
指定預設字型
mpl.rcparams['
axes.unicode_minus
'] =false
y=csv_df["銷量"
]plt.title(
"箱型圖
",fontsize=20) #
設定標題
plt.ylabel("
銷量") #
設定y軸標籤
plt.grid(linestyle='
--',alpha=0.5) #
設定**線型別，透明度為0.5
plt.boxplot(y) #
畫圖plt.show()

結果

圖中單獨的點即為異常值，看圖可知有6個異常值

資料質量分析和特徵分析

1.資料質量分析包括缺失值分析，異常值分析 1.1資料質量分析之異常值分析資料質量驗證最常用的方法是最大值和最小值，用來判斷這個變數的範圍是否超出了合理區間。如果資料服從正態分佈，在3 原則下，異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值，在正態分佈的假設下距離平均值3 之外的值出現...

系統質量分析

的效能測試。從不同角度看待的效能例如使用者角度，直觀的反映出的執行速度,在開發系統時，只有自己進行測試，能夠通順的完成測試，效能不穩定，穩定行較差，使用者測試滿意度較低，只是不足之處。開發人員角度測試的穩定性，只有考錄周全，新增合理構造，使之完善。的高可用性要保障萬無一失。為客戶服務，...

資料探索之資料質量分析

資料質量分析的主要任務是檢查原始資料中是否存在髒資料，髒資料一般指的是不符合要求，以及不能直接進行相應分析的資料。資料的質量分析側重於髒資料的發現，而資料清洗則是對這些髒資料的修正或者丟棄。一般情況下，資料的質量分析與資料清洗是相伴而行的，在分析出髒資料的時候伴隨著資料的清洗。常見的髒資料報括如下 ...

資料質量分析

資料質量分析和特徵分析

系統質量分析

資料探索之資料質量分析

相關推薦