資料質量分析和特徵分析

2021-10-21 21:17:30 字數 602 閱讀 6257

1.資料質量分析包括缺失值分析,異常值分析

1.1資料質量分析之異常值分析

資料質量驗證最常用的方法是最大值和最小值,用來判斷這個變數的範圍是否超出了合理區間。

如果資料服從正態分佈,在3#原則下,異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值,在正態分佈的假設下距離平均值3#之外的值出現的  概率小於等於0.03。
箱型圖提供了乙個識別異常值的標準:將所有數值由小到大進行排序並分成四等份 處於第乙個分割點位置的數值是下四分位數。

2.資料特徵分析

2.1分布分析(頻率分布直方表,頻率分布直方圖,餅狀圖),頻率分布直方表和頻率分布直方圖,操作方法大致如下:

2.2統計量分析:常從集中趨勢(均值和中位數)和離中趨勢(極差,標準差和四分位距離)兩個方面進行統計描述

2.3週期性分析

2.4貢獻度分析即帕累託分析 又稱2/8定律

資料探索簡介 質量分析 特徵分析

此處參考 python資料分析和挖掘實戰 這本書 資料質量分析 主要是對異常值的分析 1 3 原則 如果資料符合正態分佈,那麼資料異常定義在一組測定值與平均值的偏差超過3倍標準差的值。在正態分佈的假設下,距離平均值3 之外的值出現的概率為p x 3 0.003,屬於極個別的小概率事件。但面對不服從正...

資料質量分析

本文讀取了csv檔案,完成了下列要求 import pandas as pd from matplotlib import pyplot as plt import matplotlib as mpl 讀取檔案資料 csv file r c users sun tianwen desktop cat...

系統質量分析

的效能測試。從不同角度看待 的效能例如 使用者角度,直觀的反映出 的執行速度,在開發 系統時,只有自己進行測試,能夠通順的完成測試,效能不穩定,穩定 行較差,使用者測試滿意度較低,只是不足之處。開發人員角度測試 的穩定性,只有考錄周全,新增合理構造,使之完善。的高可用性 要保障萬無一失。為客戶服務,...