python 評估資料

2021-10-03 19:41:17 字數 473 閱讀 5967

從兩個方面評估:資料質量問題(即內容問題)和整潔度(即結構性問題)。

(1)髒資料:不準確、損壞的、重複的資料

(2)messy data:不整潔,整潔的資料就是一行一列

以下是你經常會在 pandas 中使用的程式評估方法:

.head() 預設頭5條,可以是df,也可以是列

.tail() 預設尾5條

.sample() 預設1條

.info (僅限於 dataframe)

.describe (dataframe 和 series)

計數,平均值,標準差,最小值,最大值以及較低的百分位數和50。預設情況下,較低的百分位數為25,較高的百分位數為75.50百分位數與中位數相同

train_df[

'parch'

].describe(percentiles=

[.75

,.8

資料質量評估標準

資料質量是保證資料應用的基礎,它的評估標準主要包括四個方面,完整性 一致性 準確性 及時性。評估資料是否達到預期設定的質量要求,就可以通過這四個方面來進行判斷。完整性完整性指的是資料資訊是否存在缺失的狀況,資料缺失的情況可能是整個資料記錄缺失,也可能是資料中某個字段資訊的記錄缺失。不完整的資料所能借...

如何評估資料質量?

資料質量評估 在做了近乙個多月的資料質量評估方案工作,基本實現了從產出原始資料 資料清洗 入庫有效資料等階段,從對質量沒有任何概念到實現基本的指標展示,也算是從設計到 到展示的流程跑通,在一定程度已經能體現公司目前的資料質量 1.為什麼做資料質量?公司資料是從excel挖掘出來的,不確定性與未知性,...

多組資料之成績評估

題目描述 我們知道,高中會考是按等級來的。90 100 為a 80 89 為b 70 79 為c 60 69 為d 0 59為e 編寫乙個程式,對輸入的乙個百分制的成績 t,將其轉換成對應的等級。輸入 輸入資料有多組,每組佔一行,由乙個整數組成。輸出 對於每組輸入資料,輸出一行。如果輸入資料不在0 ...