資料質量檢測方面

2021-09-26 02:23:26 字數 1098 閱讀 1679

在我們進行資料分析之前要對資料進行檢測,資料質量是保證資料應用的基礎,它的評估標準主要包括四個方面:完整性、一致性、準確性、及時性。評估資料是否達到預期設定的質量要求,就可以通過這四個方面來進行判斷。

(1)完整性:指的是資料資訊是否存在缺失的狀況,資料缺失的情況可能是整個資料記錄缺失,也可能是資料中某個字段資訊的記錄缺失。不完整資料的價值就會大大降低,也是資料質量最為基礎的一項評估標準。資料質量的完整性比較容易去評估,一般可以通過資料統計中的記錄值和唯一值進行評估,例如:通過日誌訪問量資料得到平時日平均訪問量在500萬左右,某一天突然降低到50萬,這是就要檢查一下資料是否存在缺失了,再例如,**統計地域分布情況的每乙個地區名就是乙個唯一值,我國包括了 32 個省和直轄市,如果統計得到的唯一值小於 32,則可以判斷資料有可能存在缺失。

(2)一致性:是指資料是否遵循了統一的規範,資料集合是否保持了統一的格式。資料質量的一致性主要體現在資料記錄的規範和資料是否符合邏輯。規範指的是,一項資料存在它特定的格式,例如手機號碼一定是 11 位的數字,ip 位址一定是由 4 個 0 到 255 間的數字加上.組成的。邏輯指的是,多項資料間存在著固定的邏輯關係,例如 pv(頁面訪問量) 一定是大於等於 uv(使用者唯一訪問量) 的,跳出率一定是在 0 到 1 之間的。

(3)準確性:是指資料記錄的資訊是否存在異常或錯誤。存在準確性問題的資料不僅僅只是規則上的不一致。最為常見的資料準確性錯誤如亂碼。其次,異常的大或者小的資料也是不符合條件的資料。資料質量的準確性可能存在於個別記錄,也可能存在於整個資料集,例如數量級記錄錯誤。這類錯誤則可以使用最大值和最小值的統計量去審核。

一般資料都符合正態分佈的規律,如果一些佔比少的資料存在問題,則可以通過比較其他數量少的資料比例,來做出判斷,如果一些少量資料存在明顯的準確性問題以及明顯的格式字段缺失我們則要考慮把這些資料刪除。

(4)及時性:是指資料從產生到可以檢視的時間間隔,也叫資料的延時時長。及時性對於資料分析本身要求並不高,但如果資料分析週期加上資料建立的時間過長,就可能導致分析得出的結論失去了借鑑意義,及時性在大資料離線專案裡面影響關係不大,但是對於大資料實時的專案則有很大的影響。

資料質量保證和資料質量檢測

資料質量保證和資料質量檢測 資料質量保證 無論是檢測原始庫或者是資料倉儲,都是要有乙個有質量保證的資料庫。以檢測資料倉儲的質量為例 原始資料在抽取進入資料倉儲後,通過檢測資料倉儲質量問題來修正原始庫,從新抽取進入資料倉儲。檢測資料倉儲的資料質量 第一層 保證資料的正確性,全面性,唯一性 第二層 進行...

SSL ZYC 質量檢測 RMQ

題目大意 給出乙個數列,求出從第 m role presentation m m個開始i m role presentation i m i m到 m role presentation m m的最小值。in put role presentation inp utin put10 4 16 5 6...

專案質量測試方面的心得

軟體質量是實現客戶滿意度的關鍵,而質量管理主要靠測試。我在這方面的心得體會是 不能孤立地看待測試體系建設問題,必須將測試體系和測試工具有機地結合起來看。測試體系反映了對測試工作的基本認識和基本需求,但如何使它具備足夠的可操作性而不是流於形式呢?我的看法是通過與工具的結合可以有效解決這一問題。這就引出...