小白資料處理,ETL後期資料校驗

2021-09-13 19:15:05 字數 496 閱讀 3180

我們在做專案有很多時候,資料都是來自不同的系統。對於不同的系統的資料,資料形式多樣,如bat檔案、excel檔案形式等,對於這些資料,我們後期需要如何取校對資料?

1、後台資料和前端的業務系統進行較多,如:

(1)在後台找到一些例子,在前端進行查詢,多個校對,結果前後端一致,那麼我們可以預設這是與系統一致的資料。

注:這是針對系統的一些維度表,是以編碼形式存在的,我們可以通過這種方式進行查詢到對應的字段的含義。

(2)可以對後台資料庫中的表進行count()查詢總體的資料量,用後台表的資料量和前端的資料量進行對比

(3)對後台表中的分類字段進行count(),可根據資料量來初步判斷資料是否有問題

select project_type ,count(*) from  project_info;
(4)對於資料中字段的選擇,尤其是關聯字段,所選的關聯字段是否會出現空值(因為資料倉儲,很多時候都不會設定主鍵),若存在空值,那麼就有可能是錯了

R語言日期資料處理

在處理一些資料中,我經常遇到一些日期資料,今天就來說說對於不同格式的日期資料該怎麼處理。下面是一些常用來處理的函式。as.date x,s3 method for class character as.date x,format,s3 method for class numeric as.date...

python時間日期資料處理

匯入相關庫 import pandas as pd import numpy as np import time import datetime import matplotlib.pyplot as plt 解決座標軸刻度負號亂碼 plt.rcparams axes.unicode minus f...

資料處理 流資料處理利器

流處理 stream processing 是一種計算機程式設計正規化,其允許給定乙個資料序列 流處理資料來源 一系列資料操作 函式 被應用到流中的每個元素。同時流處理工具可以顯著提高程式設計師的開發效率,允許他們編寫有效 乾淨和簡潔的 流資料處理在我們的日常工作中非常常見,舉個例子,我們在業務開發...