資料倉儲資料清洗之碼值對映

2021-07-15 13:54:16 字數 1817 閱讀 7075

1. 源系統碼值與目標碼值對映關係表結構

這個有問題,需要增加目標描述字段

2.源系統碼值與目標碼值對映關係表生成

2.1 源系統多個碼值對應乙個目標碼值 or 源系統的碼值不在碼表中儲存而在注釋中——手工維護對映表。

2.2 源系統碼值和目標碼值一一對應(目標碼值就是源系統碼值)——etl直抽到對映表中。

eg:

sqoop方案:為減少sqoop任務將ods所有碼值一起抽取,**如下。

sqoop import -d mapred.job.queue.name=$ \

--connect $ \

--username $ \

--password $ \

--query "select \

系統a,\

表a,\

「欄位名a」 ,\

欄位a,\

欄位a描述,\

「欄位名a」 ,\

欄位a,\

欄位a描述,\

資料日期\

from 表a

union all

系統a,\

表b,\

「欄位名b」 ,\

欄位b,\

欄位b描述,\

「欄位名b」 ,\

欄位b,\

欄位b描述,\

資料日期\

from 表 b

…………

二、新增碼值自動檢查方案

在源系統碼值與目標碼值對映關係表生成的第一種情況,即手工維護對映表時,源系統新增了碼值,資料倉儲是發現不了的。故增加下面的機制檢查新增的碼值。

第一步:

將ods中所有的碼值表抽取到數倉中的code_source表。

eg:

數倉中sqoop目標表code_source表結構src_sys, src_tbl,field_en, field_value

sqoop方案:為減少sqoop任務將ods所有碼值一起抽取,**如下。

sqoop import -d mapred.job.queue.name=$ \

--connect $ \

--username $ \

--password $ \

--query "select \

系統a,\

表a,\

「欄位名a」 ,\

欄位a,\

from 表a

union all

系統a,\

表b,\

「欄位名b」 ,\

欄位b,\

from 表 b

…………

第二步:

eg:

whereb. field_value is null;

查詢過程舉例:標紅的行即為源系統新增的碼值。

三、 碼值表

eg:

selectdistinct 標準碼值, 標準碼值型別, 標準碼值描述

資料倉儲 資料倉儲部署

1 首先用下面的語句查詢是否有要建立的表空間 hospdw tab 和 hospdw idx 如果沒有,則把d database zyhip改為對應的路徑,有的話直接建立使用者 select tablespace name,file name,round bytes 1024 1024 0 size...

資料倉儲之資料粒度

粒度的定義 確定資料倉儲中資料的恰當粒度是資料倉儲開發者需要面對的乙個最重要的設計問題。資料粒度主要針對指標資料的計算範圍,如人口這個資料項在統計部門是以街區範圍還是乙個社群為範圍統計的。人口資料細化程度越高,粒度級就越小 相反,細化程度越低,粒度級就越大。粒度是資料倉儲主要設計問題,因為它極大地影...

資料倉儲資料清洗策略的研究和實現

資料探勘 data mining 常常被稱為資料庫中的知識發現 knowledge discovery in database 通常是只從資料庫或資料倉儲中提取隱含的 未知的 潛在的和有用的資訊的非平凡過程 5 一般認為,資料探勘主要包括廣義的關聯規則 分類和聚類 時序模式等主要研究領域。目前研究的...