資料倉儲之ETL導讀

2021-07-04 18:42:01 字數 1028 閱讀 6205

etl是資料抽取(extract)、轉換(transform)、載入(load )的簡寫,它是將oltp系統中的資料經過抽取,並將不同資料來源的資料進行轉換、整合,得出一致性的資料,然後載入到資料倉儲中。簡而言之etl是完成從 oltp系統到olap系統的過程。

看過這樣一本書,將etl比作餐館的後廚,後廚是自成體系的,多才多藝的廚師將獲得的原始食材,然後將他們烹調為美味膳食。

(1)規範管理

餐廳管理者希望廚房能夠準時正常的出菜,必須保證食材的選取標準,食材的**,廚師的技術等,。

(2)資料質量

如果從廚房出來的產品無法滿足顧客的期望的情況反覆出現,餐廳注定要倒閉的。

(3)一致性、完整性

當廚師將好的食材做成美食時,需要保證美食都滿足客戶的要求,不能夠出現生熟程度不一致,並且需要保證美食所需食材的完備,不丟失。

(4)高效產出

客戶不希望上菜等太久,廚師做菜的過程中需把握哪道菜耗時長,哪道菜耗時短。

不要採取無結構的方法

從etl設計者的角度來看,業務需求是dw/bi系統使用者的資訊需求,因為這些資訊需求直接驅動對資料來源的選擇以及選擇的資料在etl系統中的轉換結果,那麼etl開發人員必須理解並且仔細驗證商業需求。

(1)      資料質量監控(異常資料檢測)

一旦確定了候選資料來源,就需要對資料來源進行輕量級的評估工作,先對該資料來源各個字段抽樣檢查,例如空值,已處理的比例,每個欄位的值分布等。

(2)      歸檔

針對評估工作中的資料內容、一致性、和結構描述進行歸檔,這將避免後續開發etl作業返工的現象。

(3)      資料探索

1.收集所有的源系統的文件、資料字典等內容。

2.收集源系統的使用情況,如誰在用、每天多少人用、佔多少儲存空間等內容。

3.判斷出資料的起始**(system-of-record)。

4.通過資料概況(dataprofiling)來對源系統的資料關係進行分析。

資料探索階段的主要目的是理解源系統的情況,為後續的資料建模和邏輯資料對映打下堅實的基礎。

資料倉儲 ETL

etl這個過程可以說下整套資料流程下來最枯燥也是最耗時間的流程,但是也是最重要的。很多時候我們不缺資料,缺的是好資料,而etl的結果則導致下游成員的資料質量。etl是貫穿數倉的整個環節,不是說只是在某乙個地方才使用的。etl工作的實質就是從各個資料來源提取資料,對資料進行轉換,並最終載入填充資料到資...

資料倉儲之ETL實戰

etl,extraction transformation loading的縮寫,中文名稱為資料抽取 轉換和載入。一般隨著業務的發展擴張,產線也越來越多,產生的資料也越來越多,這些資料的收集方式 原始資料格式 資料量 儲存要求 使用場景等方面有很大的差異。作為資料中心,既要保證資料的準確性,儲存的安...

資料倉儲之ETL實戰

etl,extraction transformation loading的縮寫,中文名稱為資料抽取 轉換和載入。一般隨著業務的發展擴張,產線也越來越多,產生的資料也越來越多,這些資料的收集方式 原始資料格式 資料量 儲存要求 使用場景等方面有很大的差異。作為資料中心,既要保證資料的準確性,儲存的安...