看《資料倉儲生命週期工具箱第二版》零散筆記

2021-10-23 05:33:01 字數 1555 閱讀 9453

資料倉儲技術 指的是 提供資訊以支援商務決策的整個過程;

商業智慧型,指的是對資料倉儲中儲存的資料進行記錄和分析的乙個過程;

資料倉儲/商業智慧型(dw/bi),作為整個端到端系統的名稱;

etl指的是抽取extract、轉換transform、載入load的乙個過程;

業務過程維度建模,即資料集市

專案經理指定溝通計畫解決專案支持者的需求,經常性地溝通能夠管理期望;

面對面溝通比提供專案文件效果更佳;

暴露問題,向上級匯報;

與主管團隊的溝通:

確保高可見度,業務結構對dw/bi系統的期望可見;

召開專案啟動會議:整個團隊對專案的當前狀況和未來預期達成期望;

專案期間記錄問題;

dw/bi專案中兩類問題,一類是影響這個專案開展的問題,一類是完成某個任務時所必須解決的問題;

問題需要記錄以及在會議上進行審查;

資料管理員,管理資料規範;

質量保證分析員在資料載入的過程中工作量比較大,需要確保etl系統的正常執行,進行資料驗證;

組建團隊,提公升團隊凝聚力;

自由**人,作為dw/bi的顧問;

基於企業需求的優先順序排序;

認可企業資料持續整合的好處,並執行;

it結構和業務機構需要緊密配合;

建立企業級的架構,避免資料「煙囪」,讓各個部門資料之間能夠共享,讓資料融合產生價值;

資料管理員應該為企業內部所有交叉機構的資訊確定通用的的定義和業務轉換的規則;

因為源資料中存在一些不可預料的資料真實性問題,etl系統設計與開發時間難以預估和按時提交;

需要有個核心團隊擔任dw/bi系統設計和開發的重要職責;

業務分析員負責業務需求定義活動,並且將這些需求描述為技術架構、維度模型和bi應用程式,需要以使用者為中心來考慮問題;

資料管理員負責推動整個機構;

提倡小規模專案快速上市;

dw/bi的設計必須體現業務價值;

如果專案時間表持續時間很久,可以採用快速開發應用程式的方法,如敏捷開發、極限程式設計等;

專案範圍的確定應該由業務需求來驅動;

資料探查是一種資料分析技術,主要描述資料的內容、一致性和結構,select distinct 可以被看做是一種資料探查;

概念驗證 論證專案對業務機構產生的影響;

每引入乙個新的主要資料來源,開發周期就可能需要延長六個月;

確定專案範圍;

維度建模,需要關注使用者使用的便利性和bi查詢的效能;

維度模型的兩個基本組成,是事實表和維度表;

bi應用程式,可以是簡單的報表應用,也可以是與運營事務處理系統互動的分析性應用程式;

需要有業務發起人;

強制性業務動機、戰略性業務動機;

可行性分析:專指技術可行性;

專案和專案群的概念、分三條線分工指定計畫並執行包含1技術架構設計2etl方案設計3bi專案設計;;

資料倉儲ETL工具箱 元資料

由於etl是資料倉儲得核心,時常承擔著管理和儲存資料倉儲大量元資料得職責。在資料倉儲中etl處理程式是元資料最重要得建立者 資料沿襲。資料沿襲追蹤資料從源系統和檔案中得請確位置直到最終被裝載之前。資料血統包括資料庫系統的資料定義和在資料參考古中最終靜止狀態。元資料分為後台元資料和前端元資料,後台元資...

資料倉儲專題(1) 資料倉儲生命週期模型

一 前言 工作內容的變更,導致重新回到資料倉儲模型的架構和設計,於是花點時間比較系統的回顧資料倉儲建模和系統建設的知識體系,記錄下來,作為筆記吧。二 模型 無論資料倉儲技術如何變化,從rdbms到nosql,從傳統技術到大資料,其實只是實現技術手段的變化,資料倉儲建設生命週期的模式從來都不曾真正顛覆...

4 資料倉儲生命週期模型

一 前言 工作內容的變更,導致重新回到資料倉儲模型的架構和設計,於是花點時間比較系統的回顧資料倉儲建模和系統建設的知識體系,記錄下來,作為筆記吧。二 模型 無論資料倉儲技術如何變化,從rdbms到nosql,從傳統技術到大資料,其實只是實現技術手段的變化,資料倉儲建設生命週期的模式從來都不曾真正顛覆...