資料倉儲怎麼搭建?

2021-10-25 11:09:47 字數 1440 閱讀 3120

資料倉儲怎麼搭建?

在網上一搜,有太多的大廠中廠數倉完整實踐的文章,已經能把數倉由哪些組成,各部分如何建設,重點難點和解決方法都講的很清楚。我接觸到的大多數數倉開發者對於資料倉儲都有乙個較為完整的了解,各個部分也都能說得頭頭是道。

可另一方面,從我了解到的片面的行業資訊來說,除了在網上發文章的那些公司,基本沒有會說自己的資料倉儲建設的已經比較好的公司,都有著各種各樣的問題難以解決。不是沒有解決方法,就是有方法但難以實施,實施後效果不佳,有效果無法持續。

我覺得是因為每個公司的情況都各有不同,直接參考做法很難有成效。各公司有不同的發展階段,有不同的工作重點,有不同的資料訴求,有不同的組織架構,有不同的資源配置,有不同的工作方法。

別人公司的成功經驗,可以借鑑,但難以複製。更何況真的是成功經驗,還是粉飾後的績效?太多文章只寫是什麼,很少寫為什麼,只寫做了什麼,很少寫怎麼去做。讓參考的人無法理解,不能基於自己公司的情況做調整,直接實施又各種衝突(親身體會了太多照搬後的水土不服)。

基於我個人的經驗,我覺得資料完整的流程包含五個環節,生產、採集、處理、服務、應用(有些情況下部分環節沒有內容)。

生產是指資料的落庫、埋點等,是資料產出的環節。可能有的公司所有資料都是自己的業務系統產出的,也可能有些公司自己不生產任何資料,是從其他公司或平台那裡獲取的,甚至是找人手動填寫的。但資料肯定是在某個時間某個方式生產出來的。

採集是指資料統一儲存的過程。數倉的乙個特點就是整合,這也是價值和效率的基礎。有簡單的同步,有複雜的日誌採集,還有爬蟲抓取或手工錄入上傳等。

處理是指對資料加工的過程。有清洗髒資料、解析拆分組合資料、橫向縱向整合資料、篩選需要的資料、計算指標、彙總等。處理後的資料,才容易使用。資料倉儲搭建的完善程度,取決於處理後的資料對需求滿足的程度。但因為要考慮數倉成本,很多處理後的資料還需要業務方再在進行簡單加工。數倉建設需要基於實際情況,平衡成本和需求滿足程度。

服務是指資料以怎樣的方式對外提供。簡單的就是沒有服務,資料處理後存放在數倉庫表中,業務方通過各種工具讀取資料。複雜的就是通過封裝後的介面對外提供,方便資源和許可權的管理與優化。

不同的公司對不同的環節有不同的要求,有不同的困難,投入了不同的資源,對應的問題的解決方案也應該不同。

有的公司資料分散,甚至在其他平台上,難以整合,有的公司對資料的及時性要求非常高,有的公司資料量級特別大,處理過程特別複雜,有的公司業務變化特別快,對需求時效性要求特別高。

沒有乙個統一的方法能解決所有問題。所有的方法,都應該考慮,問題是什麼,目標是什麼,資源有那些,在看方法是否是最有效的。

所以比起一上來就把成功的數倉搭建方案羅列出來,不如看看每個環節主要有那些內容,有那些困難,基於不同的目標和資源,有那些可行的方法。說明為什麼這是問題,為什麼要實現這樣的目標,為什麼只有這些資源,為什麼選擇這個方法。

知道是什麼,也能知道為什麼,這樣碰到不同的環境時,也能根據差異,調整方案,選擇更適合的方法來解決問題。

資料倉儲搭建

1.資料倉儲需求分析 1.1主題分析 確定主題 使用者從哪些角度來分析資料 主題 比如銷售主體 指標 維度 粒度 1.2資料分析 了解資料情況,是否可以支撐主題 資料來源分析 資料來源的資料表的關係,資料表的內容 資料量分析 記錄和字段的量進行乙個統計分析 資料質量分析 正確性分析 一致性分析 規範...

資料倉儲系列(1) 為什麼要搭建資料倉儲

本文寫作的初衷,是想以阿里巴巴的onedata體系為出發點,詳細闡述資料倉儲搭建的初衷 架構的理念及實現的方式,藉此來總結從事大資料開發崗位多年以來的經驗積累。僅從筆者個人角度出發,收集相關素材,進行二次整理,並非原創。要想全面的來看待資料倉儲,首先要回答的是資料倉儲搭建的目的 筆者個人理解 以資料...

資料倉儲 資料倉儲部署

1 首先用下面的語句查詢是否有要建立的表空間 hospdw tab 和 hospdw idx 如果沒有,則把d database zyhip改為對應的路徑,有的話直接建立使用者 select tablespace name,file name,round bytes 1024 1024 0 size...