漫談資料倉儲之基本概念總結(不斷更新)

2021-08-02 17:28:12 字數 2323 閱讀 2047

整理一些資料倉儲中的常用概念。大部分概念不是照搬書上的準確定義,會加入很多自己的理解。

資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。

個人理解,資料倉儲不單單是乙個概念,其實算是對資料管理和使用的一種方**,它包括了如何合理地收集資料、如何規範的管理資料、如何優雅地使用資料,以及任務排程、資料血統分析等一系列內容。 在大資料時代這些概念依舊沒有過時,相反,它更加重要。

利用資料倉儲的方式存放的資料,具有一旦存入,便不會隨時間發生變動的特性,此外,存入的資料必定包含時間屬性,通常乙個資料倉儲中會含有大量的歷史性資料,並且它可利用特定的分析方式,從其中發掘出特定的資訊。

olap(online analytical process),聯機分析處理,以多維度的方式分析資料,而且能夠彈性地提供上捲(roll-up)下鑽(drill-down)和透視分析(pivot)等操作,它是呈現整合性決策資訊的方法,多用於決策支援系統、商務智慧型或資料倉儲。其主要的功能在於方便大規模資料分析及統計計算,可對決策提供參考和支援。與之相區別的是聯機交易處理(oltp),聯機交易處理,更側重於基本的、日常的事務處理,包括資料的增刪改查。

olap需要以大量歷史資料為基礎,再配合上時間點的差異,對多維度及彙整型的資訊進行複雜的分析。

olap的概念,在實際應用中存在廣義和狹義兩種不同的理解方式。廣義上的理解與字面上的意思相同,泛指一切不會對資料進行更新的分析處理。但更多的情況下olap被理解為其狹義上的含義,即與多維分析相關,基於立方體(cube)計算而進行的分析。

大致上來講,bi就是利用各種技術來輔助於商業決策,它需要以資料倉儲的資料為基礎,通過olap系統來做分析,必要時還需要一些資料探勘的方法來挖掘更深層次的價值。

管理元資料的系統。網上沒找到定義,個人對它的理解如下:

乙個管理元資料資訊的系統

能夠提供方便的元資料的操作和查詢操作

它會有下面這些功能:

詳細的內容請參照這篇部落格google和linkedin的老司機是如何管理海量資料的

其實資料分層的意思就是對資料按照一定的層級來儲存,這樣做的好處很多,在下面列了幾個,詳細的請參考這篇部落格:大資料環境下該如何優雅地設計資料分層

清晰資料結構:每乙個資料分層都有它的作用域,這樣我們在使用表的時候能更方便地定位和理解。

減少重複開發:規範資料分層,開發一些通用的中間層資料,能夠減少極大的重複計算。

把複雜問題簡單化。講乙個複雜的任務分解成多個步驟來完成,每一層只處理單一的步驟,比較簡單和容易理解。而且便於維護資料的準確性,當資料出現問題之後,可以不用修復所有的資料,只需要從有問題的步驟開始修復。

遮蔽原始資料的異常。

遮蔽業務的影響,不必改一次業務就需要重新接入資料。

維度建模是一種資料倉儲的建模方法,這樣講吧,它的作用就是幫你更好的組織和使用資料。 詳細的講解請看這篇部落格:漫談資料倉儲之維度建模

維度模型是資料倉儲領域大師ralph kimall所倡導,他的《the datawarehouse toolkit-the complete guide to dimensona modeling,中文名《資料倉儲工具箱》,是資料倉儲工程領域最流行的數倉建模經典。維度建模以分析決策的需求出發構建模型,構建的資料模型為分析需求服務,因此它重點解決使用者如何更快速完成分析需求,同時還有較好的大規模複雜查詢的響應效能。

典型的代表是我們比較熟知的星形模型,以及在一些特殊場景下適用的雪花模型。

etl 在資料開發的工作中主要是資料清洗,它包括資料的接入,初步的清洗,資料匯入hive或者mysql中等一系列操作,目前比較火的大資料技術在很大程度上就是解決了大資料量下的資料清洗工作。

另外,很多寫sql的任務也可以理解是資料清洗,比如使用sql對原始資料做一部分的業務處理、過濾掉一些特殊記錄等,因此etl的範圍相對來講比較廣,很多資料開發的工作都可以歸結到etl中。

etl,是英文 extract-transform-load 的縮寫,用來描述將資料從**端經過抽取(extract)、轉換(transform)、載入(load)至目的端的過程。etl一詞較常用在資料倉儲,但其物件並不限於資料倉儲。

etl是構建資料倉儲的重要一環,使用者從資料來源抽取出所需的資料,經過資料清洗,最終按照預先定義好的資料倉儲模型,將資料載入到資料倉儲中去。

個人主頁:

資料倉儲的基本概念

1資料倉儲 1.1概念 資料倉儲 datawarehouse 的概念是e.f.codd於1993年的一篇文章中提出的。資料倉儲的主要功能是提供企業決策支援系統 dss 或行政資訊系統 eis 所需要的資訊,它把企業日常營運中分散不一致的資料經歸納整理之後轉換為集中統一的 可隨時取用的深層資訊,這種資...

Hive資料倉儲基本概念

1.基本概念 資料倉儲的目的是構建面向分析的整合化資料環境,為企業提供決策支援。資料倉儲是存資料的,企業的各種資料都往裡面存,主要目的是分析有效資料,後續會基於它產出供分析挖掘的資料。2.資料倉儲的分層架構 恢復內容開始 1.基本概念 資料倉儲的目的是構建面向分析的整合化資料環境,為企業提供決策支援...

資料倉儲ETL(二)基本概念

資料治理領域有一些基本名詞,資料倉儲,資料探勘,商業智慧型,資料同步,聯機計算等等,下面一起看一下專有的名詞。資料庫,一般指支撐應用的資料庫,包括mysql,oracle,postgresql,sqlserver等關係型資料庫,也可以是mongodb,redis,hbase等非關係型資料庫。特點是保...