胖子哥的大資料之路(一) 資料倉儲也需要大資料

2021-08-15 00:23:07 字數 1441 閱讀 4104

ppv課

•2023年2月25日

•hadoop, 

張子良•閱讀 2127

一、楔子

大資料傳統企業實施,其路漫漫,絕不會如曇花一現,探索大資料在傳統行業的實施之路,尋找一條適合傳統行業的企業大資料實施方法體系,是我執著堅守的信念,大資料是一種信仰,吾將上下而求索。記下專案中的點滴,算是日誌,自勉。

二、專案背景

最近在處理乙個商業銀行的大資料專案,旨在構建大資料資源池,專案邊界確認過程中,針對專案的定位出現了兩種不同的觀點,對大資料的在傳統行業的應用有了新的啟發。觀點

一、大資料作為運算元據歷史庫,儲存運算元據庫資料,提供歷史資料長週期,快速檢索的歷史資料儲存和快速查詢服務。觀點

二、大資料作為資料倉儲的的歷史庫,解決資料倉儲歷史資料儲存的問題,構建乙個大容量,高可用的資料儲存平台,為全量資料分析和知識挖掘提供服務。作為運算元據庫的歷史庫,已經完成了專案的實施,但是作為資料倉儲的歷史庫之前的定位一直是取代,基於大資料做資料分析和知識挖掘,現在卻找到了乙個新的切入點,才發現,原來二者並不矛盾。

三、資料倉儲與運算元據庫

資料倉儲的定義並無統一的說法,通常的到人們認可的概念是:乙個面向主題的、整合的、時變的、非易失的資料集合,支援管理者的決策過程。簡單點說資料倉儲就是一種語義上的資料儲存,它充當決策支援資料模型的物理實現,並存放於企業戰略決策相關的重要資訊。

資料倉儲不同於運算元據庫,運算元據庫的主要任務是執行聯機事務處理和查詢處理,稱作聯機事務處理(oltp)系統。資料倉儲系統在資料分析和決策支援方面為使用者或者機器學習提供服務,即聯機分析處理(olap)。二者的主要區別在於五個大的方面:

1)使用者系統的面向性:客戶與市場;

2)資料內容:當前與歷史;

3)資料庫設計:er與面向主題

4)檢視:當前與全景

5)訪問模式:原子事務與唯讀操作

傳統模式下資料倉儲伺服器通常採用關係型資料庫,也就是說從軟體實現的角度,資料倉儲和操作型資料採用的模式是一樣的。這就決定了,資料倉儲和運算元據庫面臨同樣的問題:行業壟斷帶來的成本依賴、資料模型帶來的儲存瓶頸和運算瓶頸。

資料倉儲的三層架構如下圖所示:

四、大資料的位置

資料倉儲系統應用大資料技術的模式還在探索,但是目前總結了幾個方面的應用。

1)大資料作為資料倉儲的歷史資料儲存系統:解決資料倉儲只能儲存短時段資料的問題

2)構建基於大資料平台的資料模型,致力於低成本的資料探勘體系:傳統bi的瓶頸在於軟硬體繫結、商業壟斷和處理效能,基於但資料開源體系的演算法模型和平行計算能力,構建全量的資料分析和挖掘,最終目標在於取代原有高成本的bi體系,為企業降低負擔。

3) 實時+離線模式的確立,可以充分利用企業已有的it資源設施,充分利用成熟的bi技術,從而為企業提供更好的服務。

五、遺留問題

大資料定位為離線的資料倉儲,將會出現**資料儲存模型,實時操作庫-資料倉儲-大資料資源池,目標有定位已經明確,但是具體實施仍要探索,未完待續…

胖子哥的大資料之路(一) 資料倉儲也需要大資料

一 楔子 大資料傳統企業實施,其路漫漫,絕不會如曇花一現,探索大資料在傳統行業的實施之路,尋找一條適合傳統行業的企業大資料實施方法體系,是我執著堅守的信念,大資料是一種信仰,吾將上下而求索。記下專案中的點滴,算是日誌,自勉。二 專案背景 最近在處理乙個商業銀行的大資料專案,旨在構建大資料資源池,專案...

大資料之路(一)資料倉儲也需要大資料

專案背景 最近在處理乙個商業銀行的大資料專案,旨在構建大資料資源池,專案邊界確認過程中,針對專案的定位出現了兩種不同的觀點,對大資料的在傳統行業的應用有了新的啟發。觀點 一 大資料作為運算元據歷史庫,儲存運算元據庫資料,提供歷史資料長週期,快速檢索的歷史資料儲存和快速查詢服務。觀點 二 大資料作為資...

我的大資料之路(一) 資料倉儲也需要大資料

一 楔子 大資料傳統企業實施,其路漫漫,絕不會如曇花一現,探索大資料在傳統行業的實施之路,尋找一條適合傳統行業的企業大資料實施方法體系,是我執著堅守的信念,大資料是一種信仰,吾將上下而求索。記下專案中的點滴,算是日誌,自勉。二 專案背景 最近在處理乙個商業銀行的大資料專案,旨在構建大資料資源池,專案...