數倉專案筆記 20200817

2021-10-09 06:30:14 字數 1985 閱讀 4937

1、資料倉儲

作為資料的管理和運算中心;

資料存檔;

各種統計、運算任務的核心平台;

2、使用者畫像系統

含義:深入分析使用者後給使用者打上各種規範標籤:年齡,性別,地域特徵,偏好特徵,價值指數,行為習慣,消費習慣…

作用:對使用者進行精準營銷,用於支撐精細化營運;

比如,針對不同的人**放不同的優惠券;

比如,針對不同的人群定製不同的打折規則;

比如,針對不同的人群推行不同的營銷活動;

比如,針對流失概率大的人群進行挽留;

3、推薦系統

含義:對不同的人,在不同的場景中,推薦不同的物品的系統

手段:可以根據使用者畫像及物品相似度,可以根據協同過濾演算法等推薦演算法

作用:改善使用者體驗,增加銷量

本資料處理系統可以使用離線計算方式實現,也可以使用實時計算方式實現;

更多的是離線和實時結合起來實現;

公司一般會根據不同的需求場景,靈活使用離線和實時技術:

離線:系統化的,計算的資料時間跨度長的,運算量大的任務

實時:對時效要求高的需求

1、預處理

構建各類字典(維表),比如:

地理位置字典

頁面資訊字典

商品資訊字典

使用者資訊字典

guid字典(全域性使用者唯一標識)等

對使用者行為事件埋點日誌進行資料清洗、解析、通用維度整合、guid標識等運算

2、資料倉儲ods層

ods層儲存的是源資料;

各類埋點日誌表:

各類業務表:

3、資料倉儲dwd層:

dwd層相對於ods層的主要變化為,將ods中的事實資料中某些字段進行進一步拆分,便於後續查詢處理;將ods中的事實資料整合常用的通用維度資訊,比如事件維度類資訊

4、資料倉儲dws層

對dwd層的表進行輕聚合運算所得到的各類結果

5、資料倉儲ads層

根據資料分析需求設計出來的各種最終結果表

通俗來說,數倉就是乙個資料備份和資料分析的系統,不同於資料庫

報表即統計計算結果,也就是一張資料庫表,一般儲存在mysql中

所謂視覺化,就是將資料庫中的資料表,以更友好的方式展(比如圖,比如**)現在一些「介面」上(比如桌面軟體,比如web頁面,比如excel等),以便於資料運營、分析人員能夠更加直觀地對資料進行檢視和理解、分析

etl中文全稱為:抽取.轉換.載入 extract transform load

etl是傳數倉開發中的乙個重要環節。它指的是,etl負責將分布的、異構資料來源中的資料如關係資料、平面資料檔案等抽取到臨時中間層後進行清洗、轉換、整合,最後載入到資料倉儲或資料集市中,成為聯機分析處理、資料探勘的基礎。

事實: 現實發生的某件事

維度: 衡量事實的乙個角度

事實表: 記錄事實資訊的表;

維度表:記錄維度的詳細描述資訊的表;

資料倉儲中的資料表,往往是分層管理、分層計算的:

ads層: 應用服務層

dws層:數倉彙總層

dwd層:數倉明細層

ods層:運算元據(最原始的資料)層 – 貼源層

一、地理位置字典構建

在埋點日誌中,有使用者的地理位置資訊,但是原始資料形式是gps座標;

但是gps座標在後續(地理位置維度分析)的分析中不好使用!

直接去匹配兩個哪怕距離很近的gps座標,很可能都匹配不上!

gps座標的匹配,不應該做這種精確匹配,應該做範圍匹配;

用geohash編碼工具包將gps座標裝換成geohash編碼

加工的結果格式要求為:

geohash碼, 省,市,區

在後續的數倉、畫像、推薦等模組開發中,我們都需要對每一條行為日誌資料標記使用者的唯一標識!

1、清洗過濾

去除json資料體中的廢棄字段(這是前端開發人員在埋點設計方案變更後遺留的無用字段):

大資料專案之數倉專案(一)數倉搭建

名稱版本 hadoop 3.1.3 flume 1.9.0 kafka 2.11 2.4.1 zookeeper 3.5.7 mysql 5.1.27 sqoop 1.4.6 spark 3.0.0 hive 3.1.2 本專案採用星型維度建模 1 配置sparkonhive 注意配置spark h...

數倉筆記 增量更新

全量計算開發處理雖然簡單,但隨著資料量的增加計算資源和時間會倍速增長 在物力人力等成本考量下,引入增量更新進行開發難度和計算資源的平衡。前提 設計 黃色為歷史分割槽,以建立日期分割槽存放 綠色為增量資料,根據建立時間可以劃分出來的分割槽 藍色為合併後的分割槽 從黃色部分取和綠色劃分相同的分割槽進行資...

數倉筆記 資料建模

3.資料整合及管理體系 3.3 分層建模 3.3.2 分層模型設計原則 3.4 主題域 3.5 建模實施 reference 隨著dt時代的發展,資料出現了爆發式的增長,需要對資料進行有序,有結構的分類組織和儲存,以方便應用。合適的資料建模,能帶來以下幾點好處 關係模型嚴格遵循第三正規化 3nf 較...