數倉理論知識

2021-10-23 22:08:13 字數 2531 閱讀 3235

為什麼分層:

1:清洗資料結構:每乙個資料分層都哦於他的作用域和職責,在使用表的時候能更方便定位和理解

2:統一開發:減少重複開發;規範資料分層,開發一些通用的中間層資料,能夠減少極大的重複計算

3:統一資料口徑:通過資料分層,提供統一的資料出口,統一對外輸出的資料口徑

4:複雜問題簡單化:將乙個複雜的任務分解成多個步驟來完成,每乙個層解決特定的問題

ods層 operational data store

etl後的資料進ods層

或不清洗:方便追溯資料

dwd層 data warehouse detail

ods層按主體建造資料模型(業務表示)

???如果etl資料直接進ods層

錯誤日誌收集 , 計數

ods層 operational data store

(文字格式) =-= 大資料用的不多,用列式儲存;

dwd層 data warehouse detail d

(orc/parquet)

壓縮體積 小很多

dws層 data warehouse server d

彙總操作

輕度彙總

echo "省份流量統計"

hive -e "

use ruozedata_dw;

create table if not exists dws_access_province_traffic(

province string,

traffics int

)partitioned by(d string)

row format delimited fields terminated by '\t';

insert overwrite table ruozedata_dw.dws_access_province_traffic partition(d='$time')

select province, sum(response_size) as traffics

from ods_access where d='$time' group by province;

"

#!/bin/sh

time=20200523

echo "網域名稱流量統計"

hive -e "

use ruozedata_dw;

create table if not exists dws_access_domain_traffic(

domain string,

traffics int

)partitioned by(d string)

row format delimited fields terminated by '\t';

insert overwrite table ruozedata_dw.dws_access_domain_traffic partition(d='20200523')

select domain, sum(response_size) as traffics

from ods_access where d='$time' group by domain;

"

1)每天資料量

每條日誌多大 位元組 300-500

有多少條 1000w使用者 * 5次 * 5

每條日誌多少字段:50-70欄位

總資料量

(300-500 * 1000w * 5 )/(1024 * 1024 * 1024) == 70-116g

2)每天增量

web services理論知識

web服務作為一種能夠快速整合應用的技術,如果與非同步傳輸進行組合,就將為構建企業級應用提供所需的可靠性。在本文中,我們嘗試用兩種設計方法來部署和訪問非同步web服務 通過使用 apache axis 在第一種方法中,用websphere mq support pac ma0r來提供mq傳輸 利用w...

理論知識總結

軟體定義 程式 資料結構 文件。軟體危機 落後的軟體生產方式無法滿足迅速增長的計算機軟體要求,從而導 致軟體開發與維護過程中出現的問題。軟體工程 方法 工具 過程。軟體生命週期模型 瀑布模型,v模型,迭代模型。軟體測試是對軟體需求分析 設計 編碼的最終複查的一系列過程,是軟體質量保證的關鍵步驟 目的...

天線理論知識

zigbee 1為乙個預估的exel ti提供的基於friis等式和二維反射平面模型計算的,通過理論計算可得到傳輸的理論距離。影響通訊距離有如下主要的指標 頻段選擇 選擇的通訊頻段越高,通訊距離越短。頻段越低天線越難設計。發射功率 發射功率越大,通訊距離越遠,與此同時,板子的功耗也越高,正常情況下,...