數倉sql小技巧(一)

2021-10-07 20:04:54 字數 623 閱讀 9567

ads層由於本身的資料很少,一天只有幾條或幾十條,並且資料匯出常常為全量匯出。所以沒有進行分割槽,,也沒有才有壓縮和列式儲存。採用的資料裝載語句也是insert into,而不是insert override。但這樣就會帶來乙個在hdfs中非常嚴重的問題——小檔案過多。ads層每插入一條資料,就會生成乙個小檔案,這樣就會形成大量小檔案。

可以在每次匯入資料時,把歷史資料查出來,不用修改,再把今天的資料拿過來,兩者union all。這樣就不會產生小檔案了。

insert override table ads_order_daycount

select

'2020-06-24'

,sum

(order_count)

,sum

(order_amount)

,sum(if

(order_count>0,

1,0)

)from

dws_user_action_daycount

where

dt='2020-06-24'

union

allselect

*from

dws_user_action_daycount;

千億數倉的sql

需求1 資料 統計2019年期間每個季度的銷售訂單筆數 訂單總額 select case when month createtime between 1 and 3 then 一季度 when month createtime between 4 and 6 then 二季度 when month ...

SQL小技巧總結。

一 sql server如何判斷某個字段包含大寫字母 sql語句中預設是不區分大小寫的,所以語句 sql select from recenginebizinfo where recenginebizname qq 和 sql select from recenginebizinfo where r...

實時數倉與脫機數倉總結 一

精選30 雲產品,助力企業輕鬆上雲!主要內容 數倉基本概念 數倉架構演變 實時數倉和脫機數倉的區別 數倉基本概念 首先說一下資料倉儲的概念,以下簡稱數倉。數倉的發展 數倉有兩個環節 乙個是數倉的建設 另乙個數倉的應用。早期的數倉 傳統數倉 目前 數倉的架構演變 脫機數倉和實時數倉 接下來我會分別介紹...