hive優化最後一版整理

2021-10-18 15:29:20 字數 623 閱讀 4001

hive資料儲存的格式有文字格式(textfile)、二進位制序列化檔案(sequencefile)、行列式檔案(rcfile)、apache parquent 和 優化的行列式檔案(orcfile)

orcfile 和 parquent,高效的資料儲存和資料處理效能得以在實際的生產環境中大量運用。

同時 orcfile對於索引的處理進行了優化 bloom filter index 和 row group index  鏈結 

orcfile和parquent的對比

1. 過濾掉髒資料

如果大key是無意義的髒資料,直接過濾掉。本場景中大key無實際意義,為非常髒資料,直接過濾掉。

2. 資料預處理

資料做一下預處理,盡量保證join的時候,同乙個key對應的記錄不要有太多。

3.兩表join的時候 如果有需要篩選條件,現在子查詢中將篩選條件篩選以後再做join操作

4.count(distinct id)  寫法修改

改為 select count(1) from (select id from table group by id) a 

5. 建模過程中如果 c d 表產生的時候都需要 a b 的相同的結果集,可以將ab 的結果集作為乙個中間層,供下游使用

Hive優化整理

寫本文的目的是為了從本文開始,讓自己養成寫博文的習慣,也將知識一點點的沉澱下來,自己回頭看的時候方便,能為其他人提供一些幫助更好。同時也會整理一些面試題。1 兩表join,條件寫在的on後面和where後面什麼區別?1.left join,不管on後面跟什麼條件,左表的資料都會列出來,右表中關聯不上...

技能C 一版

pragma once cstring l2s long num cstring d2s double num void target play sound long uid,const tchar sound file name,double delay time 建立實體 long create...

問題 A 又一版 A B

題目描述 輸入兩個不超過整型定義的非負10進製整數a和b 231 1 輸出a b的m 1 m 10 進製數。輸入輸入格式 測試輸入包含若干測試用例。每個測試用例佔一行,給出m和a,b的值。當m為0時輸入結束。輸出輸出格式 每個測試用例的輸出佔一行,輸出a b的m進製數。樣例輸入 copy 2 4 5...