資料倉儲筆記

2021-09-24 23:02:16 字數 1201 閱讀 4071

資料倉儲筆記(工作之餘總結)

優化引數設定

set hive.mapred.mode=nonstrict;

set hive.auto.convert.join=false;

set hive.skewjoin.key=100000;

set mapred.reduce.tasks = 15;

set hive.exec.parallel=true;

set hive.exec.parallel.thread.number=10;

解釋:set hive.mapred.mode=nonstrict;

hive提供了乙個嚴格模式:1.分割槽表,不明確分割槽不讓查詢 2.order by 後不加limit不能查詢 ;3、限制笛卡爾積查詢

set hive.auto.convert.join=false;

防止map join,資料傾斜

是否根據輸入小表的大小,自動將 reduce 端的 common join 轉化為 map join,從而加快大表關聯小表的 join 速度。

set hive.skewjoin.key=100000;

hive 在執行的時候沒有辦法判斷哪個key 會產生多大的傾斜,所以使用這個引數控制傾斜的閾值,如果超過這個值,新的值會傳送給那些還沒有達到的reduce, 一般可以設定成你處理的總記錄數/reduce個數)的2-4倍都可以接受.

set hive.exec.parallel=true;

引數控制在同乙個sql中的不同的job是否可以同時執行

set hive.exec.parallel.thread.number=10;

就是控制對於同乙個sql來說同時可以執行的job的最大值,該引數預設為10,此時最大可以同時執行10個job.

常用的命令:

show create table table_name;檢視建表語句

desc table_name; 檢視表結構

show locks table_name;檢視表是否有鎖

unlock table table_name;對錶解鎖

show locks table_name extended; 檢視所表sql明細

show partitions table_name;檢視表的分割槽

alter table table_name drop if exists partition(dt='2019-07-03'); 刪除分割槽

資料倉儲 筆記

面向主題 整合相對穩定 反映歷史變化 抽取轉換 載入收集和分析業務需求 建立資料模型和資料倉儲的物理設計 定義資料源 選擇資料倉儲技術和平台 從操作型資料庫中抽取,清洗及轉換資料到資料倉儲 選擇訪問和報表工具,選擇資料庫連線軟體,選擇資料分析和資料展示軟體 更新資料倉儲 主題摘要 資訊摘要 綱目摘要...

資料倉儲 資料倉儲部署

1 首先用下面的語句查詢是否有要建立的表空間 hospdw tab 和 hospdw idx 如果沒有,則把d database zyhip改為對應的路徑,有的話直接建立使用者 select tablespace name,file name,round bytes 1024 1024 0 size...

資料倉儲,什麼是資料倉儲?

資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲是為企業所有級別的決策制定過程提供支援的所有型別資料的戰略集合。它是單個資料儲存,出於分析性報告和決策支援的目的而建立。為企業提供需要業務智慧型來指導業務流程改進和監視時間 成本 質量和控制。資料倉儲是決策支援系統 ds...