Hive SQL學習筆記

hadoop

學習hive sql之前，要先了解hadoop。hadoop是乙個分布式系統的基礎框架，其核心部分是：分布式檔案系統hdfs（hadoop distributed file system）和mapreduce。hdfs用於儲存海量資料；mapreduce用於計算海量資料，但是學習mapreduce的成本太高，hive sql就是採用類sql語句轉換成mapreduce程式。

hive 表

內部表和外部表

分割槽

將字段符合要求的表劃分在同乙個區，提公升查詢速度。（例如將同一天的日誌放在乙個分割槽，有需求只需要掃瞄某一天的分割槽檔案）

create
table logs (ts bigint
, line string)
partitioned by
(dt string,country string)
;

分桶根據字段雜湊後對桶數取餘放入對應的桶

例如：根據id分桶，共有4個桶。

create
table bucketed_users(id int
, name string)
clustered
by(id)
into
4 buckets;

inner join 和 natural join 的區別inner join 加 on 選擇條件；natural join 返回兩張表相同字段相等的結果，多個欄位要滿足記錄和資料型別都相等；

select e.last_name, e.first_name, d.dept_no from employees e inner join dept_emp d on e.emp_no = d.emp_no;

limit主要用於分頁查詢；limit 接受乙個或兩個數字引數；第乙個引數指定第乙個返回記錄行的偏移量，第二個引數指定返回記錄行的最大數目。初始記錄行的偏移量是 0(而不是 1)

select *from table limit5, 10;// 檢索記錄行 6-15，從第6行開始，最多10條資料 select *from table limit95, -1;// 檢索記錄行 96-last.從95行開始到最後 select *from table limit n; 等價於 select *from table limit 0，n; // 0不應該是-1？返回前n條資料

ddl、dml資料定義語言、資料操縱語言

Hive SQL學習筆記

Hive SQl 學習筆記

hadoop學習筆記之HiveSQL 資料查詢

hive sql優化整理

Hive SQL學習筆記

Hive SQl 學習筆記

hadoop學習筆記之HiveSQL 資料查詢

hive sql優化整理

相關推薦