Hadoop學習之Hive簡介

2021-08-07 02:12:56 字數 633 閱讀 3667

1.hive的基本架構

2.hive的資料儲存

例如:tbl_pv 表中包含 ds 和 city 兩個 partition,則對應於 ds = 20090801, ctry = us 的 hdfs 子目錄為:/wh/tbl_pv/ds=20090801/ctry=us;對應於 ds = 20090801, ctry = ca 的 hdfs 子目錄為/wh/pvs/ds=20090801/ctry=ca

buckets 對指定列計算 hash,根據 hash 值切分資料,每乙個 bucket 對應乙個檔案。可用於取樣:

create

table sales( id int, name string)

paritioned by (ds string)

clustered by (id) into

32 buckets;

select id from sales tablesample (bucket 1 out of

32);

Hadoop學習筆記之Hadoop簡介

apache hadoop 是乙個開源的 可靠的 靈活的 分布式的計算系統 來自官網 主要受google 三篇 的啟發 gfs mapreduce bigtable hadoop 海量資料的儲存 hdfs hadoop distributed file system 海量資料的分析 mapreduc...

Hadoop學習之HBase和Hive的區別

hive是為簡化編寫mapreduce程式而生的,使用mapreduce做過資料分析的人都知道,很多分析程式除業務邏輯不同外,程式流程基本一樣。在這種情況下,就需要hive這樣的使用者程式設計介面。hive本身不儲存和計算資料,它完全依賴於hdfs和mapreduce,hive中的表純邏輯表,就是些...

Hive之 hive與hadoop的聯絡

hive與hadoop呼叫圖 解析 1 提交sql 交給驅動 2 驅動編譯 解析相關的字段表資訊 3 去metastore查詢相關的資訊 返回字段表資訊 4 編譯返回資訊 發給驅動 5 驅動傳送乙個執行計畫 交給執行引擎 6 執行計畫 三種形式 metastore namenode metastor...