Hive深入應用總結

2021-08-26 22:27:51 字數 1518 閱讀 5142

記錄下官方文件上講的比較少,覺得有用的hive相關知識,絕對乾貨。

命令:表明tb1

describe extended tb1;返回表tb1欄位,儲存格式型別,位置,修改時間等等關於表的詳細資訊

show functions;顯示可以用的函式列表,包括可用的udf函式。

describe function length; 返回length函式的說明,執行輸出length(str) - returns the length of str

set hive.enforce.bucketing;執行顯示某個屬性的只,這裡顯示是否確保表中使用桶hive.enforce.bucketing=false,可以通過set hive.enforce.bucketing=true來修改為true;

hive --hiveconf hive.root.logger=debug,console 設定進入本次session中的引數值,這裡設定除錯資訊傳送到控制台

set

hive.groupby.skewindata

=true

在執行某條可能會出現資料傾斜的hql前設定,會分兩個階段來執行hql解決資料傾斜。

explain

hql可以檢視hql的查詢計畫

show partitions page_view;
show tables 'page.*';
describe extended page_view partition (ds='2008-08-08');

alter table tab1 add columns (c1 int comment 'a new

int column', c2 string default 'def val');

對於資料量比較大的排重select count(sid) from tb1 group by sid;會比select count(distinct sid) from tb1更有效。

hive0.6.0以後支援create datebase dbname,use dbname,drop database dbname來進行分庫操作

hive 表分為託管表和外部表

託管表drop表時元資料和資料會被一起刪除。

外部表由自己來控制資料的建立和刪除,drop表不會刪除資料,外部表的位置需要在建表的時候指明。建表create external table tb1....

load資料是乙個移動操作,加上local關鍵字,hive會把本地檔案系統的資料複製到hive倉庫目錄,在同乙個檔案系統中就會變成複製

檢視rcfile格式儲存的檔案內容

hive -rcfilecat /user/hive/warehouse/tb1/dt=20120325/hour=15/000000_0

順便說下hadoop檢視順序檔案內容,可以使壓縮檔案,例如

hadoop fs -text /user/hive/warehouse/tb1/dt=20120317/20120317.lzo

初始Hive 深入淺出學Hive

目錄 初始hive hive安裝與配置 hive 內建操作符與函式開發 hive jdbc hive引數 hive 高階程式設計 hive ql hive shell 基本操作 hive 優化 hive體系結構 hive的原理 第一部分 hive簡介 什麼是hive hive是基於hadoop的乙個...

hive引數 深入淺出學Hive

目錄 初始hive hive安裝與配置 hive 內建操作符與函式開發 hive jdbc hive引數 hive 高階程式設計 hive ql hive shell 基本操作 hive 優化 hive體系結構 hive的原理 第一部分 hive 引數 hive.exec.max.created.f...

初始Hive 深入淺出學Hive

第一部分 hive簡介 什麼是hive hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能。本質是將sql轉換為mapreduce程式 第二部分 為什麼使用hive 面臨的問題 人員學習成本太高 專案週期要求太短 我只是需要乙個簡單的環境 ...