impala同步hive中的元資料收集統計資訊

impala獲取hive中的元資料

收集統計資訊

1. 檢查統計資訊

2. 收集統計資訊

3. 刪除統計資訊

impala 通常和hive共用同乙個metadata 資料庫(通常是mysql/postgresql), 所以impala 能夠讀取到hive的元資料資訊. 如果impala需要訪問hive表, 需要將hive metadata 重新整理到impala中.

在hive中create/drop表後, 或者hdfs rebalance,或者手工刪除hdfs的檔案後, 則需要在impala中執行下面兩行命令:

invalidate metadata table_name;
describe table_name;

第一行命令 invalidate metadata 告訴impala 指定的 table 元資料已經過期, impala 將在下一次使用到該錶時自動重新整理元資料, 第二行命令即觸發impala去更新元資料, 以免將來真正使用該錶耗時太久.

如果impala已經知道了hive表的存在後, 又通過hive增加或刪除分割槽或alter table, 使用 refresh 命令即可更新元資料. refresh是對元資料進行增量更新, 和invalidate metadata相比, refresh命令使用成本低很多.

refresh table_name; --增量重新整理全表 
refresh [table_name] [partition (key_col1=val1 [, key_col2=val2...])]]; --僅僅重新整理指定分割槽
--備註：如果是用指定分割槽的方式進行刷表的話，那只能指定單個分割槽，不能採用》/《之類的分割槽範圍

invalidate metadata 命令如果不指定表名, 則將所有表的元資料都標記為過期, 慎用!

impala 僅僅能部分利用hive的統計資訊, 要想得到好的執行效率, impala需要收集統計資訊.

show table stats table_name; --顯示表和分割槽級別的統計資訊. 如果返回第一列 #rows 值-1, 表名還沒有收集過統計資訊.

show column stats table_name ; --顯示列級別的統計資訊.

impala 的compute stats 一條命令同時採集表和字段兩種資訊, 使用起來非常方便.

它增量和全量兩種寫法, 在從未收集過統計資訊的前提下, 並且數量一致的情況下, 使用compute stats命令要比compute

incremental stats速度更快. 所以對於非分割槽表, 推薦使用compute stats. compute stats table_name ; -- 對於非分割槽表, 推薦使用compute stats, 速度更快

compute incremental stats table_name ;--對於分割槽表, 推薦使用compute incremental stats, 速度更快一些.

如果table通過hive增加了分割槽, 需要先進行refresh, 然後增量收集統計資訊.

refresh table_name;
compute incremental stats table_name;

drop stats table_name
drop incremental stats table_name partition (key_col1=val1 [, key_col2=val2...])]

impala同步hive中的元資料收集統計資訊

Hive和Impala的區別

impala如何出現hive表的資料

hive 的分組排序用法與 Impala 分組排序

impala同步hive中的元資料 收集統計資訊

Hive和Impala的區別

impala如何出現hive表的資料

hive 的分組排序用法與 Impala 分組排序

相關推薦

impala同步hive中的元資料收集統計資訊