hive優化及執行命令

2021-08-30 02:15:29 字數 708 閱讀 8733

在學習hive的時候,就要像說下hive和hadoop集群之間的關係了,

hive利用hdfs儲存資料,利用mapreduce查詢資料

hive最適合於資料倉儲程式,對於資料倉儲程式不需要實時響應查詢,不需要記錄級別的插入、更新和刪除。因此hive不適用於聯機事務處理,可以用於聯機分析處理。

上圖都是來解釋hive的乙個運**況,

可以從以下幾點入手:

hive元資料儲存:通常是儲存在關聯式資料庫如 mysql , derby中。

derby缺點:元資料會生成在hive啟動的目錄,如果換乙個目錄啟動hive的話,歷史資料就訪問不到了,會生成新的元資料;只支援單使用者訪問,如果乙個使用者啟動了hive,其他使用者就訪問不到了。

hive內部表和外部表的區別:

建立內部表會在hdfs上生成目錄,外部表不會;

載入內部表資料會將資料移動到表目錄下,而外部表資料一般是在建立表的時候指定乙個路徑;

刪除內部表時會將資料一起刪除,外部表不會,

hive傳參及執行命令

三種傳參 1 hiveconf hive hiveconf varage 19 database test e select from person where age 1.1 可以傳參必須用加字首的方式取值 1.2 可覆蓋hive site.xml hive default.xml 中的引數值,設...

Hive元件及Hive執行流程

元儲存 metastore 儲存 系統目錄以及關於表 列 分割槽等的元資料 的元件。驅動 driver 控制 hiveql 生命週期的元件,當 hiveql 查詢穿過 hive時。該驅動管理著會話控制代碼以及任何會話的統計。查詢編譯器 query compiler 是乙個元件,將hiveql編譯成有...

Hive 優化之 推測執行

mapreduce將作業分解成多個任務並行執行的機制,決定了作業執行的總體時間對執行緩慢的任務比較敏感。為了盡量避免執行緩慢的任務對作業執行時間 託後腿 的情況,需要啟動作業的推測執行。在分布式集群環境下,因為程式bug 包括hadoop本身的bug 負載不均衡或者資源分布不均等原因,會造成同乙個作...