hive分割槽處理注意點

2021-06-28 17:34:15 字數 370 閱讀 1272

在優化乙個使用4w個map的job的時候,發現了乙個使用hive的注意點,跟大家分享下。

hive表中一般都有分割槽,在程式裡我們會動態取某個分割槽裡的資料,這時分割槽值就是乙個函式。這個函式的選擇就是關鍵了。

優化前的分割槽函式是: dt = date_sub(from_unixtime(unix_timestamp(), 'yyyy-mm-dd'), 2) (水平有限,當時就這麼寫了)

,map數:4w+

優化後的分割槽函式是:dt = sysdate( - 2) (日期處理函式),

map數:860

之前map數過多是否是摟了很多分割槽,這個還不太確定,有哪位大神知道,麻煩告訴我下。

**與業務有關,就不方便放這了。

Linux分割槽注意點

分割槽共四個,筆者分割槽如下,比較合理 1 新分割槽的型別 選擇 主分割槽 新建分割槽容量 輸入分配的大小,以mb 為單位 新分割槽的位置 按預設選 起始 用於 後面選擇新分割槽使用的檔案系統,使用預設 ext4 日誌檔案系統 掛載點 選擇 大小10g 可以根據個人而異 2 建立交換空間 再選擇空閒...

hive 分割槽 hive 分割槽概念 0323

1 hive 分割槽表 在hive select查詢中一般會掃瞄整個表內容,會消耗很多時間做沒必要的工作。有時候只需要掃瞄表中關心的一部分資料,因此建表時引入了partition概念。分割槽表指的是在建立表時指定的partition的分割槽空間。hive可以對資料按照某列或者某些列進行分割槽管理,所...

HIVE分割槽,靜態分割槽,動態分割槽

分割槽可以大大提公升hive的效能,這裡就要提到數倉的分層 原始資料層,儲存原始收集的資料 數倉明細層,裡面做的是轉換和分析,裡面包含部分的資料清洗的過程 數倉服務層,對外業務的處理,如維度轉 鍵 身份證清洗 會員註冊 清晰 字段合併 空值處理 髒資料處理 ip清晰轉換等 最終業務層 適合做增量表,...