Hive 常見設定

2022-06-04 20:03:07 字數 747 閱讀 2478

1. hive中 null 太多會占用大量空間 , 用這個可以減少占用

alter

table test_null set serdeproperties('

serialization.null.format'=

'');

2.  使用 sqoop 從mysql 和hive的 互相匯入

mysql 中  空 底層是用 null 表示

hive 中   空  底層是用  /n 表示

3. hive支援 tez  引擎 , 比mapreduce 引擎更快

4.建立mapreduce 任務的時候 , 檔案太多 , 可以設定

set mapred.max.split.size=100000000;

set mapred.min.split.size.per.node=100000000;

set mapred.min.split.size.per.rack=100000000;

set hive.input.format=org.apache.hadoop.hive.ql.io.combinehiveinputformat;

這是將碎檔案合併之後, 再處理

因為一般情況下 , 如果有100個1m的檔案 , 會有100個map 任務開啟 , 優化

之後 , 直接將100個小檔案合併成乙個100m的檔案 , 再進行處理

5. hive 也可以設定reduce 個數 . 然後也就是會有幾個檔案

6.

04hive常見屬性設定

16.1.default資料倉儲的最原始位置是在hdfs上的 user hive warehouse路徑下。16.2.在倉庫目錄下,沒有對預設的資料庫default建立資料夾。如果某張表屬於default資料庫,直接在資料倉儲目錄下建立乙個資料夾。將hive default.xml.template...

hive常見命令

clear 清屏 dfs lsr hive 執行dfs命令 show databases 檢視所有資料庫 okdefault time taken 1.693 seconds,fetched 1 row s 我們發現只有乙個default庫 於是我們使用default 資料庫 hive use de...

hive常見命令

hive常用命令 1 進入hive資料庫 hive 2 檢視hive中的所有資料庫 show databases 3 用default資料庫 use default 4 檢視所有的表 show tables 5 查詢表結構 desc mytest 表名 6 查詢表資料 select from myt...