HIVE儲存格式ORC PARQUET對比

2022-08-23 05:51:09 字數 1003 閱讀 1009

hive有三種預設的儲存格式,text、orc、parquet。text是預設的格式,orc、parquet是列儲存格式,占用空間和查詢效率是不同的,專門測試過後記錄一下。

create table if not exists text(

a bigint

) partitioned by (dt string)

row format delimited fields terminated by '\001'

location '/hdfs/text/';

create table if not exists orc(

a bigint)

partitioned by (dt string)

row format delimited fields terminated by '\001'

stored as orc

location '/hdfs/orc/';

create table if not exists parquet(

a bigint)

partitioned by (dt string)

row format delimited fields terminated by '\001'

stored as parquet

location '/hdfs/parquet/';

其實就是stored as 後面跟的不一樣

parquet

orctext

709m

275m

1g687m

249m

1g647m

265m

1gparquet

orctext

36.451

26.133

42.574

38.425

29.353

41.673

36.647

27.825

43.938

hive儲存格式

textfile 預設格式,行儲存,匯入資料時直接把資料檔案拷貝到hdfs的hive表目錄 hive location 資料檔案可先經過gzip等壓縮,再導hive表 系統自動檢查,執行查詢時自動解壓 但使用這種方式,hive不會對資料進行切分,從而無法對資料進行並行操作.優點 資料載入快 load...

Hive儲存格式

hive的四種儲存格式 textfile sequencefile rcfile parquet 列式儲存和行式儲存的比較 優點缺點 行式儲存 一行資料是一條記錄,放在同乙個block塊中 只查詢幾個列時,也會讀取整行的資料,當資料量大時,影響效能 方便進行insert update操作 不同型別的...

hive 儲存格式

hive有textfile,sequencefile,rcfile三種檔案格式。textfile為預設格式,建表時不指定預設為這個格式,匯入資料時會直接把資料檔案拷貝到hdfs上不進行處理。sequencefile,rcfile格式的表不能直接從本地檔案匯入資料,資料要先匯入到textfile格式的...