hive資料格式

2021-09-25 02:25:19 字數 376 閱讀 3983

1 textfile

行式儲存

資料不進行壓縮 網路開銷比較大

·2 sequencefile 二進位制檔案

二進位制檔案,它將資料(key,value)的形式序列化到檔案裡

·3 orc file

1. orc是列式儲存,有多種檔案壓縮方式,並且有著很高的壓縮比。

2. 檔案是可切分(split)的。因此,在hive中使用orc作為表的檔案儲存格式,不僅節省hdfs儲存資源,查詢任務的輸入資料量減少,使用的maptask也就減少了

3. 提供了多種索引,row group index、bloom filter index。

4. orc可以支援複雜的資料結構(比如map等)

·4parquet

20 大資料 hive資料格式

hive支援原子和複雜資料型別。原子資料型別包括數值型 布林型 字串型別和時間戳型別。複雜資料型別包括陣列 對映和結構 hive會為每個建立的資料庫在hdfs上建立乙個目錄,該資料庫的表會以子目錄形式儲存,表中的資料會以表目錄下的檔案形式儲存。對於default資料庫,預設的預設資料庫沒有自己的目錄...

Hive常見資料格式及儲存(二)

在rdbms資料庫中我們儲存資料都是按照一行一行來存,也是按照一行一行來讀,這種按照行來儲存以及來讀取資料的儲存方式,我們稱作為 行式儲存 這種儲存方式在hdfs中存的方式和rdbms一樣,都是將多行資料放在同乙個block中的,如圖 如上圖所示,行式儲存的結構 假設檔案中有abcd 4列,5行資料...

Hive資料格式選擇ORC及使用sqoop資料匯入

orc的全稱是 optimized row columnar orc檔案格式是一種hadoop生態圈中的列式儲存格式,它的產生早在2013年初,最初產生自apache hive,用於降低hadoop資料儲存空間和加速hive查詢速度。和parquet類似,它並不是乙個單純的列式儲存格式,仍然是首先根...