Hive常見資料格式及儲存(二)

2021-09-26 21:04:42 字數 1175 閱讀 4036

在rdbms資料庫中我們儲存資料都是按照一行一行來存,也是按照一行一行來讀,這種按照行來儲存以及來讀取資料的儲存方式,我們稱作為 行式儲存 ,這種儲存方式在hdfs中存的方式和rdbms一樣,都是將多行資料放在同乙個block中的,如圖

如上圖所示,行式儲存的結構:

假設檔案中有abcd 4列,5行資料,對應於hdfs裡面就是block;那麼這種資料結構的優缺點有哪些呢?

優點對於每一行資料的每一列,必然是在同乙個block裡面的,那麼在對資料做 insert、update 的時候,必然是很簡單的;對於一條資料而言就在自己的block中做就好了;缺點

那麼對比的行式儲存的優缺點之後,出現了一種 列式儲存 的資料結構,下面我們就具體聊聊 列式儲存;

首先一幅圖,來看看列數儲存的 方式;

從上圖可以看出,對於列式儲存而言,他的資料存放方式是將每一列的資料分別存放在不同的block中,

這麼做的優點在**呢?

優點缺點

缺點,當你查詢的字段越多,掃的block越多那麼,查詢上會受到一定的效能影響;

常見的列式儲存格式

sequencefile (最雞肋,建議別用)

上圖,來看看 sequence 是什麼鬼~~

如上圖所示,rcfile是facebook開源的

rcfile是行列儲存混合的(從上圖中也可以體現的出來)效能也不怎麼樣

orc儲存結構如上圖所示,引入了以下幾個概念: 總結

所以,不存在最好的,只有最適合的,我們在選型的時候,需要結合自己業務的場景,對於選擇最合適的方式,達到最好的效果~~

MapInfo常見資料格式

在mapinfo 中所指的表是單純的資料表或是圖形與資料的結合。乙個典型的mapinfo表將主要由 tab dat wks dbf xls map id ind檔案格式組成。建立乙個mapinfo表後,該錶至少由以下兩個獨立檔案組成。1 屬性資料的表結構檔案.tab 描述mapinfo表結構,說明資...

hive資料格式

1 textfile 行式儲存 資料不進行壓縮 網路開銷比較大 2 sequencefile 二進位制檔案 二進位制檔案,它將資料 key,value 的形式序列化到檔案裡 3 orc file 1.orc是列式儲存,有多種檔案壓縮方式,並且有著很高的壓縮比。2.檔案是可切分 split 的。因此,...

ArcGIS中常見資料格式及其轉換

一 arcgis自身的資料格式轉換 shp與個人及檔案地理資料庫之間的轉換 1 資料右鍵匯出,選擇.shp或對應的資料庫直接轉換 2 工具箱中 轉換工具 轉為shapefile批量或者轉出至地理資料庫批量 shp與e00格式轉換 工具箱中 轉換工具 轉為coverage 由e00匯入,然後cover...