hive中的檔案格式的簡介

2022-03-24 06:10:25 字數 1100 閱讀 4935

【注意】hive預設的檔案格式是textfile,可通過set hive.default.fileformat 進行配置

【結論:由上圖可知】

行式儲存一定會把同一行資料存到同乙個塊中,在select查詢的時候,是對所有欄位的查詢,不可以單獨查詢某一行

列式儲存同一列資料一定是儲存到同乙個塊中,換句話說就是不同的列可以放到不同塊中,在進行select查詢的時候可以單獨查詢某一列。

優點:當查詢某個或者某幾個欄位的時候,只需要檢視儲存這幾個欄位的這幾個block就可以了,大大的減少了資料的查詢範圍,提高了查詢效率

缺點:當進行全欄位查詢的時候,資料需要重組,比單獨查一行要慢

優點:全欄位查詢比較快

缺點:當查詢一張表裡的幾個欄位的時候,底層依舊是讀取所有的字段,這樣查詢效率降低,並且會造成不必要的資源浪費,而且,生產中很少會出現需要全欄位查詢的場景

Hive 檔案格式

hive檔案儲存格式包括以下幾類 1 textfile 2 sequencefile 3 rcfile 4 orcfile 0.11以後出現 5 parquet其中textfile為預設格式,建表時不指定預設為這個格式,匯入資料時會直接把資料檔案拷貝到hdfs上不進行處理 sequencefile,...

Hive檔案格式

hive檔案儲存格式包括以下幾類 1 textfile 2 sequencefile 3 rcfile 4 orcfile 0.11以後出現 其中textfile為預設格式,建表時不指定預設為這個格式,匯入資料時會直接把資料檔案拷貝到hdfs上不進行處理 sequencefile,rcfile,or...

Hive檔案格式

hive檔案儲存格式包括以下幾類 1 textfile 2 sequencefile 3 rcfile 4 orcfile 0.11以後出現 其中textfile為預設格式,建表時不指定預設為這個格式,匯入資料時會直接把資料檔案拷貝到hdfs上不進行處理 sequencefile,rcfile,or...