Hive中的各種儲存格式的區別

2021-09-29 16:33:46 字數 722 閱讀 9835

hive包含的檔案儲存格式有:textfile、sequencefile、rcfile、orcfile,parquet。

預設的檔案格式,行儲存。

缺點:儲存空間占用較大,i/o效能低;不可對資料進行切割、合併,不能進行並行操作;

適用於小型查詢,測試操作等。

鍵值對形式儲存的二進位制文字格式,行儲存。

優點:可壓縮、可分割。優化i/o效能;可並行操作;

缺點:儲存空間占用最大,只侷限於hadoop生態使用;

適用於小資料,大部分都是列查詢的操作。

行列式儲存。先將資料按行分塊,每乙個塊資料轉換成乙個record物件,避免讀取一條資料需要讀取多個block;然後塊資料按列儲存。

優點:可壓縮,高效的列儲存,查詢速度較快;

缺點:載入時效能消耗較大,全量資料讀取時效能較低。

優化後的rcfile,優缺點與rcfile類似,查詢效率最高。

適用於hive中、大型的儲存和查詢。

列儲存。

優點:更高效的壓縮和編碼;不與任何資料處理技術繫結,可用於多種資料處理框架。

缺點:不支援update,insert,delete,acid

適用於字段非常多,無更新,只讀取部分列資料。

總結:表的字段個數不多時檔案按塊進行壓縮,行儲存比較高效;

表的字段個數成百上千時,且只需要個別欄位的查詢時,列儲存可較大提高效率;

資料倉儲一次寫入,多次讀取,orc格式比較有優勢。

Hive的資料儲存格式

hive 沒有專門的資料儲存格式,也沒有為資料建立索引,使用者可以非常自由的組織 hive 中的表,只需要在建立表的時候告訴 hive 資料中的列分隔符和行分隔符,hive 就可以解析資料。其次,hive 中所有的資料都儲存在 hdfs 中,hive 中包含以下資料模型 table,external...

hive 修改表的儲存格式 Hive檔案儲存格式

列式儲存和行式儲存 5.png 上圖左邊為邏輯表,右邊第乙個為行式儲存,第二個為列式儲存。行儲存的特點 查詢滿足條件的一整行資料的時候,列儲存則需要去每個聚集的字段找到對應的每個列的值,行儲存只需要找到其中乙個值,其餘的值都在相鄰地方,所以此時行儲存查詢的速度更快。列儲存的特點 因為每個欄位的資料聚...

hive儲存複雜的json格式

1.hive復合資料型別 array data type map primitive type,data type struct col name data type comment col comment 2.json建構於兩種結構 名稱 值 對的集合 a collection of name v...