Hive資料格式選擇ORC及使用sqoop資料匯入

orc的全稱是(optimized row columnar)，orc檔案格式是一種hadoop生態圈中的列式儲存格式，它的產生早在2023年初，最初產生自apache hive，用於降低hadoop資料儲存空間和加速hive查詢速度。和parquet類似，它並不是乙個單純的列式儲存格式，仍然是首先根據行組分割整個表，在每乙個行組內進行按列儲存。orc檔案是自描述的，它的元資料使用protocol buffers序列化，並且檔案中的資料盡可能的壓縮以降低儲存空間的消耗，目前也被spark sql、presto等查詢引擎支援，但是impala對於orc目前沒有支援。

只有textfile錶能直接載入資料，如果必須本地load資料和external外部表直接加載運路徑資料都只能用textfile表，其他格式不行，可以通過textfile表載入後insert到其他表中。orc表不能直接載入資料，資料要先匯入到textfile表，再從textfile表通過insert select from 匯入到orc表。orc表的原始檔不能直接檢視，在hive中用select看。

我們使用sqoop進行資料抽取，使用hcatalog方式可以直接將資料抽取到hive的orc表中，解決無法將外部資料load到hive資料表的問題，但是hcatalog不允許資料覆蓋，每次都只是追加，所以在進行資料全量抽取是要提前清空資料表資料（truncate table table_name）。

sqoop一般方式比較隨意，不要求源表和目標表字段相同(欄位名稱和個數都可以不相同)，它抽取的方式是將字段按順序插入，比如目標表有3個字段，源表有乙個字段，它會將資料插入到hive表的第乙個字段，其餘欄位為null。但是hcatalog不同，源表和目標表欄位名需要相同，字段個數可以不相等，如果欄位名不同，抽取資料的時候會報nullpointerexception錯誤。hcatalog抽取資料時，會將字段對應到相同欄位名的字段上，哪怕字段個數不相等。但是可以使用query（–query 「select order_no_src as order_no_target from driver_action where $conditions」）的方式解決欄位名不同問題。

hive建表語句如下：

create table if not exists ods_wsp_dw_dim_time ( id int comment 'id'

) comment '時間維度表'

//全量抽取
sqoop import --connect jdbc:mysql://ip:3306/wsp --username root --password 123456 --table dw_dim_time --hcatalog-database dw_pj --hcatalog-table ods_wsp_dw_dim_time -m 4
//增量抽取
sqoop import --connect jdbc:mysql:/ip:3306/wsp?autoreconnect=true --username root --password 123456 --query "select * from dw_fact_point where create_time >= '$' and create_time < '$' and \$conditions" --hcatalog-database dw_pj --hcatalog-table ods_wsp_dw_fact_point --hcatalog-partition-keys pt_day --hcatalog-partition-values "'$'" --split-by id -m 10

Hive資料格式選擇ORC及使用sqoop資料匯入

hive資料格式

Hive常見資料格式及儲存（二）

20 大資料 hive資料格式

Hive資料格式選擇ORC及使用sqoop資料匯入

hive資料格式

Hive常見資料格式及儲存（二）

20 大資料 hive資料格式

相關推薦