遷移hive資料

2021-10-08 13:50:13 字數 340 閱讀 9177

新集群的資料遷移到老集群,往往會遇到很多問題

1.小檔案多

2.老集群效能比較差

3.資料量大

使用資料遷移工具nifi

該工具的特點是輕量,對小檔案遷移支援度高,大檔案遷移慢

遇到的問題

1.曾經在老集群寫spark程式合併小檔案,但老集群效能比較低,程式跑了一晚上都沒有合併完成乙個月

2.將小集群的日分割槽合併成乙個大檔案,用nifi做遷移,發現速度沒有得到提公升,感覺還變慢了

故先把老集群資料用nifi遷移到新集群,在新集群裡面合併小檔案

遷移過程

老集群-nifi-新集群臨時表-合併小檔案-新集群正式表

hive資料遷移

資料遷移指令碼 1 在原集群上建立,並設定相應許可權 hadoop fs mkdir tmp hive export 2 生成匯出指令碼 hive e use fangyc show tables awk sed s g export.hql fangyc 是資料庫名,根據實際情況修改 3 手工匯出...

hive資料遷移

網路互通的兩個hadoop集群中,可執行如下命令,將nn1節點所在集群a上目錄a.dir拷貝到nn2節點所在集群b目的b.dir上 hadoop distcp i hdfs nn1 8020 a.dir hdfs nn2 8020 b.dir詳情參考 設定預設需要匯出的hive資料庫為default...

資料遷移 Hive

方式 1 使用hive sql進行資料的匯入匯出 2 export import方式 方式 1 將資料匯出到本地 insert overwrite local directory 路徑 row format delimited fields terminated by select 欄位1,欄位2 ...