distcp使用紀要

2021-06-06 00:19:55 字數 771 閱讀 7379

distcp主要用於在hadoop集群之間拷貝資料。

1,如果haboop版本相同,可以使用如下格式

hadoop distcp hdfs:///src hdfs:///des

2, 如果在不同版本的hadoop集群之間拷貝資料,可以使用如下格式

hadoop distcp -i hftp://>/src hdfs:///des

注意,這個時候,需要在目標集群上執行distcp, -i是忽略錯誤。

注意hftp和ftp沒有什麼關係,它是通過http訪問hdfs檔案系統的協議包裝,以支援不同版本之間拷貝資料。它的埠,不是dfs埠,而是http埠。

在我的應用中,乙個是hadoop1.0.0集群,乙個是cloudera cdh3u0集群,此時需要將hadoop1.0.0裡面的資料拷貝到cloudera cdh3u0的hdfs中。因此採用hftp的distcp。

更進一步,如果只是造無邏輯關係的資料,distcp沒有只寫的teragen或slive快。在我的測試中,teragen和slive的混合寫入,磁碟寫入速度可以達到300mb/s,網路io可以達到100+mb/s。而distcp,磁碟寫入為100mb/s,網路io也達到100+mb/s。

補充一下,如果是公升級hdfs的hadoop版本,可以在啟動時start-dfs -upgrade,這樣即可以將檔案系統公升級至新的hadoop版本。如從hadoop-0.19 至hadoop-0.20,但是如果不是一脈相承的版本,公升級也有問題。如我這邊不能將hadoop-1.0.0與cloudera版本之間進行公升級。

相關鏈結

distcp使用要點

引言 在公司資料遷移時,對distcp這個命令嘗試了n多次,總算對他的工作原理有點心得。1 首先確保兩個集群的mapreduce計算框架沒問題 2 開通目標集群所有機器到源集群namenode節點的網路 3 版本差距不是很大時,用 sudo u hdfs hadoop distcp i hdfs h...

archlinux使用紀要

安裝步驟 usb 2013 01 04版本 準備 2.用dd或者image writer 將映象複製到usb 3.選擇從usb啟動 安裝 1.檢視install.txt 2.掛載硬碟到 mnt 或者其他目錄 格式化要安裝的分割槽 3.聯網 無線可使用wifi menu 4.pacstrap安裝所需軟...

distcp資料遷移方案

資料遷移distcp方案 根據遷移的實際情況,由於資料量大 重要 迫切性,因此實施方案每一步都需嚴謹執行,並且當出錯時清楚缺少的資料和補救的辦法。大的步驟分為3步,即export distcp import。在export匯出資料時,以時間戳作為引數,如將三個月的資料為乙個單位匯出,出錯時,重複執行...