乙個助Hadoop集群資料快速上雲工具

2021-07-31 18:26:01 字數 1296 閱讀 8388

越來越多的公司和企業希望將業務遷移到雲上,同時業務資料也希望能更順暢的遷移到雲上。

當前業界有很多公司是以hadoop技術構建資料中心,所以本文將**如何快速的將hadoop檔案系統(hdfs)上的資料遷移到雲上。

本文介紹乙個從hadoop集群直接遷移資料到oss上的工具,該工具由阿里雲e-mapreduce團隊開發,基於hadoop社群中常用的distcp工具,並從e-mapreduce產品中剝離出了乙個常見的功能,做成工具開放給全體阿里雲客戶使用。

2) hdfs資料複製到oss上:

cd emr-tools

./hdfs2oss4emr.sh /path/on/hdfs oss:

其中accesskeyid和accesskeysecret是你訪問阿里雲api(包括oss等雲產品)的金鑰,bucket-name.oss-cn-hangzhou.aliyuncs.com是oss的訪問網域名稱,包括bucket名稱和所在region的endpoint位址。如果引數都正確,則會啟動乙個hadoop mapreduce任務(distcp),作業執行完畢之後會列印本次資料遷移的資訊:

作業完成後,可以用osscmd等工具檢視oss上資料情況:

osscmd ls oss://bucket-name/path/on/oss

3) oss資料複製到hdfs:

同樣的,如果已經在阿里雲上搭建了hadoop集群,可以方便的把資料從oss上遷移到新的hadoop集群

./hdfs2oss4emr.sh oss: /path/on/new-hdfs

除了線下的集群,阿里雲ecs上搭建的hadoop集群也可以用這個工具,借助它可以很方便的將自建集群遷移到阿里雲e-mapreduce服務上。e-mapreduce是由阿里雲專業的大資料團隊提供的hadoop/spark服務,提供了包括集群管理、作業管理、hive表管理、監控報警等豐富的功能,將客戶從繁瑣的hadoop集群運維工作中解放出來。當前阿里雲e-mapreduce服務在ecs機器費用之外並沒有額外收費,可以直接建立集群使用。

如果你現有集群已經在阿里雲上ecs上,但是在經典網路中,無法和vpc中的服務做很好的互操作,所以想把集群遷移到vpc中。此時,你可以先用本工具遷移資料到oss上,然後需在vpc環境中新建乙個集群(自建或使用e-mapreduce服務),再將資料從oss上遷移到新的hdfs集群中。

如果你使用e-mapreduce服務,還可以直接在hadoop集群中通過spark、mapreduce、hive等元件訪問oss,這樣不僅可以減少一次資料複製(從oss到hdfs),還可以極大的降低儲存成本(詳見雲棲社群部落格)

emr-tool...[hadoop].1493942285.bz2

第乙個Hadoop程式

需求 有100個檔案 每個大概10g,300萬個樣例 每個樣例可以得到對應的類別屬性屬性值。統計屬性值出現的次數 類似 wordcount 其中 word 是 類 cat1 cat3 屬性屬性值 usr bin env python coding utf 8 import sys reload sy...

hadoop顯示只有乙個datanode啟動

1.datanode無法啟動 datanode dfs data current version 的clusterid與namenode dfs name current version 的不一致,datanode無法啟動 解決方法 將namenode的clusterid複製到datanode,順便...

如何安裝乙個hadoop系統

1.使用root賬戶登入 2.修改ip 3.修改host主機名 vi etc sysconfig network hostname 4.關閉防火牆 service iptables stop 5.配置主機別名 vi etc hosts ip 192.168.153.129 別名 node01 6.配...