基於AWS搭建分布式計算環境

2021-07-11 11:50:23 字數 2217 閱讀 4636

本文介紹通過 aws 管理控制台建立示例 amazon emr 集群的流程。然後,您將以步驟形式執行 hive 指令碼,以處理儲存在 amazon s3 中的示例資料。

1) 建立 amazon s3 儲存桶

amazon s3 中的每個資料元都儲存在儲存桶中。必須先建立乙個儲存桶,然後才能在 amazon s3 中儲存資料。

tips:只有將物件儲存到儲存桶中以及向儲存桶傳入物件/從儲存桶傳出物件時才需要付費。

首先登入console,開啟 amazon s3 控制,單擊createbucket

在「建立儲存桶」對話方塊中,請在「儲存桶名稱」框中輸入儲存桶名稱。

tips:所選的儲存桶名稱在 amazon s3 的所有現有儲存桶名稱中必須具有唯一性。確保唯一性的一種辦法是以您所在的組織的名稱作為您的儲存桶名稱的字首。

儲存桶建立後,便無法再更改名稱。此外,儲存桶名稱會顯示在指向儲存桶中儲存的資料元的 url 中。請確保選擇適當的儲存桶名稱。

在「region」框中,選擇乙個地區

tips:您可以選擇乙個地區來優化延遲、最小化成本或滿足法規要求。資料元一旦儲存在某一地區,便不會離開,除非您特意將其傳輸到另一地區。

單擊 create,amazon s3 成功建立儲存桶後,控制台的 buckets (儲存桶) 面板中將顯示空儲存桶。

使用 amazon s3 儲存桶儲存日誌檔案和輸出資料。為符合 hadoop 要求,用於 amazon emr 的 s3 儲存桶名稱具有以下限制條件:

2)建立 amazon ec2 金鑰對

必須擁有 ec2 金鑰對才能使用ssh 協議通過安全通道連線集群中的節點。

首先開啟 amazon ec2 控制台,從導航欄中,選擇金鑰對區域

在導航窗格中的 network & security 下,選擇 key pairs。

tip導航窗格位於控制台的左側。如果您看不到窗格,它可能被最小化了;單擊箭頭擴充套件窗格。

選擇 create key pair。

在 create key pair 對話方塊的 key pair name 欄位中輸入新金鑰對的名稱,然後選擇 create。

登入 aws 管理控制台 並通過以下**開啟 amazon emr 控制台:

1)選擇 create cluster。

2)在 quick cluster configuration 頁面上,接受預設值,但以下字段除外:

3)對於 s3 folder,請選擇資料夾圖示以選擇您在 建立 amazon s3 儲存桶 中建立的 logs 資料夾的路徑。

4)對於 ec2 key pair,選擇您在建立 amazon ec2 金鑰對中建立的金鑰對。

5)選擇 create cluster。

在 amazon emr 控制台中以步驟形式在您的集群中執行 hive 指令碼以處理示例資料。在 amazon emr 中,步驟 是包含乙個或多個 hadoop 作業的工作單元。您可以在建立集群或集群正在執行(如果它是長時間執行的集群)時提交步驟。

通過控制台使用 add step 選項可向集群提交 hive 指令碼。指令碼使用的 hive 指令碼和示例資料已為您上傳到 amazon s3。

tips:在執行指令碼之前,您必須擁有建立 amazon s3 儲存桶中所述的 amazon s3 儲存桶和 output 資料夾。

1)開啟 amazon emr 控制台 。

2)在 cluster list 中,選擇您的集群的名稱。

3)滾動到 steps 部分並展開它,然後選擇 add step。

4)在 add step 對話方塊中:

步驟成功完成之後,hive 指令碼生成的查詢輸出會儲存在您在提交步驟時指定的 amazon s3 輸出資料夾中。

您無法刪除內含專案的 amazon s3 儲存桶。首先,刪除 logs 和 output 資料夾,然後刪除儲存桶。

終止集群會終止關聯的 amazon ec2 例項並停止 amazon emr 費用的累計。amazon emr 免費儲存已完成集群的相關元資料資訊兩個月,以用作參考。控制台不提供將完成的集群從控制台刪除的方法;這些集群會在兩個月後自動移除。

Hadoop 分布式環境搭建

靜態ip 右擊寬頻連線network connections system eth0 ipv4 settings method manual addressse 192.168.斷開 連線 拷貝一台虛擬機器 虛擬機器 管理 轉殖 建立完整轉殖 ip設定 右擊網路連線 vi etc udev rule...

Hadoop 分布式環境搭建

ip host name software node 192.168.23.128 ae01 jdk 1.7 namenode,secondarynamenode,datanode,jobtracker,tasktracker 192.168.23.129 ae02 jdk 1.7 datanode...

spark分布式環境搭建(2)分布式環境準備

ps 我已經複製好了 開啟三颱機器,它們的環境都是一樣的 是複製得到的集群 目標 修改三颱機器的hostname修改三颱機器的ip修改三颱機器的hosts三颱機器做免密登入 vim etc hostname 修改三颱機器的網路 vim etc sysconfig network scripts if...