《hadoop權威教程》學習記錄 01環境

2021-07-22 09:52:30 字數 2382 閱讀 4451

使用本地硬體模擬乙個6臺節點的集群。

規劃環境

vmware workstation 11.1.4

6臺虛擬機器

centos-7-x86_64-everything-1511.iso

jdk1.7.0_80_x64

hadoop-2.7.3

為真實模擬生產環境,集群不聯外網

1.1.1.1 網路設定

設定虛擬機器網路模式為主機模式(host-only)

檢視到vmnet1的子網ip

檢視本機的vmnet1的ip,將vmnet1改為靜態ip

cd /etc/sysconfig/network-scripts

vi ifcfg-eno16777736

//centos7的配置比較特殊

修改ip配置專案

bootproto=no    //dhcp設定

onboot=yes

ipaddr=192.168.44.101 //規劃的本機ip

gateway=192.168.44.1 //宿主機的vmnet1位址

關閉centos防火牆

systemctl stop firewalld.service //停止firewall

systemctl disable firewalld.service //禁止firewall開機啟動

//centos7的防火牆不是iptables

ping測試

hostnamectl status  //centos7使用hostnamectl工具來控制主機名

hostnamectl set-hostname "server01" //分別設定主機名

vi /etc/hosts //設定區域網dns

192.168.44.101 server01

192.168.44.102 server02

192.168.44.103 server03

192.168.44.104 server04

192.168.44.105 server05

192.168.44.106 server06

1.1.1.2 使用者配置

建立使用者組/使用者/設定密碼

groupadd hadoops

useradd -g hadoops hadoop

passwd hadoop

//密碼設定為hadoophadoop 後續的操作盡量用hadoop避免使用root使用者

1.1.1.3 ssh免密碼設定

使用rsa對稱加密達到免密碼ssh,每個節點分別生成一對金鑰,並且分別維護乙個信任列表,以a→b為例

第1步:a主機,定位到/home/hadoop

ssh-keygen -t rsa -f ~/.ssh/id_rsa //會在.ssh下生成id_rsa、id_rsa.pub兩個檔案

cat /home/hadoop/.ssh/id_rsa.pub >> /home/hadoop/.ssh/authorized_keys

第2步:b主機,建立/home/hadoop/.ssh/authorized_keys,儲存信任列表,通常情況是直接用a分發公鑰

scp /home/hadoop/.ssh/id_rsa.pub hadoop@server02

:/home/hadoop/.ssh/authorized_keys

//執行的時候會要求輸入金鑰 建議輸入hadoop

第3步:集群中的主機兩兩配置,可以先統一生成公鑰,而後儲存到乙個檔案裡再分發。

第4步:修改檔案許可權

chmod

700 /home/.ssh

cd /home/.ssh

chmod

600 *

//許可權設定沒有找到有說服力的原因,不能太高也不能太低

第5步:儲存金鑰

ssh-agent bash  //如ssh-add報錯could not

open a connection to your authentication agent.就先執行該命令

ssh-add

《Hadoop權威指南》閱讀記錄2

第3章 hadoop分布式檔案系統 hadoop distributed filesystem 以流式資料訪問模式來儲存超大檔案 hadoop的構建思路 一次寫入,多次讀取時最高效的訪問模式,讀取整個資料集的時間延遲,比讀取第一條記錄的時間延遲更重要。目前,寫操作總是將資料新增在檔案的末尾,他不支援...

Hadoop 權威指南學習筆記(四)

mapreduce 來編寫程式,有乙個特定的流程。首先寫 map 函式和 reduce 函式,最好使用單元測試來確保函式的執行符合預期。然後,寫乙個驅動程式來執行作業,要看這個驅動程式是否可以執行,可以從本地 ide 用乙個小的資料集來執行它。如果驅動程式不能正確執行,就用本地 盡可能正確地處理這些...

Hadoop 權威指南學習筆記(七)

計數器是一種收集作業統計資訊的有效手段,用於質量控制或應用級統計。計數器還可輔助診斷系統故障。hadoop 為每個作業維護若干內建計數器 以描述該作業的各項指標。在任務執行過程中,每個作業的所有任務的結果都會被任務計數器聚集起來。計數器由其關聯任務維護,井定期傳到 tasktracker 再由 ta...