大資料學習之路91 Hadoop配置為高可用

2021-08-28 21:05:59 字數 810 閱讀 6646

我們之前一直沒有配置過hadoop的高可用,今天我們就來配置一下

之前我們的namenode只要一掛,則整個hdfs集群就完蛋。雖然我們可以通過重啟的方式來恢復,可是我們重啟好之前,我們的hdfs集群就不能提供服務了。所以它存在單點故障問題。

我們可以設定兩台namenode ,一台為active,另一台為standby

active對外提供服務,而standby則不斷的和active同步元資料。但這個元資料在hadoop中不是直接讓他們就同步,而是在一開始的時候,讓兩個namenode保持相同的fsimage。當集群執行起來之後,active的記憶體中會不斷的產生元資料。而且不光是產生元資料,還會將引起元資料變化的操作記錄成日誌。

namenode在高可用的模式下,不光會將日誌記錄在本地,還會將日誌記錄在日誌管理系統裡面,這個分布式的日誌管理系統,叫qjournal分布式日誌管理系統。qjournal是乙個集群,它裡面會有很多臺機器,可以實現資料的可靠儲存,他會將日誌檔案記錄在很多臺伺服器上,當然這些伺服器肯定有本地目錄,而且它還有乙個特點,就是只要有半數以上的機器還在,就可以正常的提供對外服務,這個就和zookeeper有點像了,為什麼說它和zookeeper有點像呢?因為他們所用的資料同步的策略相同。zookeeper及資料時候也是記錄在很多臺,也需要進行同步的。他們是通過paxos演算法做資料一致性的同步。所以一般有奇數臺節點比較合適,並且存活半數以上,這個集群就能正常執行。所以它是很可靠的,他一般不會掛。而這個系統是基於zookeeper開發的。沒有zookeeper是執行不起來的。所以我們還要引入zookeeper集群。

反正這麼一來active就把這些日誌記錄到qjournal集群中的伺服器中了。然後

我的hadoop大資料之路(二)

hadoop的安裝包中的conf目錄,那裡有很多配置,但只需對其中的三個檔案進行修改 core site.xml,hdfs site.xml 和mapred site.xml。1 首先我們修改core site.xml檔案 fs.default.name hdfs localhost 9000 這個...

大資料學習之路

大資料的學習之路,一直在到處學習零零閃閃的東西,但是從來麼有對自己學習的東西進行整理,以及後續做過的東西,一直找不到對應的東西,接下來會對自己的學習記錄下來,以及同類問題遇見的得以解決 4v特徵 volume 資料量大,pb級別 velocity 輸入和處理速度快 流式資料 value 價值密度低 ...

大資料Hadoop學習六

1 hadoop的改進 hadoop 1.0到2.0的改進分為mapreduce和hdfs架構的演進。另一方面,不斷加入kafka,spark,pig,tez等新的元件。hadoop2.0 針對hdfs涉及了hdfs ha,提供名稱節點的熱備份 設計了hdfs federation管理多個命名空間 ...