mr存在的問題:
hadoop 1.x 與 hadoop 2.x
結構如圖所示:
hadoop 2.x 由hdfs、mr和yarn三個分支構成:
hdfs 2.x
解決記憶體受限問題
2.x僅僅是架構上發生變化,使用方式不變
對hdfs使用者透明
hdfs 1.x種的命令和api仍可以使用
解決單點故障
兩種切換選擇
基於zookeeper自動切換方案
yarn的引入,使得多個計算框架可執行在乙個集群中
目前多個計算框架可以執行在yarn上,比如mr、spark、storm等。
mapreduce on yarn
有了yarn,就不再有jobtracker和tasktracker了。用來保證資料在zk集群之間的資料的事務性一致。
確定分布式集群結構:
zk伺服器集群規模不小於3個結點,要求各伺服器之間系統時間要保持一致。建立資料夾:
mkdir /usr/local/zk/data
,並在data目錄下,建立檔案myid,值為0.分別在其他結點,重複2-4的邏輯:
啟動集群中的各個機器:
啟動所有集群後,它們之間會通訊,根據「選舉演算法」選舉出leader。
timestamp時間戳
cell單元格
hlog(wal log):記錄了對hbase讀寫操作的日誌
注意:圖中有兩處錯誤(雖然是官方給的圖)client:包含訪問hbase的介面並維護cache來加快對hbase的訪問第一處錯在hlog有多份,第二處錯在hlog屬於hregion。正確的應該是:每乙個hregionserver只有乙個hlog,而不是像圖中畫的那樣有多個;hlog屬於hregionserver,而不是像圖中畫的那樣屬於hregion
zookeeper
master
regionserver
region
memstore與storefile
再看region
再看hbase架構
這個架構圖畫得就很正確了,可以和前面那個有兩處小錯誤的架構圖對比。Hadoop學習筆記 2
hadoop的埠 格式化只需要在namenode上做就可以 hdfs config soft hadoop etc hadoop cluster namenode formathdfs在本地系統上的目錄 在格式化後產生 tmp hadoop user dfs 對應namenode tmp hadoo...
hadoop學習筆記 2
0.要執行xcall.sh jps指令碼命令來檢視相關的程序的話,就需要將jps在 usr.local bin 下面建立香瓜你的鏈結 ln s soft jdk bin jps jps軟連線 1.為什麼hdfs檔案塊如此大?hdfs中的塊比磁碟中的塊要大,其目的是為了最小化定址開銷,如果塊設的足夠大...
Hadoop學習筆記 Hadoop初識
序言 資訊化發展到當今,網際網路的資料量是不斷地增加,那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向,這也之所以產生了各種平台的雲計算。對於網際網路而言,大資料量可分為兩種 第 一 大訪問量請求 第 二 大資料量處理。大訪問量請求這個事應用端應該思考的問題,如何很好的處理大的訪問量,如何...