以下是官方對hadoop的解釋:
the apache™ hadoop® project develops open-source software for reliable, scalable, distributed computing。
hadoop核心模組:
hadoop common: the common utilities that support the other hadoop modules.
hadoop yarn: a framework for job scheduling and cluster resource management.
hadoop mapreduce: a yarn-based system for parallel processing of large data sets.
hadoop主要模組(單一職責,職責明確劃分):
yarn:
分配資源
監控管理任務
計算任務:
mapreduce
資料儲存:
hdfs
hdfs架構:
二叉樹(資料結構)
namenode:管理者 管理元資料的命名空間,維護者整個檔案系統的目錄樹
元資料資訊
舉個荔枝,檔案:檔案本身內容是一部分
檔案本身攜帶的一部分資訊 又是一部分(元資料)
datanode:
儲存檔案資料本身內容的,檔案是以塊的形式儲存的
hdfs讀取資料的流程:(檔案)
client 端--->傳送讀取資料 的請求--->namenode 進行通訊--->
返回你要讀取資料的最佳位置(本地計算的概念)--->和datanode進行通訊讀取對應的資訊
yarn核心元件:
resourcemanager(管理員 平台資源):
對資源進行分配管理和任務排程
1、接收客戶端請求
3、向 resourcemanager 進行反向註冊的(客戶端可以直接檢視任務具體的執行狀態)
5、resourmanager 返回乙個 nodemanager 列表資訊
6、clinet 與具體的 nodemanger 進行通訊執行任務
mapreduce:
map 端
任務分解
shuffle連線(橋)
reduce 端
將前面任務分解執行完的結果進行彙總
分而治之 歸約處理
應用場景:離線批處理資料(海量的)
缺點:啟動開銷大、高延遲 所以小資料不建議應用
Hadoop框架介紹
hadoop三大發行版本 apache cloudera hortonworks。apache版本最原始 最基礎 的版本,對於入門學習最好。cloudera內部整合了很多大資料框架。對應產品cdh。hortonworks文件較好。對應產品hdp。在hadoop1.x時代,hadoop 的mapred...
Hadoop框架基礎
hadoop 是乙個適合大資料的分布式儲存和計算平台。指的是乙個框架,hadoop是由三部分組成 hdfs 分布式檔案系統 儲存 mapreduce 分布式離線計算框架 計算 yarn 資源排程框架 廣義的hadoop不僅僅包含hadoop框架,除了hadoop框架之外的一些輔助框架。flume 日...
hadoop之hadoop基礎介紹
hadoop是什麼?是乙個分布式基礎架構,主要解決海量資料儲存以及資料分析計算問題。hadoop三大發行版本?apache clourdera hortonworks hadoop優勢?高可靠 高擴充套件 高效 高容錯 hadoop1.x和2.x的區別?hdfs hadoop distributed...