Hadoop框架基礎

2022-09-07 06:36:08 字數 2769 閱讀 3910

hadoop 是乙個適合大資料的分布式儲存和計算平台。 

指的是乙個框架,hadoop是由三部分組成:

hdfs:分布式檔案系統--》儲存;mapreduce:分布式離線計算框架--》計算;yarn:資源排程框架

廣義的hadoop不僅僅包含hadoop框架,除了hadoop框架之外的一些輔助框架。flume:日誌資料採集,sqoop:關係型資料庫資料的採集,hive:深度依賴hadoop框架完成計算(sql),hbase:大資料領域的資料庫(相當於web的mysql),sqoop:資料的匯出

廣義hadoop指的是乙個生態圈,,包含很多其他軟體框架:

hadoop生態圈技術棧        

hadoop(hdfs + mapreduce +yarn)

hive 資料倉儲工具

hbase 海量列式非關係型資料庫

flume 資料採集工具

sqoop etl工具

kafka 高吞吐訊息中介軟體

......

nutch—>google**(gfs、mapreduce)

—>hadoop產生

—>成為apache頂級專案

—> cloudera公司成立(hadoop快速發展)

nutch 是乙個開源 j**a 實現的搜尋引擎。它提供了我們執行自己的搜尋引擎所需的全部工具。包括全文搜尋和web爬蟲,但隨著抓取網頁數量的增加,遇到了嚴重的可擴充套件性問題——如何解決數十億網頁的儲存和索引問題

2023年、2023年谷歌發表的兩篇**為該問題提供了可行的解決方案。gfs,可用於處理海量網 頁的儲存;mapreduce,可用於處理海量網頁的索引計算問題。

google的三篇**(三駕馬車)

gfs:google的分布式檔案系統(google file system)

mapreduce:google的分布式計算框架

bigtable:大型分布式資料庫

發展演變關係:

gfs —>hdfs

google mapreduce —>hadoop mapreduce

bigtable —> hbase

隨後,google公布了部分gfs和mapreduce思想的細節,doug cutting等人用2年的業餘時間實 現了dfs和mapreduce機制,使nutch效能飆公升。

2023年,hadoop 作為lucene的子專案nutch的一部分引入apache 2023年,hadoop從nutch剝離出來獨立

2023年,hadoop成為apache的頂級專案

目前hadoop發行版非常多,有cloudera發行版(cdh)、hortonworks發行版、華為發行版、 intel發行版等,所有這些發行版均是基於apache hadoop衍生出來的,之所以有這麼多的版本,是由 apache hadoop的開源協議決定的(任何人可以對其進行修改,並作為開源或商業產品發布/銷售)。

企業中主要用到的三個版本分別是:apache hadoop版本(原始的,所有發行版均基於這個版 本進行改進)、cloudera版本(cloudera』s distribution including apache hadoop,簡稱「cdh」)、 hortonworks版本(hortonworks data platform,簡稱「hdp」)

優點:擁有全世界的開源貢獻,**更新版本比較快,學習非常方便

缺點:版本的公升級,版本的維護,以及版本之間的相容性

軟體收費版本clouderamanager cdh版本 --生產環境使用

cloudera主要是美國一家大資料公司在apache開源hadoop的版本上,通過自己公司內部的各種 補丁,實現版本之間的穩定執行,大資料生態圈的各個版本的軟體都提供了對應的版本,解決了版本的公升級困難,版本相容性等各種問題,生產環境強烈推薦使用

免費開源版本hortonworks hdp版本--生產環境使用

hortonworks主要是雅虎主導hadoop開發的副總裁,帶領二十幾個核心成員成立hortonworks, 核心產品軟體hdp(ambari),hdf免費開源,並且提供一整套的web管理介面,供我們可以通 過web介面管理我們的集群狀態,web管理介面軟體hdf**(

0.x 系列版本:hadoop當中早的乙個開源版本,在此基礎上演變而來的1.x以及2.x的版本

1.x 版本系列:hadoop版本當中的第二代開源版本,主要修復0.x版本的一些bug等

2.x 版本系列:架構產生重大變化,引入了yarn平台等許多新特性

3.x 版本系列:ec技術、yarn的時間軸服務等新特性

hadoop具有儲存和處理資料能力的高可靠性。

hadoop通過可用的計算機集群分配資料,完成儲存和計算任務,這些集群可以方便地擴充套件到數以千計的節點中,具有高擴充套件性。

hadoop能夠在節點之間進行動態地移動資料,並保證各個節點的動態平衡,處理速度非常快,具 有高效性。 hadoop能夠自動儲存資料的多個副本,並且能夠自動將失敗的任務重新分配,具有高容錯性。

hadoop不適用於低延遲資料訪問。

hadoop不能高效儲存大量小檔案。

hadoop不支援多使用者寫入並任意修改檔案。

hadoop基礎框架介紹

以下是官方對hadoop的解釋 the apache hadoop project develops open source software for reliable,scalable,distributed computing。hadoop核心模組 hadoop common the commo...

Hadoop框架介紹

hadoop三大發行版本 apache cloudera hortonworks。apache版本最原始 最基礎 的版本,對於入門學習最好。cloudera內部整合了很多大資料框架。對應產品cdh。hortonworks文件較好。對應產品hdp。在hadoop1.x時代,hadoop 的mapred...

hadoop框架平台

狹義上說hadoop就是乙個框架平台,廣義上講hadoop代表大資料的乙個技術生態 圈,包括很多其他軟體框架 1 hdfs重要概念 namenode 儲存檔案的元資料,比如檔名,檔案目錄結構,檔案屬性,以及每個檔案的塊列表和塊所在的datanode。secondarynamenode 監控hdfs狀...