Hadoop學習筆記之Hadoop簡介

2021-06-29 08:55:41 字數 2233 閱讀 8340

apache hadoop

是乙個開源的、可靠的、靈活的、分布式的計算系統(來自官網)

主要受google

三篇**的啟發(

gfs、

mapreduce

、bigtable

)hadoop

海量資料的儲存(hdfs)hadoop distributed file system

海量資料的分析(mapreduce)

hadoop2.0後出現

yarn

,所有計算框架執行於

yarn

上,只要符合一定的介面

storm、

spark

,mapreduce

等都可以執行在

yarn

yarn的出現使

hadoop

可以支援多種計算框架,而不僅僅是mr

雲計算與hadoop

之間的關係:

雲計算由三部分:

從底向上分別是:iaas

、paas

、saas

iaas:基礎設施即服務(

openstack

、cloudstack

等)paas:平台即服務(

,apache hadoop

)saas:軟體即服務,典型實現有:

可以看出apache hadoop

只是雲計算中的某一層中的實現而已

hadoop主要組成:

hdfs:分布式檔案系統

特點:

良好的擴充套件性

高容錯性,可靠性:通過備份提高

適用於pb

以上級別的儲存

mapreduce:平行計算框架

特點:易於程式設計(暴露給使用者非常少的介面)

良好的擴充套件性、高容錯性

適合pb

級以上海量資料的離線處理(各種開銷大)

yarn:

解決了mr在一些方面的短板

擴充套件受限、單點故障、難以支援mr之外的計算

多計算框架各自為站,資料共享困難(mr離線計算框架、storm實時計算框架、spark記憶體計算框架)

yarn的出現使得多種計算框架都執行於yarn上,使hadoop可以支援多種框架

hbase

--google bittable

的轉殖版

是乙個稀疏的、長期儲存的、多維度得到排序對映表,這張表的索引是行關鍵字,列關鍵字和時間戳。

表中的每個值是乙個純字元陣列,資料都是字串,沒有型別。

高可靠性、高效能、面向列、良好的擴充套件性、

hiv:

是建立在

hadoop

上(hdfs+mr)

的資料倉儲基礎構架

定義了一種類

sql的查詢語言

-----hql

hive

是基於mapreduce

,所以通常進行離線分析

hive

可以將使用者寫的

sql提交成

mapreduce

作業,所以直接寫

sql就可以完成,從而不用寫

mapreduce

作業pig:

是基於hadoop

的資料流系統,也是類似查詢

定義了一種資料流語言----pig latin

,相比於

hql更強大

zookeeper:

相當於整個集群的管理員,

zookeeper

是chubby

轉殖版具體架構:

可配置多個

servers

,乙個掛掉乙個,不會停止對外服務

內部用到乙個特殊的協議,協議的要求是server

的個數必須是奇數個(3、

5)特點是:統一命名、狀態同步、集群管理、配置同步

sqoop----資料同步工具

連線hadoop

與傳統資料庫之間的橋梁,支援多種資料庫,包括mysql、db2等

其實本質上是乙個mapreduce

程式,充分利用了mr分布式並行的特點

可並行的匯入匯出(即從hadoop

到傳統資料庫或者從傳統資料庫匯入到hadoop)

主要版本:

apache:官方版本、原生態版

cdh(cloudera):對a

pache

進行商業化的封裝支援、有商業支援、使用最多的版本

hdp(hortonworks data platform):hortonworks公司發行版本

hadoop學習筆記之zookeeper 安裝配置

zookeeper是乙個分布式的,開放原始碼的分布式應用程式協調服務,是google的chubby乙個開源的實現,是hadoop和hbase的重要元件。它是乙個為分布式應用提供一致性服務的軟體,提供的功能包括 配置維護 網域名稱服務 分布式同步 組服務等。由於工程師不能很好地使用鎖機制以及基於訊息協...

Hadoop學習筆記之YARN

yarn service框架提供了一流的支援和api,可以在yarn中本地化時間執行的服務。簡而言之 in a nutshell 它作為乙個容器編排平台,用於管理yarn上的貨櫃化服務。它支援yarn中的docker容器和傳統的基於程序的容器。該框架的職責包括執行配置解決方案和安裝,生命週期管理 如...

《Hadoop權威指南4》第1章 初識Hadoop

1.6 apache hadoop發展簡史 1.7 本書包含的內容 未來的資料很大,個人,公共網頁的資料等等都很多。大資料勝於好演算法。硬碟的讀寫速度很慢跟不上資料儲存分析的需要。hadoop的,hdfs和mapreduce解決了資料的儲存和分析的問題。mapreduce進行每一次查詢時要處理整個資...