Hadoop學習筆記之Hadoop簡介

apache hadoop

是乙個開源的、可靠的、靈活的、分布式的計算系統（來自官網）

主要受google

三篇**的啟發（

gfs、

mapreduce

、bigtable

）hadoop

海量資料的儲存(hdfs)hadoop distributed file system

海量資料的分析(mapreduce)

hadoop2.0後出現

yarn

，所有計算框架執行於

yarn

上，只要符合一定的介面

storm、

spark

，mapreduce

等都可以執行在

yarn

yarn的出現使

hadoop

可以支援多種計算框架，而不僅僅是mr

雲計算與hadoop

之間的關係：

雲計算由三部分：

從底向上分別是：iaas

、paas

、saas

iaas：基礎設施即服務（

openstack

、cloudstack

等）paas：平台即服務（

，apache hadoop

）saas：軟體即服務，典型實現有：

可以看出apache hadoop

只是雲計算中的某一層中的實現而已

hadoop主要組成：

hdfs：分布式檔案系統

特點：

良好的擴充套件性

高容錯性，可靠性：通過備份提高

適用於pb

以上級別的儲存

mapreduce：平行計算框架

特點：易於程式設計（暴露給使用者非常少的介面）

良好的擴充套件性、高容錯性

適合pb

級以上海量資料的離線處理（各種開銷大）

yarn：

解決了mr在一些方面的短板

擴充套件受限、單點故障、難以支援mr之外的計算

多計算框架各自為站，資料共享困難（mr離線計算框架、storm實時計算框架、spark記憶體計算框架）

yarn的出現使得多種計算框架都執行於yarn上，使hadoop可以支援多種框架

hbase

--google bittable

的轉殖版

是乙個稀疏的、長期儲存的、多維度得到排序對映表，這張表的索引是行關鍵字，列關鍵字和時間戳。

表中的每個值是乙個純字元陣列，資料都是字串，沒有型別。

高可靠性、高效能、面向列、良好的擴充套件性、

hiv：

是建立在

hadoop

上(hdfs+mr)

的資料倉儲基礎構架

定義了一種類

sql的查詢語言

-----hql

hive

是基於mapreduce

，所以通常進行離線分析

hive

可以將使用者寫的

sql提交成

mapreduce

作業，所以直接寫

sql就可以完成，從而不用寫

mapreduce

作業pig：

是基於hadoop

的資料流系統，也是類似查詢

定義了一種資料流語言----pig latin

，相比於

hql更強大

zookeeper：

相當於整個集群的管理員，

zookeeper

是chubby

轉殖版具體架構：

可配置多個

servers

，乙個掛掉乙個，不會停止對外服務

內部用到乙個特殊的協議，協議的要求是server

的個數必須是奇數個（3、

5）特點是：統一命名、狀態同步、集群管理、配置同步

sqoop----資料同步工具

連線hadoop

與傳統資料庫之間的橋梁，支援多種資料庫，包括mysql、db2等

其實本質上是乙個mapreduce

程式，充分利用了mr分布式並行的特點

可並行的匯入匯出（即從hadoop

到傳統資料庫或者從傳統資料庫匯入到hadoop）

主要版本：

apache：官方版本、原生態版

cdh(cloudera)：對a

pache

進行商業化的封裝支援、有商業支援、使用最多的版本

hdp(hortonworks data platform)：hortonworks公司發行版本

hadoop學習筆記之zookeeper 安裝配置

zookeeper是乙個分布式的，開放原始碼的分布式應用程式協調服務，是google的chubby乙個開源的實現，是hadoop和hbase的重要元件。它是乙個為分布式應用提供一致性服務的軟體，提供的功能包括配置維護網域名稱服務分布式同步組服務等。由於工程師不能很好地使用鎖機制以及基於訊息協...

Hadoop學習筆記之YARN

yarn service框架提供了一流的支援和api，可以在yarn中本地化時間執行的服務。簡而言之 in a nutshell 它作為乙個容器編排平台，用於管理yarn上的貨櫃化服務。它支援yarn中的docker容器和傳統的基於程序的容器。該框架的職責包括執行配置解決方案和安裝，生命週期管理如...

《Hadoop權威指南4》第1章初識Hadoop

1.6 apache hadoop發展簡史 1.7 本書包含的內容未來的資料很大，個人，公共網頁的資料等等都很多。大資料勝於好演算法。硬碟的讀寫速度很慢跟不上資料儲存分析的需要。hadoop的，hdfs和mapreduce解決了資料的儲存和分析的問題。mapreduce進行每一次查詢時要處理整個資...

Hadoop學習筆記之Hadoop簡介

hadoop學習筆記之zookeeper 安裝配置

Hadoop學習筆記之YARN

《Hadoop權威指南4》第1章 初識Hadoop

相關推薦

《Hadoop權威指南4》第1章初識Hadoop