Hadoop學習筆記(一)

2022-09-13 11:36:08 字數 1630 閱讀 4813

apache旗下頂級開源專案之一

主要用於解決海量資料下的儲存分析

主要優勢有:

高可靠性

高擴充套件性

高效性高容錯性

其中mapreduce和hdfs(hadoop distribute file system)是hadoop核心

mapreduce的核心是對資料的排序優化

hadoop經典版本

0.20.2(hadoop開始廣泛關注的版本)

1.0.0(1.0系列開始)

1.0.3 1.0.4(實際生產主要應用的版本)

haddop跨院版本

0.23.0(跨越版本,yarn框架,hadoop2的基礎版本)

主要區別在於沒有hdfs的ha和federation特性

2.x版本(將1.x系列版本與0.23.0系列版本的合併)

2.0.x:屬於2.x系列版本的alpha版本

2.1.x:屬於2.x系列版本的beta版本

2.2.0、2.3.0、2.4.0版本:屬於正式版本,可用於實際生產環境,其中2.2.0版本是最合適生產的版本

2.0版本包含支援namenode橫向擴充套件的hdfs,乙個資源管理系統yarn和乙個執行在yarn上的離線計算框架mapreduce

相比1.0版本,具有更好擴充套件性,效能,並支援多種計算框架

hbase

實時分布式資料庫,基於hdfs,檔案放在hdfs上,速度非常快

zookeeper

分布式協作服務,協助hdfs工作

hive

對資料儲存的分類管理,並提供友好的資料管理管理介面api,提供hql進行資料管理,通過hive模組轉換為mapreduce操作語句,對hdfs進行管理

pig

動態語言,轉換為mapreduce進行操作,對資料流進行管理

mahout

資料探勘模組

sqoop

資料庫etl工具,將關係型資料庫中的資料與hdfs(hdfs檔案,hbase表,hive表)上的資料進行相互匯入匯出。

etl:提取+轉化+載入,從資料庫中獲取資料,並進行一系列的資料清理和清洗,將合格的資料進行轉換成一定的格式進行儲存到hdfs系統,以提供計算框架進行資料分析和挖掘。

格式化資料:

tsv格式:每行資料的每列之間以製表符』\t』進行分割

csv格式:每行資料的每列之間以製表符』,』進行分割

flume

系統日誌管理工具,將日誌儲存到指定的hbase目錄下

與hadoop1.0的主要不同

hdfs2

namenode ha單節點故障

namenode橫向擴充套件

yarn

對資源的管理,主要包括兩方面

1. 集群資源的管理

2. 所有任務的排程

Hadoop學習筆記(一)初識Hadoop

研究生階段將要接觸大資料和深度學習的知識,在網上找的教程大多一上來就是一堆名詞又解釋不清楚,對新手相當不友好,在慕課網看到乙個教程,利用部落格記錄下自己學習的過程。關於hadoop 最好的介紹莫過於官網的文件,hadoop的官網如下,我們一句一句來看看hadoop官網是怎麼介紹的。the apach...

hadoop學習筆記之一 初識hadoop

引言 最近了解到 使用hadoop的專案多了起來,hadoop對於許多測試人員來說或許是個新鮮玩兒,因此,把自己之前整理的學習筆記整理發上來,希望通過此系列文章快速了解hadoop的基本概念和架構原理,從而助於hadoop相關專案的測試理解和溝通。hadoop簡介 hadoop 是乙個實現了 map...

HADOOP學習筆記(一) HDFS

hdfs,它是乙個檔案系統,用於儲存檔案,通過目錄樹來定位檔案 其次,它是分布式的,由很多伺服器聯合起來實現其功能,集群中的伺服器有各自的角色。hdfs的設計適合一次寫入,多次讀出的場景,且不支援檔案的修改。適合用來做資料分析,並不適合用來做網盤應用。namenode 它維護著整個檔案系統的檔案資料...