hadoop學習筆記

2022-09-10 21:30:42 字數 812 閱讀 8798

hadoop學習筆記

一,對hadoop的基本理解

hadoop是apache旗下的一套開源的軟體平台,主要是利用伺服器集群,根據使用者的自定義的業務邏輯,對海量資料的分布式處理。

這裡講一下分布式軟體系統:軟體系統會劃分成多個子系統或模組,各自執行在不同的機器上,子系統或模組之間通過網路通訊(rpc:遠端過程呼叫)進行協作,實現最終的整體功能。大白話就是說:分而治之。

二,hadoop的結構

hadoop的核心元件有:hdfs(分布式檔案管理系統),yarn(運算資源排程系統),maperduce(分布式運算程式設計框架)。hadoop通常是指乙個更廣泛的概念——hadoop生態圈。

除此之外還有一些重點元件:hive(基於大資料技術sql資料庫管理工具),hbase(基與hadoop的分布式海量資料庫),zookeeper(分布式協調服務基礎元件),mahout(基於mapreduce/spark/flink等分布式運算框架的機器學習演算法庫),oozie(工作流排程框架),sqoop(資料匯入匯出工具),flume(日誌資料採集框架)等。

三,對hadoop的集群理解

hadoop的集群總來說包含兩個集群:hdfs集群和yarn集群,兩者邏輯上分離,但是物理上常在一起。

hdfs集群:負責海量資料的儲存,集群中的主要角色有namenode和datanode。

yarn集群:負責海量資料運算是的資源排程,集群中的角色有resourcemanager和nodemanager。

mapreduce:其實就是乙個應用程式開發包,處理大量的半結構化資料集合的程式設計模型。與hadoop相互獨立,而又能相互配合工作。

Hadoop學習筆記 Hadoop初識

序言 資訊化發展到當今,網際網路的資料量是不斷地增加,那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向,這也之所以產生了各種平台的雲計算。對於網際網路而言,大資料量可分為兩種 第 一 大訪問量請求 第 二 大資料量處理。大訪問量請求這個事應用端應該思考的問題,如何很好的處理大的訪問量,如何...

Hadoop學習筆記

hadoop介紹 hadoop是google雲計算框架的開源實現,是乙個分布式儲存和分布式計算的框架,主要包括hdfs和mapreduce的實現。hdfs hdfs由乙個namenode和多個datanode組成,其中namenode相當於系統的元資料存放地,它是hadoop系統的神經中樞,而多個d...

Hadoop學習筆記

fsimage 記憶體元資料 editlog 效率 安全監測節點錯誤 datanode向namanode定時返回心跳 監測網路錯誤 資料傳送後返回ack 監測儲存錯誤 傳輸資料損壞,通過資料的checksum監測 硬碟儲存資料損壞,通過每個block的checksum監測 partition 將ma...