大資料入門之Hadoop基礎學習

2021-08-21 09:04:25 字數 458 閱讀 1436

資料採集引擎 -> sqoop、flume
zookeeper:實現hadoop的ha

oozie:工作流引擎

第一階段:scala程式語言

第二階段:spark core -> 基於記憶體、資料的計算

第三階段:spark sql -> 類似於mysql 的sql語句

第四階段:spark streaming ->進行流式計算:比如:自來水廠

1、硬碟不夠大:多幾塊硬碟,理論上可以無限大

2、資料不夠安全:冗餘度,hdfs預設冗餘為3 ,用水平複製提高效率,傳輸按照資料庫為單位:hadoop1

.x 64m,hadoop2

.x 128m

![image.png](

大資料基礎Hadoop 2 x入門

儲存和分析網路資料 三大元件 hdfs yarn common hive 蜜蜂 通過使用sql語句來執行hadoop任務 hbase 儲存結構化資料的分布式資料庫 zookeeper 維護節點狀態 使用docker安裝 docker run i t p 50070 50070 p 9000 9000...

大資料入門Hadoop安裝

偽分布式 就是所有的程式都在一台主機上跑,完全是分布式的工作模式,但是不是真正的分布式 先上傳hadoop的安裝包到伺服器上去 home hadoop 注意 hadoop2.x的配置檔案 hadoop home etc hadoop 偽分布式需要修改5個配置檔案 3.1配置hadoop hdfs w...

大資料零基礎入門學習之Hadoop技術優缺點

hadoop的優點 1 hadoop具有按位儲存和處理資料能力的高可靠性。2 hadoop通過可用的計算機集群分配資料,完成儲存和計算任務,這些集群可以方便地擴充套件到數以千計的節點中,具有高擴充套件性。3 hadoop能夠在節點之間進行動態地移動資料,並保證各個節點的動態平衡,處理速度非常快,具有...