Hadoop 框架學習筆記之整體認知

2021-10-10 18:15:45 字數 2542 閱讀 8970

大資料是指無法在一定時間範圍內用常規的軟體工具進行捕捉,管理和處理資料集合,是需要新處理方法,才能有更強的決策力、洞察發現力和流程化能力的海量、高增長率和多樣化的資訊資產。

大資料的特點可以用ibm 曾經提出的 「5v」來描述,如下:

volume velocity variety veracity value

以pb為例,pb級別資料量有多大?是怎樣的乙個概念?

1pb 相當於50%的全美學術研究圖書館書諮詢內容。

(1)2023年,全球只有0.02eb也就是約21000tb的資料量

(2)2007 年,全球也就280eb,也就是約300000000的資料量,翻了14000倍

(3)這些年,由於移動網際網路以及物聯網的出現,各種終端裝置接入,各種業務形式的普及,平均每40個月,全球的資料量就會翻倍!2023年,每天會產生2.5eb的資料量;

(4)基於idc的報告**,從2023年到2023年,全球資料量會從4.42zb猛增加到44zb!到了2023年,全球會有163zb的資料量!全球的資料量已經大到**了!傳統的關係型資料庫根本處理不了如此海量的資料!

隨著大資料的發展,大資料技術已經廣泛應用在眾多行業,比如倉儲物流、電商零售、汽車、電信、生物醫學、人工智慧、智慧型城市等領域。包括在疫情防禦中,大資料技術也發揮了重要的作用。

hadoop 是乙個適合大資料的分布式儲存和計算平台。

如前所屬,狹義說hadoop就是乙個框架平台,廣義上將hadoop代表大資料的乙個技術生態圈,包括很多其他軟體框架。

hadoop生態圈技術棧

hadoop 的發展歷程可以用如下過程概述:

nutch -----> google **(gfs、mapreduce)

​ -----> hadoop產生

​ ------> 成為apache頂級專案

​ ------> cloudera 公司成立(hadoop快速發展)

google 的三篇**(三駕馬車)

gfs:google的分布式檔案系統(google file system)

mapreduce: google的分布式計算框架

bigtable:大型分布式資料庫

發展演變關係:

gfs-->hdfs

google mapreduce ---> hadoop mapreduce

bigtable --> hbase

hadoop是在計算機集群內分配資料並完成計算任務,集群可以方便的擴充套件數千個節點;

hadoop 通過普通廉價的機器組成伺服器集群來分發以及處理資料,以至於成本很低;

hadoop 可以在節點之前動態並行的移動資料,使得速度非常快

能自動維護資料的多份複製,並且在任務失敗後能自動的重新部署計算任務。

目前hadoop發行版本非常多,有cloudera發行版、hortonworks發行版、華為發行版、intel 發行版,所有這些發行版均是基於apache hadoop 衍生出來的,之所以這麼多版本,是由apache hadoop的開源協議決定的(任何人可以對其進行修改,並且作為開源或者商業產品發布/銷售)

企業總主要用到的三個版本分別是:apache hadoop版本(最原始的,所有發行版均基於這個版本進行改進)、cloudera版本(cloudera's distribution including apache hadoop,簡稱"cdh")、hortonworks版本(hortonworks data platform,簡稱」hdp「)。

優點:擁有全世界的貢獻,**更新比較快

缺點:版本的公升級,版本的維護,以及維護之間的相容性,學習非常方便

cloudera 主要是美國一家大資料公司在apache開源的hadoop版本上,通過自己的公司內部的各種補丁,實現版本之間的穩定執行,大資料生態圈的各個版本的軟體都提供了對應的版本,解決了版本的公升級困惑,版本相容性等各種問題,生產換寄給你強烈推薦使用。

hortonworks 主要是雅虎主導的hadoop開發的副總裁,帶領二十幾個核心成員以hortonworks,核心產品軟體hdp(ambari),hdf免費開源,整套的web管理介面,供我們可以通過web介面管理我們的集群狀態,web管理介面軟體hdf**:

0.x 系列版本:hadoop當中最早的乙個開源版本,在此基礎上演變而來的1.x以及2.x的版本

1.x系列版本:hadoop版本當中的第二代開源版本,主要修復0.x版本的一些bug;

2.x系列版本:架構產生重大變化,引入了yarn平台等新特性

3.x系列版本:ec技術、yarn的時間軸服務新特性

hadoop 的優點

hadoop 的缺點

● spring事務的坑都給你總結好了!!!

● api閘道器正在經歷身份危機

● 後端生成token架構與設計詳解

● hadoop 框架學習筆記之整體認知

如果資源對你有幫助的話

本文由部落格一文多發平台 openwrite 發布!

Hadoop學習筆記之Hadoop簡介

apache hadoop 是乙個開源的 可靠的 靈活的 分布式的計算系統 來自官網 主要受google 三篇 的啟發 gfs mapreduce bigtable hadoop 海量資料的儲存 hdfs hadoop distributed file system 海量資料的分析 mapreduc...

hadoop學習筆記之zookeeper 安裝配置

zookeeper是乙個分布式的,開放原始碼的分布式應用程式協調服務,是google的chubby乙個開源的實現,是hadoop和hbase的重要元件。它是乙個為分布式應用提供一致性服務的軟體,提供的功能包括 配置維護 網域名稱服務 分布式同步 組服務等。由於工程師不能很好地使用鎖機制以及基於訊息協...

Hadoop學習筆記之YARN

yarn service框架提供了一流的支援和api,可以在yarn中本地化時間執行的服務。簡而言之 in a nutshell 它作為乙個容器編排平台,用於管理yarn上的貨櫃化服務。它支援yarn中的docker容器和傳統的基於程序的容器。該框架的職責包括執行配置解決方案和安裝,生命週期管理 如...