大資料(044)CDH CDH介紹

2021-09-08 15:25:34 字數 1083 閱讀 3868

乙個產品的出現肯定是為了解決使用者的痛點,在大資料領域,我們這些使用hadoop、hive、hbase等的開發者來說就是其使用者。如果使用原生的apachehadoop,在工作中我總結出了如下痛點(部分):

1、集群規模很龐大時搭建hadoop集群複雜度越來越高,工作量很大

2、規模很大的集群下公升級hadoop版本很費時費力

3、需要自己保證版本相容,比如公升級hadoop版本後需要自己保證與hive、hbase等的相容

4、安全性很低

有了上述原生hadoop不足,apache官方和一些第三方就發布了一些hadoop發行版本來解決此類問題。一些有名的發行版本列舉如下:

• apache hadoop

• cloudera』s distribution including apache hadoop(cdh)

• hortonworks data platform (hdp)

• mapr

• emr

• …接下來我們開始介紹cdh

cdh是hadoop眾多分支中的一種,由cloudera維護,基於穩定版本的apache hadoop構建,全稱cloudera's distribution, including apache hadoop。

cdh提供了hadoop的核心可擴充套件儲存(hdfs)和分布式計算(mr),還提供了web頁面進行管理、監控。

• 版本劃分清晰

cdh3 基於hadoop1.x,目前已經不再更新

cdh4和cdh5基於hadoop2.x

• 版本更新速度快

• 支援kerberos安全認證

• 文件清晰

• 支援多種安裝方式(cloudera manager方式)

• cloudera manager

• yum

• rpm

• tarball

• cdh5.4

• cloudera manager5.4.3:

大資料介紹

大資料技術的戰略意義不在於掌握龐大的資料量,而在於對這些資料進行專業化處理。資料一直都在以每年50 的速度增長,也就是說每兩年就增長一倍。大資料是由結構化和非結構化資料組成的 10 的結構化資料,儲存在資料庫中 90 的非結構化資料,它們與人類資訊密切相關 資料結構 參閱c語言資料結構 資料結構是計...

大資料介紹

一 什麼是大資料 大資料是指無法在一定時間內用常規軟體工具對其內容進行抓取 管理和處理的資料集合。大資料技術,是指從各種各樣型別的資料中,快速獲得有價值資訊的能力。適用於大資料的技術,包括大規模並行處理 mpp 資料庫,資料探勘電網,分布式檔案系統,分布式資料庫,雲計算平台,網際網路,和可擴充套件的...

大資料產品介紹

elasticsearch elasticsearch 簡稱es 分布式可擴充套件去中心化的實時搜尋和分析引擎 去中心化 即無主節點,對外部來說,無論你訪問的是哪個節點,都是和整個集群在互信。它的主節點是可以通過選舉產生的。特點 分布式實時檔案儲存,並將每乙個欄位都編入索引,使其可以被搜尋 可以擴充...