大資料生態

2021-07-31 06:25:37 字數 875 閱讀 7722

目前而言,不收費的hadoop版本主要有三個(均是國外廠商),分別是:

apache(最原始的版本,所有發行版均基於這個版本進行改進)、

cloudera版本(cloudera』s distribution including apache hadoop,簡稱cdh)、

hortonworks版本(hortonworks data platform,簡稱「hdp」),大多數選擇cdh版本,部分選擇hdp版本。

大資料集群管理方式分為手工方式(apache hadoop)和工具方式(ambari + hdp 或cloudera manger + cdh)。

在hadoop的早期版本,基本啟動包含的節點為

secondarynamenode(hdfs)

jobtracker

tasktracker

datanode(hdfs)

namenode(hdfs)

現在包含的節點為

secondarynamenode(hdfs)

nodemanager

resourcemanager

namenode(hdfs)

datanode(hdfs)

hadoop的mapreduce的map task和reduce task都是程序級別的;而spark task則是基於執行緒模型的。

ranger支援對以下的hadoop元件:hdfs, hbase, hive, yarn, knox, storm, solr, kafka。

外部的大資料元件通過相應的ranger外掛程式對管理的資源執行授權檢查。授權的依據就是儲存於db上的策略,ranger外掛程式會定期從ranger admin出獲取最新的policy,預設的輪詢週期是30s。

一般使用solr進行日誌儲存。

大資料技術生態體系

1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫中。2 flume flume是clo...

大資料技術生態體系

大資料技術生態體系如圖2 26所示。圖中涉及的技術名詞解釋如下 1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdf...

大資料技術生態體系

大資料技術生態體系結構如下 圖中涉及的技術名詞解釋如下 1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料...