Hadoop子模組的介紹

hadoop2.x成員模組介紹

zookeeper擔任三種角色，領導者，學習者，客戶端，主要是一種協調hadoop的機制。

|---領導者負責投票的發起和決議，更新系統狀態。

|---學習者--|--跟隨者--用於接收客戶端的請求並向客戶端返回結點，在選過程中負責參與投票

|--觀察者--可以接受客戶端的連線，將寫請求**給領導者，但觀察者不參與投票，只同步領導者狀態。目的是擴充套件系統，提高讀取速度。

|---客戶端--|--請求發起方

hbase結構化分布式非關聯式資料庫，bigtable的開源實現。

hivehive是建立在hadoop上的資料倉儲基礎構架。它提供了一系列的工具，可以用來進行資料提取轉化載入(etl)，這是一種可以儲存、查詢和分析儲存在hadoop中的大規模資料的機制。hive是一種底層封裝了hadoop的資料倉儲處理工具，使用類sql的hiveql語言實現資料查詢，所有hive的資料都儲存在hadoop相容的檔案系統(例如，amazon s3、hdfs)中。hive在載入資料過程中不會對資料進行任何的修改，只是將資料移動到hdfs中hive設定的目錄下。

sqoop將關係型資料庫中的資料與hdfs(hdfs檔案，hbase中表，hive表)上的資料進行相互的匯入和匯出。是資料庫etl工》提取----轉換-----載入。。。。從資料庫中獲取資料，並經過一系列的資料清理和篩選。將合格的資料進行轉換成為一定的格式資料進行儲存。將格式化的資料儲存到hdfs檔案系統上，以供計算框架進行資料分析和挖掘。

格式化資料：|

|------tsv格式：每行資料的每列之間以製表符\t進行分割

|------csv格式：每行資料的每列之間以製表符『，逗號』進行分割。

flume收集日誌工具，收集各個應用系統和框架的日誌，將其放到hdfs分布式檔案系統的相應制定的目錄下。

mahout:可伸縮的機器學習和資料探勘工具。

pig:高階資料流語言，執行平行計算。

chukwa：用於管理分布式系統的資料收集系統。

Hadoop子模組的介紹

Hadoop子模組的介紹

Pexpect模組的pxssh擴充套件子模組詳解

Git submodule子模組的使用

Hadoop子模組的介紹

Hadoop子模組的介紹

Pexpect模組的pxssh擴充套件子模組詳解

Git submodule子模組的使用

相關推薦